首页 首页 >  文章资讯

淘宝用强化学习优化商品搜索后,总收入能提高2%

发布者:挂号通6    发布时间:2018-06-04 15:54:50    浏览次数:191次

眼看618在即,淘宝又公布了新研究成果。

近日,南京大学和淘宝联合发表的论文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning中,详细介绍了淘宝用强化学习优化商品搜索的新技术。

这个新构建的“虚拟淘宝”模拟器,可以让算法从买家的历史行为中学习,规划最佳商品搜索显示策略,能在真实环境中让淘宝的收入提高2%,是一笔不小的数额。

一起看看这个研究究竟讲了什么——

强化学习(Reinforcement Learning,RL)是匹黑马,可能会对淘宝用户体验产生变革性影响,但在物理世界中的RL应用却少有人研究。

这是有原因的。一般来说,目前的RL算法通常需要与环境进行大量交互,成本高昂。

在这个项目中,淘宝研究人员通过买家的历史购买记录,生成了“虚拟淘宝(Virtual Taobao)”;平台,虚拟的买家可进入淘宝触发平台搜索引擎。

在这里,研究人员提出的GAN-SD(GAN-for-Simulating-Distribution)算法模仿虚拟买家的操作和搜索请求。

虚拟用户有了,但还还没有和环境产生交互。为了让虚拟平台产生交互变成动态环境,研究人员还提出了MAIL方法(Multi-agent Adversarial Imitation Learning),也可以称之为智能体对抗模仿学习法。MAIL同时学习买家规则和平台的规则,训练买家和平台产生更加真实的交互。

不过虚拟的终究是假的,当研究人员发现算法过度拟合虚拟淘宝时,意味着可能在实际情况下表现不佳。对此,研究人员提出了动作规范约束ANC策略(Action Norm Constraint),可以减少这种过拟合。

这样,“四位一体”的虚拟淘宝就建成了。

南宁肤康医院 https://yyk.familydoctor.com.cn/20955/

宁波海曙华仁皮肤专科门诊部 https://yyk.familydoctor.com.cn/7723/


【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至 335760480@qq.com ,我们将及时沟通删除处理。 以上内容均为网友发布,转载仅代表网友个人观点,不代表平台观点,涉及言论、版权与本站无关。