眼看618在即,淘宝又公布了新研究成果。
近日,南京大学和淘宝联合发表的论文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning中,详细介绍了淘宝用强化学习优化商品搜索的新技术。
这个新构建的“虚拟淘宝”模拟器,可以让算法从买家的历史行为中学习,规划最佳商品搜索显示策略,能在真实环境中让淘宝的收入提高2%,是一笔不小的数额。
一起看看这个研究究竟讲了什么——
强化学习(Reinforcement Learning,RL)是匹黑马,可能会对淘宝用户体验产生变革性影响,但在物理世界中的RL应用却少有人研究。
这是有原因的。一般来说,目前的RL算法通常需要与环境进行大量交互,成本高昂。
在这个项目中,淘宝研究人员通过买家的历史购买记录,生成了“虚拟淘宝(Virtual Taobao)”;平台,虚拟的买家可进入淘宝触发平台搜索引擎。
在这里,研究人员提出的GAN-SD(GAN-for-Simulating-Distribution)算法模仿虚拟买家的操作和搜索请求。
虚拟用户有了,但还还没有和环境产生交互。为了让虚拟平台产生交互变成动态环境,研究人员还提出了MAIL方法(Multi-agent Adversarial Imitation Learning),也可以称之为智能体对抗模仿学习法。MAIL同时学习买家规则和平台的规则,训练买家和平台产生更加真实的交互。
不过虚拟的终究是假的,当研究人员发现算法过度拟合虚拟淘宝时,意味着可能在实际情况下表现不佳。对此,研究人员提出了动作规范约束ANC策略(Action Norm Constraint),可以减少这种过拟合。
这样,“四位一体”的虚拟淘宝就建成了。
南宁肤康医院 https://yyk.familydoctor.com.cn/20955/
宁波海曙华仁皮肤专科门诊部 https://yyk.familydoctor.com.cn/7723/