淘宝用强化学习优化商品搜索后，总收入能提高2%-51链

眼看618在即，淘宝又公布了新研究成果。

近日，南京大学和淘宝联合发表的论文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning中，详细介绍了淘宝用强化学习优化商品搜索的新技术。

这个新构建的“虚拟淘宝”模拟器，可以让算法从买家的历史行为中学习，规划最佳商品搜索显示策略，能在真实环境中让淘宝的收入提高2%，是一笔不小的数额。

一起看看这个研究究竟讲了什么——

强化学习（Reinforcement Learning，RL）是匹黑马，可能会对淘宝用户体验产生变革性影响，但在物理世界中的RL应用却少有人研究。

这是有原因的。一般来说，目前的RL算法通常需要与环境进行大量交互，成本高昂。

在这个项目中，淘宝研究人员通过买家的历史购买记录，生成了“虚拟淘宝（Virtual Taobao）”；平台，虚拟的买家可进入淘宝触发平台搜索引擎。

在这里，研究人员提出的GAN-SD（GAN-for-Simulating-Distribution）算法模仿虚拟买家的操作和搜索请求。

虚拟用户有了，但还还没有和环境产生交互。为了让虚拟平台产生交互变成动态环境，研究人员还提出了MAIL方法（Multi-agent Adversarial Imitation Learning），也可以称之为智能体对抗模仿学习法。MAIL同时学习买家规则和平台的规则，训练买家和平台产生更加真实的交互。

不过虚拟的终究是假的，当研究人员发现算法过度拟合虚拟淘宝时，意味着可能在实际情况下表现不佳。对此，研究人员提出了动作规范约束ANC策略（Action Norm Constraint），可以减少这种过拟合。

这样，“四位一体”的虚拟淘宝就建成了。

南宁肤康医院 https://yyk.familydoctor.com.cn/20955/

宁波海曙华仁皮肤专科门诊部 https://yyk.familydoctor.com.cn/7723/

【版权与免责声明】如发现内容存在版权问题，烦请提供相关信息发邮件至 1830498703@qq.com ，我们将及时沟通删除处理。以上内容均为网友发布，仅代表网友个人观点，不代表平台观点，涉及言论、版权与本站无关。