一种推荐列表的生成方法、装置和电子设备制造方法及图纸

技术编号:24169348 阅读:35 留言:0更新日期:2020-05-16 02:26
本说明书一个或多个实施例提供一种推荐列表的生成方法、装置和电子设备;所述方法包括:获取用户的用户特征;根据所述用户特征和预先训练的强化学习模型,得到所述用户点击推荐列表中的列表项的预测结果;响应于所述用户对所述推荐列表中的列表项的点击操作,得到点击结果;根据所述预测结果和所述点击结果,确定对应于所述预测结果的奖励分数;确定基准奖励分数;根据所述基准奖励分数,采用策略梯度算法优化所述强化学习模型,优化后的所述强化学习模型用于生成对应于所述用户的推荐列表。

A method, device and electronic device for generating recommended list

【技术实现步骤摘要】
一种推荐列表的生成方法、装置和电子设备
本说明书一个或多个实施例涉及计算机
,尤其涉及一种推荐列表的生成方法、装置和电子设备。
技术介绍
随着互联网技术的蓬勃发展,网络服务商为用户提供了诸如新闻、商品、图片、视频、音频、文档等的大量的各种不同类型的在线服务。在向用户推送这些服务时,一般是通过推荐列表来实现的。推荐列表的内容,即包括有有对应于不同服务的列表项,用户通点击推荐列表中的列表项即能够获取或链接至相应服务。那么如何实现个性化推荐,也即如何使推荐列表中的列表项能够符合用户的兴趣,以提高推荐列表的针对性和准确度,便成为了列表推荐领域的一个重要问题。
技术实现思路
有鉴于此,本说明书一个或多个实施例的目的在于提出一种推荐列表的生成方法、装置和电子设备。基于上述目的,本说明书一个或多个实施例提供了一种推荐列表的生成方法,包括:获取用户的用户特征;根据所述用户特征和预先训练的强化学习模型,得到所述用户点击推荐列表中的列表项的预测结果;响应于所述用户对所述推荐列表中的列表项的点击操作,得到点击本文档来自技高网...

【技术保护点】
1.一种推荐列表的生成方法,包括:/n获取用户的用户特征;/n根据所述用户特征和预先训练的强化学习模型,得到所述用户点击推荐列表中的列表项的预测结果;/n响应于所述用户对所述推荐列表中的列表项的点击操作,得到点击结果;/n根据所述预测结果和所述点击结果,确定对应于所述预测结果的奖励分数;/n确定基准奖励分数;/n根据所述基准奖励分数,采用策略梯度算法优化所述强化学习模型,优化后的所述强化学习模型用于生成对应于所述用户的推荐列表。/n

【技术特征摘要】
1.一种推荐列表的生成方法,包括:
获取用户的用户特征;
根据所述用户特征和预先训练的强化学习模型,得到所述用户点击推荐列表中的列表项的预测结果;
响应于所述用户对所述推荐列表中的列表项的点击操作,得到点击结果;
根据所述预测结果和所述点击结果,确定对应于所述预测结果的奖励分数;
确定基准奖励分数;
根据所述基准奖励分数,采用策略梯度算法优化所述强化学习模型,优化后的所述强化学习模型用于生成对应于所述用户的推荐列表。


2.根据权利要求1所述的推荐列表的生成方法,所述用户特征包括以下中的至少一项:画像特征、行为轨迹特征、服务使用特征。


3.根据权利要求1所述的推荐列表的生成方法,所述根据所述预测结果和所述点击结果,确定对应于所述预测结果的奖励分数,包括:
根据所述预测结果和所述点击结果,分别确定预测结果表示向量和点击结果表示向量;
计算所述预测结果表示向量与所述点击结果表示向量的向量距离,根据所述向量距离确定所述奖励分数。


4.根据权利要求1所述的推荐列表的生成方法,所述确定基准奖励分数,包括:
获取若干历史奖励分数;所述历史奖励分数对应于所述强化学习模型输出的历史预测结果;
将若干所述历史奖励分数的平均值作为所述基准奖励分数。


5.根据权利要求1所述的推荐列表的生成方法,所述确定基准奖励分数,包括:
根据所述用户特征和预先训练的奖励预估模型,得到所述基准奖励分数。


6.根据权利要求5所述的推荐列表的生成方法,所述得到所述基准奖励分数之后,还包括:
以所述奖励分数为训练目标,训练所述奖励预估模型。


7.根据权利要求1所述的推荐列表的生成方法,所述根据所述基准奖励分数,采用策略梯度算法优化所述强化学习模型,包括:
在优化所述强化学习模型的每次迭代中,均将本次迭代中获得的奖励分数减去所述基准奖励分数。


8.根据权利要求1所述的推荐列表的生成方法,还包括:
根据优化后的所述强化学习模型,确定至少一个列表项;
根据所述列表项,生成对应于所述用户的推荐列表并向所述用户推送或展示。


9.一种推荐列表的...

【专利技术属性】
技术研发人员:刘俊宏张望舒温祖杰
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1