物品推荐方法和装置、计算机可读存储介质、电子设备制造方法及图纸

技术编号:26600502 阅读:18 留言:0更新日期:2020-12-04 21:23
本公开实施例公开了一种物品推荐方法和装置、计算机可读存储介质、电子设备,其中,方法包括:基于交互场景中获取的用户需求信息,获取n个目标物品;其中,所述n为大于等于1的整数;基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值;基于所述n个目标物品回报值对所述n个目标物品进行排序,按照所述排序将m个目标物品推荐给所述用户;本实施例通过第一排序模型实现对未来的影响的建模,能提供权衡用户短期和长期的参与度,由于考虑到当前推荐行为和用户的行为,能够实现对长期回报的预测,解决了仅针对短期目标时不停给用户推荐已有偏好的问题。

【技术实现步骤摘要】
物品推荐方法和装置、计算机可读存储介质、电子设备
本公开涉及个性化推荐技术,尤其是一种物品推荐方法和装置、计算机可读存储介质、电子设备。
技术介绍
个性化推荐系统是互联网和电子商务发展的产物,它是建立在海量数据挖掘基础上的一种高级商务智能平台,向顾客提供个性化的信息服务和决策支持。近年来已经出现了许多非常成功的大型推荐系统实例,与此同时,个性化推荐系统也逐渐成为学术界的研究热点之一。实际推荐系统主要关注短期的预测,仅估计用户对推荐的即时响应,优化的目标都是短期奖励shorttermreward,比如点击率、观看时长。在短期目标下,容易不停的给用户推荐已有的偏好。在另一面,当新用户或者无行为用户来的时候,会更倾向于推荐热门。
技术实现思路
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种物品推荐方法和装置、计算机可读存储介质、电子设备。根据本公开实施例的一个方面,提供了一种物品推荐方法,包括:基于交互场景中获取的用户需求信息,获取n个目标物品;其中,所述n为大于等于1的整数;基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值;基于所述n个目标物品回报值对所述n个目标物品进行排序,按照排序将m个所述目标物品推荐给所述用户。可选地,在基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值之前,还包括:利用已知目标物品集对所述第一排序模型进行训练;其中,所述已知目标物品集包括多个已知目标物品对应的交互双方的操作信息和交互结果信息,以及每个所述已知目标物品对应的已知回报值。可选地,所述利用已知目标物品集对所述第一排序模型进行训练,包括:迭代执行:以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息,结合第二排序模型利用强化学习方法,获得所述已知目标物品对应的损失;基于所述损失对所述第一排序模型的参数进行调整,直到所述损失满足预设条件,得到训练后的所述第一排序模型。可选地,所述以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息,结合第二排序模型利用强化学习方法,获得所述已知目标物品对应的损失,包括:利用所述第二排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理,得到第二预测回报值;以所述第二预测回报值和所述已知回报值,对所述第二排序模型进行参数调整,得到第二参数;基于所述第二参数更新所述第一排序模型,并利用所述更新后的第一排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理,得到第一预测回报值;根据所述第一预测回报值、所述第二预测回报值和所述已知回报值,确定所述已知目标物品对应的损失。可选地,所述交互双方的操作信息包括以下至少之一:交互双方中任意一方的点击操作、发送操作、回复操作;所述交互结果信息包括:转委托信息。可选地,所述第一排序模型包括因子分解机模型和深度神经网络模型;所述基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值,包括:利用所述因子分解机模型获得所述n个目标物品中的每个目标物品对应的低阶特征,得到n个低阶特征;利用所述深度神经网络模型获得所述n个目标物品中的每个目标物品对应的高阶特征,得到n个高阶特征;基于所述n个低阶特征和所述n个高阶特征,经过激活函数层和全连接层的处理,得到所述n个目标物品回报值。可选地,所述基于所述n个低阶特征和所述n个高阶特征,经过激活函数层和全连接层的处理,得到所述n个目标物品回报值,包括:分别将所述n个低阶特征中的每个低阶特征与所述n个高阶特征中对应的高阶特征进行连接,得到n个连接特征;利用所述激活函数层和所述全连接层对所述n个连接特征进行数值化处理,得到所述n个目标物品回报值。可选地,所述基于所述n个目标物品回报值对所述n个目标物品进行排序,按照排序将m个所述目标物品推荐给所述用户,包括:利用随机贪婪策略将所述n个目标物品回报值转换为概率表达,并按照概率采样对所述n个目标物品进行排序;按照所述排序将m个所述目标物品推荐给所述用户。可选地,所述基于交互场景中获取的用户需求信息,获取n个目标物品,包括:利用感知自然语言理解技术对交互场景中用户输入的信息进行槽位提取,得到至少一个槽位信息;根据所述至少一个槽位信息进行物品召回,得到多个物品;基于所述多个物品确定所述n个目标物品。可选地,所述基于所述多个物品确定所述n个目标物品,包括:根据用户画像对所述多个物品进行初排序,得到初始排序后的多个物品;其中,所述用户画像基于所述用户的历史行为信息确定;将所述初始排序后的多个物品中的前n个物品,确定为所述n个目标物品。根据本公开实施例的另一方面,提供了一种物品推荐装置,包括:需求识别模块,用于基于交互场景中获取的用户需求信息,获取n个目标物品;其中,n为大于等于1的整数;回报值预测模块,用于基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值;物品推荐模块,用于基于所述n个目标物品回报值对所述n个目标物品进行排序,按照排序将m个所述目标物品推荐给所述用户;其中,m为小于或等于n的整数。可选地,所述装置还包括:模型训练模块,用于利用已知目标物品集对所述第一排序模型进行训练;其中,所述已知目标物品集包括多个已知目标物品对应的交互双方的操作信息和交互结果信息,以及每个所述已知目标物品对应的已知回报值。可选地,所述模型训练模块,具体用于迭代执行:以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息,结合第二排序模型利用强化学习方法,获得所述已知目标物品对应的损失;基于所述损失对所述第一排序模型的参数进行调整,直到所述损失满足预设条件,得到训练后的所述第一排序模型。可选地,所述模型训练模块在以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息,结合第二排序模型利用强化学习方法,获得所述已知目标物品对应的损失时,用于利用所述第二排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理,得到第二预测回报值;以所述第二预测回报值和所述已知回报值,对所述第二排序模型进行参数调整,得到第二参数;基于所述第二参数更新所述第一排序模型,并利用所述更新后的第一排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理,得到第一预测回报值;根据所述第一预测回报值、所述第二预测回报值和所述已知回报值,确定所述已知目标物品对应的损失。可选地,所述交互双方的操作信息包括以下至少之一:交互双方中任意一方的点击操作、发送操作、回复操作;所述交互结果信息包括:转委托信息。可选地,所述第一排序模型包括因子分解本文档来自技高网...

【技术保护点】
1.一种物品推荐方法,其特征在于,包括:/n基于交互场景中获取的用户需求信息,获取n个目标物品;其中,n为大于等于1的整数;/n基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值;/n基于所述n个目标物品回报值对所述n个目标物品进行排序,按照排序将m个所述目标物品推荐给所述用户;其中,m为小于或等于n的整数。/n

【技术特征摘要】
1.一种物品推荐方法,其特征在于,包括:
基于交互场景中获取的用户需求信息,获取n个目标物品;其中,n为大于等于1的整数;
基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值;
基于所述n个目标物品回报值对所述n个目标物品进行排序,按照排序将m个所述目标物品推荐给所述用户;其中,m为小于或等于n的整数。


2.根据权利要求1所述的方法,其特征在于,在基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测,得到n个目标物品回报值之前,还包括:
利用已知目标物品集对所述第一排序模型进行训练;其中,所述已知目标物品集包括多个已知目标物品对应的交互双方的操作信息和交互结果信息,以及每个所述已知目标物品对应的已知回报值。


3.根据权利要求2所述的方法,其特征在于,所述利用已知目标物品集对所述第一排序模型进行训练,包括:
迭代执行:以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息,结合第二排序模型利用强化学习方法,获得所述已知目标物品对应的损失;
基于所述损失对所述第一排序模型的参数进行调整,直到所述损失满足预设条件,得到训练后的所述第一排序模型。


4.根据权利要求3所述的方法,其特征在于,所述以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息,结合第二排序模型利用强化学习方法,获得所述已知目标物品对应的损失,包括:
利用所述第二排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理,得到第二预测回报值;
以所述第二预测回报值和所述已知回报值,对所述第二排序模型进行参数调整,得到第二参数;
基于所述第二参数更新所述第一排序模型,并利用所述更新后的第一排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理,得到第一预测回报值;
根据所述第一预测回报值、所述第二预测回报值和所述已知回报值,确定所述已知目标物品对应的损失。


5.根据权利要求3或4所述的方法,其特征在于,所述交互双方的操作信息包括以下至少之...

【专利技术属性】
技术研发人员:王文彬田琳张玲玲
申请(专利权)人:贝壳技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1