物品推荐方法和装置、计算机可读存储介质、电子设备制造方法及图纸

技术编号：26600502 阅读：18 留言：0更新日期：2020-12-04 21:23

本公开实施例公开了一种物品推荐方法和装置、计算机可读存储介质、电子设备，其中，方法包括：基于交互场景中获取的用户需求信息，获取n个目标物品；其中，所述n为大于等于1的整数；基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；基于所述n个目标物品回报值对所述n个目标物品进行排序，按照所述排序将m个目标物品推荐给所述用户；本实施例通过第一排序模型实现对未来的影响的建模，能提供权衡用户短期和长期的参与度，由于考虑到当前推荐行为和用户的行为，能够实现对长期回报的预测，解决了仅针对短期目标时不停给用户推荐已有偏好的问题。

全部详细技术资料下载

【技术实现步骤摘要】
物品推荐方法和装置、计算机可读存储介质、电子设备
本公开涉及个性化推荐技术，尤其是一种物品推荐方法和装置、计算机可读存储介质、电子设备。
技术介绍
个性化推荐系统是互联网和电子商务发展的产物，它是建立在海量数据挖掘基础上的一种高级商务智能平台，向顾客提供个性化的信息服务和决策支持。近年来已经出现了许多非常成功的大型推荐系统实例，与此同时，个性化推荐系统也逐渐成为学术界的研究热点之一。实际推荐系统主要关注短期的预测，仅估计用户对推荐的即时响应，优化的目标都是短期奖励shorttermreward，比如点击率、观看时长。在短期目标下，容易不停的给用户推荐已有的偏好。在另一面，当新用户或者无行为用户来的时候，会更倾向于推荐热门。
技术实现思路
为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种物品推荐方法和装置、计算机可读存储介质、电子设备。根据本公开实施例的一个方面，提供了一种物品推荐方法，包括：基于交互场景中获取的用户需求信息，获取n个目标物品；其中，所述n为大于等于1的整数；基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；基于所述n个目标物品回报值对所述n个目标物品进行排序，按照排序将m个所述目标物品推荐给所述用户。可选地，在基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值之前，还包括：利用已知目标物品集对所述第一排序模型进行训练；其中，所述已知目标物...

【技术保护点】
1.一种物品推荐方法，其特征在于，包括：/n基于交互场景中获取的用户需求信息，获取n个目标物品；其中，n为大于等于1的整数；/n基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；/n基于所述n个目标物品回报值对所述n个目标物品进行排序，按照排序将m个所述目标物品推荐给所述用户；其中，m为小于或等于n的整数。/n

【技术特征摘要】
1.一种物品推荐方法，其特征在于，包括：
基于交互场景中获取的用户需求信息，获取n个目标物品；其中，n为大于等于1的整数；
基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；
基于所述n个目标物品回报值对所述n个目标物品进行排序，按照排序将m个所述目标物品推荐给所述用户；其中，m为小于或等于n的整数。

2.根据权利要求1所述的方法，其特征在于，在基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值之前，还包括：
利用已知目标物品集对所述第一排序模型进行训练；其中，所述已知目标物品集包括多个已知目标物品对应的交互双方的操作信息和交互结果信息，以及每个所述已知目标物品对应的已知回报值。

3.根据权利要求2所述的方法，其特征在于，所述利用已知目标物品集对所述第一排序模型进行训练，包括：
迭代执行：以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得所述已知目标物品对应的损失；
基于所述损失对所述第一排序模型的参数进行调整，直到所述损失满足预设条件，得到训练后的所述第一排序模型。

4.根据权利要求3所述的方法，其特征在于，所述以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得所述已知目标物品对应的损失，包括：
利用所述第二排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第二预测回报值；
以所述第二预测回报值和所述已知回报值，对所述第二排序模型进行参数调整，得到第二参数；
基于所述第二参数更新所述第一排序模型，并利用所述更新后的第一排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第一预测回报值；
根据所述第一预测回报值、所述第二预测回报值和所述已知回报值，确定所述已知目标物品对应的损失。

5.根据权利要求3或4所述的方法，其特征在于，所述交互双方的操作信息包括以下至少之...

【专利技术属性】
技术研发人员：王文彬，田琳，张玲玲，
申请(专利权)人：贝壳技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人