一种融合用户偏好预测的深度强化学习推荐方法技术

技术编号:32245502 阅读:108 留言:0更新日期:2022-02-09 17:49
本发明专利技术为一种融合用户偏好预测的深度强化学习推荐方法,属于大数据人工智能深度学习领域。该方法包含以下步骤:S1:录入用户行为和项目的历史交互相关数据,对数据进行预处;S2:根据用户行为,建立用户长短期偏好模型,得到历史用户偏好;S3:建立用户未来偏好预测模型,预测下一时刻的未来用户偏好;S4:建立用户、项目、时间之间的上下文知识表征;S5:利用注意力机制将历史用户偏好、未来用户偏好和用户的上下文知识表征进行融合,得到用户当前时刻的状态表征;S6:搭建基于强化学习网络的推荐系统;S7:利用训练好的推荐系统对用户进行项目推荐。本发明专利技术方法能够增强用户偏好不确定的表征能力,提升推荐系统的用户体验感。提升推荐系统的用户体验感。提升推荐系统的用户体验感。

【技术实现步骤摘要】
一种融合用户偏好预测的深度强化学习推荐方法


[0001]本专利技术涉及一种融合用户偏好预测的深度强化学习推荐方法,属于大数据人工智能领域,尤其适用于融合用户偏好预测的深度强化学习推荐。

技术介绍

[0002]随着互联网和自动技术的飞速发展,现在越来越多的人都拥有智能手机,平板电脑和其他智能终端,这使得生产、生活的数据信息呈爆炸式增长,这就导致了信息超载问题。当用户在搜索其感兴趣的信息时,会花费大量的时间和精力去过滤掉无用的信息,然而结果往往无法让用户的满意,于是,个性化推荐技术应时而生。个性化推荐技术是指利用用户某种兴趣点和购买特点,向用户推荐感兴趣的内容,是解决信息超载问题的有效途径。
[0003]在序列推荐系统领域,如电子商务或者在线服务平台,用户与推荐系统之间往往会发生持续密切的交互行为。在这一过程中,用户的偏好通常会显著地随着推荐结果的不同而发生动态漂移。导致用户的偏好存在不确定性。为了有效消减用户偏好不确定对推荐系统的影响,理想的方法是在充分获取用户历史数据的前提下,设计并训练特定的监督模型,从而得到用户对于不同物品的喜好程度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,该方法包含以下步骤:S1:录入用户行为和项目的历史交互相关数据,对数据进行预处理;S2:根据用户行为,建立用户长短期偏好模型,得到历史用户偏好;S3:利用深度学习方法建立用户未来偏好预测模型,预测下一时刻的未来用户偏好;S4:建立异质图网络,建立用户、项目、时间之间的上下文知识表征;S5:利用注意力机制将历史用户偏好、未来用户偏好和用户的上下文知识表征进行融合,得到用户当前时刻的状态表征;S6:搭建基于强化学习网络的推荐系统,将所有的用户当前时刻的状态表征作为强化学习推荐系统的状态空间,并利用历史交互数据对网络参数进行训练;S7:利用训练好的推荐系统对用户进行项目推荐;所述的用户的集合为U=[u1,u2,

,u
m
],所述的项目的集合为I=[i1,i2,

,i
n
],所述的用户行为是统计用户和项目之间交互行为的n
×
m
×
k维的矩阵,T=[T1,T2,

,T
k
]为时间维度。2.根据权利要求1所述的一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,所述的强化学习网络的推荐系统由一个包含五个元素的元组组成,其中,R为回报函数,为状态转移概率,γ为折现因子;所述的用户当前时刻的状态表征被抽象成为状态空间S;所述的所有项目集合I被当作动作空间A。3.根据权利要求1所述的一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,步骤S1所述的对数据进行预处理包括:(1)删除重复数据和缺失、错误数据;(2)统计汇总用户、项目和用户行为;(3)剔除用户行为数据太少会造成冷启动的数据。4.根据权利要求1所述的一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,所述的所有用户的用户行为P需要按照自定义的时间窗口T=[T1,T2,

,T
k
]分割为k个单元,所述的时间窗口为等长时间段。5.根据权利要求1所述的一种融合用户偏好预测的深度强化学习推荐方法,其特征在于,所述的步骤S2具体为:(1)利用自动编码器将用户u
j
进行编码,得到用户编号(2)利用自动编码器将用户u
j
的历史用户行为的时间分别进行编码,得到用户u
j

【专利技术属性】
技术研发人员:史晓雨尚明生
申请(专利权)人:中国科学院重庆绿色智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1