一种基于强化学习的跨行为信息推荐方法技术

技术编号：41527075 阅读：36 留言：0更新日期：2024-06-03 23:01

本申请提供了一种基于强化学习的跨行为信息推荐方法，通过获取用户和商品集，根据用户和商品的交互关系构成商品交互序列，根据递归转换函数得到第t‑1时刻的隐藏状态，基于隐藏状态和商品交互序列，利用动态选择模型得到第t时刻的最优状态，基于选择的最优状态，利用递归转换函数得到第t时刻的隐藏状态，利用第t时刻的隐藏状态获得用户嵌入向量和商品嵌入向量，获取候选商品集，计算用户与候选商品集中的候选商品交互的预测概率，将候选商品集中的候选商品的预测概率降序排序，对预测概率前Q的商品推荐给用户，在包含不确定性因素的交互序列中捕捉正确的依赖关系，提高了推荐的精准度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及推荐系统中的序列推荐领域，特别涉及一种基于强化学习的跨行为信息推荐方法。

技术介绍

1、推荐系统根据显式信息或隐式特征向用户提供物品的预测和推荐。作为推荐系统的一个重要分支，序列推荐被提出来预测用户在给出他的顺序交互数据时最可能感兴趣的内容。受机器翻译序列处理方法的启发，序列推荐成为当前的研究热点，人们对序列推荐任务进行了大量的研究。序列推荐在视频短片、音乐短片、电影短片等多种场景下都被证明是有效的，因为用户的下一个行为不仅取决于最近的偏好，还取决于用户的行为。

2、循环神经网络因其建模序列信息的天然特性，被应用到会话推荐系统中，利用门控机制控制隐藏状态对下游状态的影响，序列中的交互数据被循环神经网络以自然的方式进行拟合。由于循环神经网络(recurrent neural network,rnn)无法捕捉局部特征，一些研究将卷积神经网络(convolutional neural network，cnn)应用到推荐中，以捕捉用户的局部喜好。基于cnn的模型利用卷积过滤器抽取局部特征，但其池化操作可能会导致有用信息的丢...

【技术保护点】

1.一种基于强化学习的跨行为信息推荐方法，其特征在于，包括：

2.如权利要求1所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述根据用户和商品的交互关系，构成商品交互序列是指：每个用户u对商品集X中的商品x进行交互，将用户和商品的交互顺序按照时间序列{1,2,...,t-1,t}进行排序，得到商品交互序列{x1,x2,...,xn}，n表示商品交互序列中的商品个数，xi表示用户交互过的第i个商品的商品交互行为，所述商品交互序列包含t个时间的商品交互行为。

3.如权利要求2所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述基于隐藏状态和商品交互序...

【技术特征摘要】

1.一种基于强化学习的跨行为信息推荐方法，其特征在于，包括：

2.如权利要求1所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述根据用户和商品的交互关系，构成商品交互序列是指：每个用户u对商品集x中的商品x进行交互，将用户和商品的交互顺序按照时间序列{1,2,...,t-1,t}进行排序，得到商品交互序列{x1,x2,...,xn}，n表示商品交互序列中的商品个数，xi表示用户交互过的第i个商品的商品交互行为，所述商品交互序列包含t个时间的商品交互行为。

3.如权利要求2所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述基于隐藏状态和商品交互序列，利用动态选择模型得到第t时刻的最优状态的具体方法为：

4.如权利要求3所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述根据隐藏状态和商品交互序列得到智能体的环境表示的具体方法为：定义隐藏状态的初始值h1，即为第1时刻的隐藏状态，根据商品交互序列得到第2时刻的商品交互行为x2，将第1时刻的隐藏状态和第2时刻的商品交互序列进行融合得到第2时刻的隐藏状态h2，依次计算得到第t时刻的隐藏状态ht，所述ht通过递归转换函数获得；

5.如权利要求4所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述利用mlp函数将环境表示映射为概率分布，将概率最大的环境表示作为第t时刻的选择行为at的具体过程为：

6....

【专利技术属性】
技术研发人员：吴越红，周威，刘昌通，施国庆，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人