一种交互式的项目推荐方法技术

技术编号:39426753 阅读:14 留言:0更新日期:2023-11-19 16:13
本发明专利技术公开一种交互式的项目推荐方法

【技术实现步骤摘要】
一种交互式的项目推荐方法、装置及计算机可读存储介质


[0001]本专利技术涉及面向大数据的深度学习领域,尤其涉及一种交互式的项目推荐方法

装置及介质


技术介绍

[0002]基于深度强化学习的交互式推荐系统可以通过与用户的交互来学习其偏好,并为其推荐相关项目

相较于传统推荐系统,基于深度强化学习的交互式推荐系统更能敏感地从环境中感知用户偏好的变化

[0003]深度强化学习算法与基于这类算法建模的推荐系统面临的主要问题是相似的,即在高维状态空间下进行动作探索和决策的复杂度问题,以及在函数策略优化方面的收敛性问题

而基于深度学习的传统推荐系统虽然能通过分析用户与项目相关特征来提升系统对用户固定偏好的预测能力,却无法针对偏好随时间不断变化的用户进行准确的推荐


技术实现思路

[0004]本专利技术实施例提供一种交互式的项目推荐方法

装置及计算机可读存储介质,通过
GMF
网络增强对用户与项目之间相似信息的利用率,通过不断更新的评论家网络和行动者网络,降低用户偏好变化带来的偏差项对用户推荐内容的影响

[0005]为实现上述目的,本申请实施例的第一方面提供了一种交互式的项目推荐方法,包括:
[0006]从随机抽取的样品批次中获取用户嵌入特征与项目嵌入特征;
[0007]使所述用户嵌入特征与所述项目嵌入特征通过训练好的
GMF
网络,获取由用户嵌入特征向量和项目嵌入特征向量拼接得到的协同特征向量;
[0008]根据通过评论家网络得到的动作价值函数和自更新温控因子调节的熵项,确认行动者网络中的策略函数;
[0009]根据所述协同特征向量,得到当前状态;
[0010]根据所述当前状态和所述策略函数,得到当前动作并将所述当前动作转换成项目推荐列表

[0011]在第一方面的一种可能的实现方式中,所述
GMF
网络的训练过程为:
[0012]从历史记录中获取用户真实偏好;
[0013]通过采样获得多个用户嵌入特征和多个项目嵌入特征;
[0014]在
GMF
层中,将每个用户嵌入特征与对应的项目嵌入特征进行特征交叉,得到多个交叉特征;
[0015]在丢弃层,通过随机选择并关关闭部分神经元,对所述多个交叉特征进行拟合;
[0016]在预测层,每次根据一个交叉特征获取用户预测偏好后,根据所述用户预测偏好和所述用户真实偏好的差异,更新一次预测函数

[0017]在第一方面的一种可能的实现方式中,所述根据一个交叉特征获取用户预测偏
好,具体包括:
[0018]采用全连接层的方式构建预测函数;
[0019]根据所述预测函数获取用户预测偏好

[0020]在第一方面的一种可能的实现方式中,所述根据所述用户预测偏好和所述用户真实偏好的差异,更新一次预测函数,具体包括:
[0021]通过比较所述用户预测偏好和所述用户真实偏好的差异,更新损失函数的梯度;
[0022]根据所述损失函数对所述预测函数和所述丢弃层的参数进行更新

[0023]在第一方面的一种可能的实现方式中,所述根据所述当前状态和所述策略函数,得到当前动作,具体包括:
[0024]根据所述当前状态确认当前状态下可选项目的集合;
[0025]根据每个项目的推荐记录确认屏蔽向量的取值;
[0026]根据所述当前状态下可选项目的集合

所述屏蔽向量和所述策略函数,获取当前动作

[0027]在第一方面的一种可能的实现方式中,所述将所述当前动作转换成项目推荐列表,具体包括:
[0028]获取各个项目对应的推荐概率;
[0029]根据所述推荐概率的大小对各个项目进行降序排列;
[0030]将在降序排列中排在前面的预设数量的项目制作成项目推荐列表

[0031]在第一方面的一种可能的实现方式中,所述得到当前动作并将所述当前动作转换成项目推荐列表之后,还包括:
[0032]通过与用户环境的实时交互获得当前奖励;
[0033]通过与用户环境的历史交互获得历史奖励;
[0034]根据所述历史奖励和所述当前奖励获得目标状态,并将所述当前状态

所述当前动作

所述当前奖励

所述目标状态以四元组的形式存入优先经验回放技术池;
[0035]从所述优先经验回放技术池采样四元组,将所述采样结果输入所述评论家网络中,从所述评论家网络中的动作价值函数获得动作价值项;
[0036]根据所述动作价值项和通过
α
函数得到的熵更新项,更新所述策略函数

[0037]在第一方面的一种可能的实现方式中,所述更新所述策略函数之后,还包括:
[0038]根据所述动作价值函数对所述策略函数,得到策略函数评估项;
[0039]根据所述策略函数评估项和的真实动作价值项,更新动作价值函数和
α
函数;所述真实动作价值项是根据所述当前奖励和目标状态价值得到的,所述目标状态价值包含衰减因子的目标动作价值项与通过所述
α
函数得到的熵项,所述目标动作价值项是通过所述策略函数评估所述目标状态得到的

[0040]本申请实施例的第二方面提供了一种交互式的项目推荐装置,包括:
[0041]随机获取模块,用于从随机抽取的样品批次中获取用户嵌入特征与项目嵌入特征;
[0042]向量获取模块,用于使所述用户嵌入特征与所述项目嵌入特征通过训练好的
GMF
网络,获取由用户嵌入特征向量和项目嵌入特征向量拼接得到的协同特征向量;
[0043]函数确认模块,用于根据通过评论家网络得到的动作价值函数和自更新温控因子
调节的熵项,确认行动者网络中的策略函数;
[0044]状态获取模块,用于根据所述协同特征向量,得到当前状态;
[0045]项目推荐模块,用于根据所述当前状态和所述策略函数,得到当前动作并将所述当前动作转换成项目推荐列表

[0046]本申请实施例的第三方面提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述交互式的项目推荐方法

[0047]相比于现有技术,本专利技术实施例提供的一种交互式的项目推荐方法

装置及计算机可读存储介质,推荐过程由
GMF
网络

评论家网络

行动者网络

模拟用户环境和优先经验回放池共同完成

通过
GMF
网络来训练用户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种交互式的项目推荐方法,其特征在于,包括:从随机抽取的样品批次中获取用户嵌入特征与项目嵌入特征;使所述用户嵌入特征与所述项目嵌入特征通过训练好的
GMF
网络,获取由用户嵌入特征向量和项目嵌入特征向量拼接得到的协同特征向量;根据通过评论家网络得到的动作价值函数和自更新温控因子调节的熵项,确认行动者网络中的策略函数;根据所述协同特征向量,得到当前状态;根据所述当前状态和所述策略函数,得到当前动作并将所述当前动作转换成项目推荐列表
。2.
如权利要求1所述的交互式的项目推荐方法,其特征在于,所述
GMF
网络的训练过程为:从历史记录中获取用户真实偏好;通过采样获得多个用户嵌入特征和多个项目嵌入特征;在
GMF
层中,将每个用户嵌入特征与对应的项目嵌入特征进行特征交叉,得到多个交叉特征;在丢弃层,通过随机选择并关关闭部分神经元,对所述多个交叉特征进行拟合;在预测层,每次根据一个交叉特征获取用户预测偏好后,根据所述用户预测偏好和所述用户真实偏好的差异,更新一次预测函数
。3.
如权利要求2所述的交互式的项目推荐方法,其特征在于,所述根据一个交叉特征获取用户预测偏好,具体包括:采用全连接层的方式构建预测函数;根据所述预测函数获取用户预测偏好
。4.
如权利要求2所述的交互式的项目推荐方法,其特征在于,所述根据所述用户预测偏好和所述用户真实偏好的差异,更新一次预测函数,具体包括:通过比较所述用户预测偏好和所述用户真实偏好的差异,更新损失函数的梯度;根据所述损失函数对所述预测函数和所述丢弃层的参数进行更新
。5.
如权利要求1所述的交互式的项目推荐方法,其特征在于,所述根据所述当前状态和所述策略函数,得到当前动作,具体包括:根据所述当前状态确认当前状态下可选项目的集合;根据每个项目的推荐记录确认屏蔽向量的取值;根据所述当前状态下可选项目的集合

所述屏蔽向量和所述策略函数,获取当前动作
。6.
如权利要求1所述的交互式的项目推荐方法,其特征在于,所述将所述当前动作转换成项目推荐列表,具体包括:获取各个项目对应的推荐概率;根据所述推荐概率的大小对各个项目进行...

【专利技术属性】
技术研发人员:魏文国陈俊儒
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1