基于构建高计算效率的深度强化学习推荐系统的推荐方法技术方案

技术编号:35899482 阅读:16 留言:0更新日期:2022-12-10 10:34
本发明专利技术提供了一种基于构建高计算效率的深度强化学习推荐系统的推荐方法,包括以下步骤:步骤S1,采用马尔可夫决策过程对推荐系统建模;步骤S2,根据所有用户的历史记录,建立U行M列的用户评分矩阵,并通过矩阵分解获得用户与推荐系统交互的状态表征用户特征矩阵X和项目特征矩阵Y;步骤S3,对推荐系统的推荐策略进行建模与学习训练,其中所述推荐策略采用神经网络进行表征,且神经网络输出层采用稀疏矩阵进行参数建模;步骤S4,推荐系统部署,利用训练好的推荐策略,根据用户的历史数据进行项目推荐。本发明专利技术通过改善深度强化学习中神经网络的输出层,减小计算复杂度,提升了学习的效率,帮助解决了在巨大的离散动作空间中的学习。帮助解决了在巨大的离散动作空间中的学习。帮助解决了在巨大的离散动作空间中的学习。

【技术实现步骤摘要】
基于构建高计算效率的深度强化学习推荐系统的推荐方法


[0001]本专利技术涉及一种基于构建高计算效率的深度强化学习推荐系统的推荐方法,属于大数据人工智能领域,尤其适用于推荐条目巨大的应用场景。

技术介绍

[0002]推荐系统在网络生活中发挥着至关重要的作用,其主要目的是根据用户的历史数据向用户推荐可能所需的项目。传统的推荐系统方法有协同过滤、矩阵分解和基于内容的排序等。然而,这些算法都预先假设用户的偏好在整个过程中保持不变,其推荐结果往往难以让用户满意。最近的一些研究表明,将推荐系统建模为一个强化学习问题,通过最大化用户未来可能给出的总评分作为优化目标,可以有效地对用户的偏好进行动态建模,提升推荐系统的表现与性能。
[0003]然而,在实际应用中,推荐系统中推荐的项目个数往往非常巨大。例如,在电影推荐系统中,可推荐的电影有百万部以上;在线商品推荐系统中,可推荐的商品项目往往数以亿计。利用强化学习方法解决时,面对这种海量决策空间,如何对用户历史行为进行建模是提升推荐性能的一个关键因素。同时,这种巨大的决策空间会造成学习和决策效率低下,影响了强化学习方法的落地。

技术实现思路

[0004]本专利技术的目的是提供一种基于构建高计算效率的深度强化学习推荐系统的推荐方法,通过将深度强化学习中的神经网络的参数大规模的降低,减少在巨大离散空间中的决策时间,并提升其学习和决策的效率。
[0005]为了达到上述目的,本专利技术通过以下的技术方案来实现:
[0006]一种基于构建高计算效率的深度强化学习推荐系统的推荐方法,其特征在于包括以下步骤:
[0007]步骤S1,采用马尔可夫决策过程对推荐系统建模;
[0008]步骤S2,根据所有用户的历史记录的时序数据,建立U行M列的用户评分矩阵,并通过矩阵分解获得用户与推荐系统交互的状态表征用户特征矩阵X和项目特征矩阵Y;
[0009]步骤S3,对推荐系统的推荐策略进行建模与学习训练,其中所述推荐策略采用神经网络进行表征,且神经网络输出层采用稀疏矩阵进行参数建模;
[0010]步骤S4,利用训练好的推荐策略,根据用户的历史浏览记录的时序数据((选取当前选择前的时序数据,比如过去一段时间看过哪些条目),利用S2)所述状态构建方法,得到用户行为表征,把行为表征输入到训练好的推荐策略神经网络中,计算得到输出,根据输出进行项目推荐。
[0011]在采用上述技术方案的基础上,本专利技术还可采用以下进一步的技术方案,或对这些进一步的技术方案组合使用:
[0012]步骤S1中采用的马尔可夫决策过程通过<S,A,P,R>,其中,S为状态集合,即用户与
推荐系统交互的特征表征集合,A为用户可选择的项目集合,在t时刻下用户选择的项目记为a
t
,P(s
t+1
|s
t
,a
t
)为状态转移函数,即当前时刻状态s
t
下用户选择项目a
t
后下一时刻状态s
t+1
的概率,R(s
t+1
|s
t
,a
t
)为回报函数即用户对当前状态s
t
选择项目a
t
后用户的评分,对于推荐系统来说,其目的是最大化未来所收到的用户期望总评分,即
[0013][0014]其中,T为终止时刻。
[0015]步骤S2包括的用户评分矩阵,其中,U为用户的总数,M为推荐项目的总数,评分矩阵的第i行第j列表示第i个用户对第j个项目的评分,如果用户没有评价过该项目则评分设为0。
[0016]步骤S2利用Funk奇异值矩阵分解(Funk

s SVD)的矩阵分解方法,只关注用户评价过的数据,忽略掉用户未评价过的数据,把用户评分矩阵分解为用户特征矩阵X和项目特征矩阵Y两个矩阵,其中,X矩阵为U行V列,Y矩阵为M行V列,用X矩阵的每一行作为每个用户的特征向量,用Y矩阵的每一行作为每个项目的特征向量。
[0017]步骤S2中采用双向循环神经网络对用户的历史行为进行建模,根据正向和反向的循环神经网络输出,与所述步骤S2中用户本身的特征进行整合,作为推荐系统的状态输入。
[0018]步骤S3中,神经网络的输入层前面有若干全连接层来建模推荐策略。
[0019]步骤S3使用蒙特卡洛策略梯度算法(REINFORCE),收集用户与推荐系统的交互数据,根据用户与推荐系统的交互数据以及梯度下降定理,对推荐策略进行学习。
[0020]步骤S3中,推荐策略神经网络接收步骤S2提供的状态作为输入,输出层输出每个项目的推荐概率。
[0021]步骤S3中,所述稀疏矩阵通过根据推荐系统中所有项目的用户选择频次对每个项目进行排序并分类,并对低频次的项目分配较多的训练参数,对高频次的项目分配较少的训练参数构建。
[0022]步骤S3的推荐策略输出的项目推荐概率为采用上述稀疏矩阵作为参数的softmax网络输出。
[0023]本专利技术通过改善深度强化学习中神经网络的输出层,减小计算复杂度,提升了学习的效率,帮助解决了在巨大的离散动作空间中的学习。
附图说明
[0024]图1为本专利技术采用的用户状态建模方法示意图;
[0025]图2为本专利技术所采用的策略输出层参数矩阵示意图;
具体实施方式
[0026]为了使本专利技术的技术方案更加清晰明白,下面结合附图及实施例对本专利技术进行详细描述。
[0027]本申请实施例采用的MovieLens数据集是一个基于用户评分的电影推荐数据集,由美国明尼苏达大学的Group

Lens研究小组收集,是一个推荐系统研究的常用数据集。其
中,MovieLens 1MB数据集包含大约6040个用户对约3900部电影的一百多万个评分记录,每个用户至少有20部电影的观看记录及评分。评分为5分制,用户评分越高表明用户对该电影越喜欢。
[0028]步骤S1,在这个数据集上,本申请把推荐系统作为强化学习的智能体,用户作为强化学习所交互的环境,其中,在每一时刻,推荐系统都会根据用户的历史行为推荐一个电影项目,根据用户的评分反馈结果,优化推荐系统的性能。通过数学模型来表示,即采用马尔可夫决策过程四元组<S,A,P,R>表示,其中,S为状态集合,即用户与推荐系统交互的特征表征集合,在MovieLens数据集中就是用户的历史电影观看记录及其对应的评分,A为用户可选择的项目集合,也就是电影推荐系统中总的电影项目集合,在t时刻下用户选择的电影项目记为a
t
,P(s
t+1
|s
t
,a
t
)为状态转移函数,即当前时刻状态s
t
下用户选择项目a
t
后下一时刻状态s
t+1
的概率,R(s
t+本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于构建高计算效率的深度强化学习推荐系统的推荐方法,其特征在于包括以下步骤:步骤S1,采用马尔可夫决策过程对推荐系统建模;步骤S2,根据所有用户的历史记录的时序数据,建立U行M列的用户评分矩阵,并通过矩阵分解获得用户与推荐系统交互的状态表征用户特征矩阵X和项目特征矩阵Y;步骤S3,对推荐系统的推荐策略进行建模与学习训练,其中所述推荐策略采用神经网络进行表征,且神经网络输出层采用稀疏矩阵进行参数建模;步骤S4,推荐系统部署,利用训练好的推荐策略,根据用户的当前浏览的时序数据进行项目推荐。2.根据权利要求1所述的方法,其特征在于,步骤S1中采用的马尔可夫决策过程通过<S,A,P,R>,其中,S为状态集合,A为用户可选择的项目集合,在t时刻下用户选择的项目记为a
t
,P(s
t+1
|s
t
,a
t
)为状态转移函数,R(s
t+1
|s
t
,a
t
)为回报函数。3.根据权利要求1所述的方法,其特征在于,步骤S2包括的用户评分矩阵,其中,U为用户的总数,M为推荐项目的总数,用户评分矩阵的第i行第j列表示第i个用户对第j个项目的评分,如果用户没有评价过该项目则评分设为0。4.根据权利要求1所述的方法,其特征在于,步骤S2包括的用户特征矩...

【专利技术属性】
技术研发人员:石龙翔林承毅张犁李石坚吴明晖
申请(专利权)人:浙大城市学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1