基于构建高计算效率的深度强化学习推荐系统的推荐方法技术方案

技术编号：35899482 阅读：16 留言：0更新日期：2022-12-10 10:34

本发明专利技术提供了一种基于构建高计算效率的深度强化学习推荐系统的推荐方法，包括以下步骤：步骤S1，采用马尔可夫决策过程对推荐系统建模；步骤S2，根据所有用户的历史记录，建立U行M列的用户评分矩阵，并通过矩阵分解获得用户与推荐系统交互的状态表征用户特征矩阵X和项目特征矩阵Y；步骤S3，对推荐系统的推荐策略进行建模与学习训练，其中所述推荐策略采用神经网络进行表征，且神经网络输出层采用稀疏矩阵进行参数建模；步骤S4，推荐系统部署，利用训练好的推荐策略，根据用户的历史数据进行项目推荐。本发明专利技术通过改善深度强化学习中神经网络的输出层，减小计算复杂度，提升了学习的效率，帮助解决了在巨大的离散动作空间中的学习。帮助解决了在巨大的离散动作空间中的学习。帮助解决了在巨大的离散动作空间中的学习。

全部详细技术资料下载

【技术实现步骤摘要】
基于构建高计算效率的深度强化学习推荐系统的推荐方法

[0001]本专利技术涉及一种基于构建高计算效率的深度强化学习推荐系统的推荐方法，属于大数据人工智能领域，尤其适用于推荐条目巨大的应用场景。

技术介绍

[0002]推荐系统在网络生活中发挥着至关重要的作用，其主要目的是根据用户的历史数据向用户推荐可能所需的项目。传统的推荐系统方法有协同过滤、矩阵分解和基于内容的排序等。然而，这些算法都预先假设用户的偏好在整个过程中保持不变，其推荐结果往往难以让用户满意。最近的一些研究表明，将推荐系统建模为一个强化学习问题，通过最大化用户未来可能给出的总评分作为优化目标，可以有效地对用户的偏好进行动态建模，提升推荐系统的表现与性能。
[0003]然而，在实际应用中，推荐系统中推荐的项目个数往往非常巨大。例如，在电影推荐系统中，可推荐的电影有百万部以上；在线商品推荐系统中，可推荐的商品项目往往数以亿计。利用强化学习方法解决时，面对这种海量决策空间，如何对用户历史行为进行建模是提升推荐性能的一个关键因素。同时，这种巨大的决策空间会造成学习和决策效率低下，影响了强化学习方法的落地。

技术实现思路

[0004]本专利技术的目的是提供一种基于构建高计算效率的深度强化学习推荐系统的推荐方法，通过将深度强化学习中的神经网络的参数大规模的降低，减少在巨大离散空间中的决策时间，并提升其学习和决策的效率。
[0005]为了达到上述目的，本专利技术通过以下的技术方案来实现：
[0006]一种基于构建高计算效率的深度强...

【技术保护点】

【技术特征摘要】
1.基于构建高计算效率的深度强化学习推荐系统的推荐方法，其特征在于包括以下步骤：步骤S1，采用马尔可夫决策过程对推荐系统建模；步骤S2，根据所有用户的历史记录的时序数据，建立U行M列的用户评分矩阵，并通过矩阵分解获得用户与推荐系统交互的状态表征用户特征矩阵X和项目特征矩阵Y；步骤S3，对推荐系统的推荐策略进行建模与学习训练，其中所述推荐策略采用神经网络进行表征，且神经网络输出层采用稀疏矩阵进行参数建模；步骤S4，推荐系统部署，利用训练好的推荐策略，根据用户的当前浏览的时序数据进行项目推荐。2.根据权利要求1所述的方法，其特征在于，步骤S1中采用的马尔可夫决策过程通过<S,A,P,R>，其中，S为状态集合，A为用户可选择的项目集合，在t时刻下用户选择的项目记为a
t
，P(s
t+1
|s
t
,a
t
)为状态转移函数，R(s
t+1
|s
t
,a
t
)为回报函数。3.根据权利要求1所述的方法，其特征在于，步骤S2包括的用户评分矩阵，其中，U为用户的总数，M为推荐项目的总数，用户评分矩阵的第i行第j列表示第i个用户对第j个项目的评分，如果用户没有评价过该项目则评分设为0。4.根据权利要求1所述的方法，其特征在于，步骤S2包括的用户特征矩...

【专利技术属性】
技术研发人员：石龙翔，林承毅，张犁，李石坚，吴明晖，
申请(专利权)人：浙大城市学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人