【技术实现步骤摘要】
本专利技术涉及深度学习推荐,具体地说是一种基于深度强化学习的电影推荐方法及系统。
技术介绍
1、深度强化学习技术成功应用在了自动驾驶,推荐系统等领域。其中基于策略优化的深度强化学习技术是推荐中的重要研究领域。ddpg结合了深度神经网络和确定性策略梯度方法,训练能够处理高维状态空间和连续动作空间的强化学习智能体。ppo通过近端策略优化,利用策略梯度方法来训练智能体,以最大化累积奖励,并通过引入重要性比率修剪和优势函数等机制来提高训练的稳定性和效率。drr算法提出了四种状态表示学习方案,可以明确地建模用户和物品之间的交互。lsic算法使用策略梯度算法更新对抗生成网络框架中的生成器模型参数,解决了生成推荐列表任务中离散采样无法直接使用梯度下降的问题。这些方法都能够很好地适应用户的个性化需求,通过不断的与用户互动和学习,根据用户的反馈和行为调整推荐策略,但是这些方法都只考虑正反馈而忽略了负反馈状态表示中隐含的信息,并存在一定程度的数据稀疏性问题。
2、故在电影推荐过程中,如何缓解正负反馈数据稀疏性以及增大细粒化正负反馈之间的差异性是
...【技术保护点】
1.一种基于深度强化学习的电影推荐方法,其特征在于,该方法具体如下:
2.根据权利要求1所述的基于深度强化学习的电影推荐方法,其特征在于,预处理具体如下:
3.根据权利要求1或2所述的基于深度强化学习的电影推荐方法,其特征在于,获取对比损失函数具体如下:
4.根据权利要求3所述的基于深度强化学习的电影推荐方法,其特征在于,生成电影推荐列表具体如下:
5.根据权利要求4所述的基于深度强化学习的电影推荐方法,其特征在于,优化更新电影推荐列表具体如下:
6.一种基于深度强化学习的电影推荐系统,其特征在于,该系统包括
7....
【技术特征摘要】
1.一种基于深度强化学习的电影推荐方法,其特征在于,该方法具体如下:
2.根据权利要求1所述的基于深度强化学习的电影推荐方法,其特征在于,预处理具体如下:
3.根据权利要求1或2所述的基于深度强化学习的电影推荐方法,其特征在于,获取对比损失函数具体如下:
4.根据权利要求3所述的基于深度强化学习的电影推荐方法,其特征在于,生成电影推荐列表具体如下:
5.根据权利要求4所述的基于深度强化学习的电影推荐方法,其特征在于,优化更新电影推荐列表具体如下:
6.一种基于深度强化学习的电影推荐系统,其特征在于,该系统包括:
7.根据权利要求6...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。