知识增强的深度强化学习推荐方法技术

技术编号：40231866 阅读：5 留言：0更新日期：2024-02-02 22:33

一种知识增强的深度强化学习推荐方法，由预处理数据、构建深度强化学习网络、训练深度强化学习网络、测试深度强化学习网络步骤组成。本发明专利技术构建了深度强化学习网络，确定知识增强的用户状态和相应的奖励函数，将经过生成网络和扰动网络产生的动作向量与整个项目空间做内积得出推荐评分，采用两个价值网络对动作进行评估，训练构建的深度强化学习网络，根据推荐评分生成最终的推荐列表。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于推荐系统，具体涉及知识增强的深度强化学习推荐方法。

技术介绍

1、随着互联网和人工智能技术的深入发展和广泛应用，大量数据和信息不断涌现，导致用户面临信息爆炸和信息超载的问题，很难在短时间内搜集和使用所需信息。此时，推荐系统应运而生。推荐系统不需要用户提供明确的需求，而是通过分析用户的特征和历史行为对用户的兴趣进行建模，从而主动给用户推荐能够满足他们兴趣和需求的信息，因此，推荐系统具有重要的应用前景，目前已被广泛应用于电子商务、智能客服、搜索引擎、影音娱乐等各个领域。

2、现在有很多的推荐方法，例如基于内容的协同过滤、基于矩阵分解的方法和深度学习模型等，这些方法虽然已经让推荐有了较好的效果，但仍存在一些问题。首先，大部分方法将推荐过程视为一个静态过程，假设用户的偏好是保持不变的，忽略了用户与推荐系统之间的动态交互特性，即用户前一个项目的偏好会影响其对下一个项目的选择。因此，将推荐过程建模为一个序列决策过程更为合理。其次，大部分方法都是通过最大化推荐的即时奖励来训练的，而忽略了这些项目可能带来的长期收益。然而，即时奖励小但长期奖励大的项目也很重要。因此在向用户推荐项目时，既要考虑即时奖励，也要考虑长期奖励。

3、近年来，将强化学习框架应用于推荐系统引起了学术界和工业界的重视。强化学习的方法不仅将推荐建模成一个序列决策过程，考虑到了推荐过程的动态性，能够通过不断的学习和交互了解用户的喜好和行为变化，提高推荐的个性化程度和准确性，还考虑到了即时奖励和长期收益，可以更好地理解推荐对用户的长期价值并做出

4、但是，目前强化学习和序列推荐的结合仍具有以下不足之处：一是，现有的将强化学习应用到推荐的方法大多都是在线强化学习，在实际应用中强化学习采样效率低，需要频繁和环境交互采集数据训练智能体，这个探索过程对于现实场景会带来严重成本损失，在推荐系统方面会存在用户反馈的滞后性，策略存在的问题会导致用户流失等。二是，大部分基于强化学习的推荐在将推荐形式化为马尔可夫决策过程时，大多只关注于序列层面的用户状态表示，对奖励函数的设计仅采用数据集的用户评价，对于模型的训练可能性能不佳。为了解决上述问题，如何采用离线的方法来训练模型并针对训练过程的结果设计状态表示、奖励函数，从而提升推荐的准确性，是一个亟待解决的技术问题。

技术实现思路

1、本专利技术所要解决的技术问题在于克服上述现有技术的缺点，提出一种离线强化学习、准确性高的知识增强的深度强化学习推荐方法。

2、解决上述技术问题所采用的技术方案由下述步骤组成：

3、(1)预处理数据

4、采用亚马逊产品评价数据集中的beauty类别，删除数据中重复和缺项数据、错误数据，剔除掉交互记录少于5条的用户和项目，得到的数据集包含22363名用户、12102个项目及198502条交互记录，并构造每个用户的交互经验数据，进行序列化操作，将前t-1条交互记录作为训练集s，第t条交互记录作为测试集，其中，t为用户交互记录的长度，为有限的正整数。

5、(2)构建深度强化学习网络

6、深度强化学习网络由生成网络、扰动网络、目标扰动网络、价值网络1、目标价值网络1、价值网络2、目标价值网络2构成，生成网络的一路输出端与目标扰动网络的输入端相连，生成网络的另一路输出端与扰动网络串联，扰动网络的一路输出端与价值网络1和目标价值网络1的输入端相连、另一路输出端与价值网络2和目标价值网络2输入端相连。

7、所述的生成网络由编码器与解码器串联构成。

8、所述的编码器由全连接层1、激活函数层1、全连接层2、激活函数层2依次串联构成。

9、所述的解码器由全连接层3、激活函数层3、全连接层4、激活函数层4、全连接层5依次串联构成。

10、所述的扰动网络由全连接层6、激活函数层5、全连接层7、激活函数层6、全连接层8依次串联构成；目标扰动网络的结构与扰动网络的结构相同。

11、所述的价值网络1由全连接层9、激活函数层7、全连接层10、激活函数层8、全连接层11依次串联构成；价值网络2、目标价值网络1、目标价值网络2的结构与价值网络1的结构相同。

12、(3)训练深度强化学习网络

13、1)构建深度强化学习网络损失函数

14、深度强化学习网络损失函数包括生成网络损失函数lg、扰动网络的损失函数lp、价值网络的损失函数lv。

15、按式(1)构建生成网络损失函数lg：

16、

17、μ＝e(s,a)

18、σ＝e(s,a)

19、

20、其中，b表示训练集中的一个批量的样本数量，b为有限的正整数，a表示数据集中用户在当前时刻采取的动作，μ,σ分别表示生成网络中通过编码器生成的均值、标准差，s表示用户在当前时刻的状态，当前时刻的状态s包括状态时序特征和状态知识图谱特征，表示生成网络中通过解码器生成的动作，z为生成器采样的数据，dkl表示计算散度。

21、按式(2)构建扰动网络的损失函数lp：

22、

23、

24、其中，表示扰动网络在状态s下采取动作得到的扰动值，g(s)表示输入当前状态s生成网络生成的动作。

25、按式(3)构建价值网络的损失函数lv；

26、

27、

28、

29、

30、其中，r表示奖励函数，奖励函数包括奖励时序特征和奖励知识图谱特征，γ表示折扣因子，取值范围为[0,1]，λ为参数，取值范围为[0,1]，s′表示用户在当前时刻采取动作a后下一时刻转换成的状态，g(s′)表示输入下一时刻状态s′生成网络生成的动作，ξ(s′,a)表示扰动网络在状态s′采取动作a得到的扰动值，i的取值为1～20的整数，q表示价值网络，表示目标价值网络。

31、2)训练深度强化学习网络

32、将训练集输入到深度强化学习网络中进行训练，训练批量大小为1024，学习率为0.0004，折扣因子γ为0.99，参数λ为0.75，训练至深度强化学习网络收敛。

33、(4)测试深度强化学习网络

34、将测试集输入到训练好的深度强化学习网络中进行测试，得到推荐评分，对推荐评分进行降序排列，选择出前k个推荐分数高的项目作为推荐结果，k的取值范围为[1,20]。

35、在本专利技术的步骤(2)构建深度强化学习网络中，所述的编码器的全连接层1有12152个神经元，全连接层2有1024个神经元，输出维度为1024，激活函数层1、激活函数层2均为relu函数。

36、所述的解码器的全连接层3有12152个神经元，全连接层4有1024个神经元，全连接层5有1024个神经元，输出维度为50，激活函数层3、激活函数层4均为relu函数。

<本文档来自技高网...

【技术保护点】

1.一种知识增强的深度强化学习推荐方法，其特征在于由下述步骤组成：

2.根据权利要求1所述的知识增强的深度强化学习推荐方法，其特征在于：在步骤(2)构建深度强化学习网络中，所述的编码器的全连接层1有12152个神经元，全连接层2有1024个神经元，输出维度为1024，激活函数层1、激活函数层2均为ReLU函数；

3.根据权利要求1所述的知识增强的深度强化学习推荐方法，其特征在于：在步骤(3)的1)构建深度强化学习网络损失函数中，所述的用户当前时刻的状态s包括状态时序特征和状态知识图谱特征；

4.根据权利要求1所述的知识增强的深度强化学习推荐方法，其特征在于：在步骤(3)的1)构建深度强化学习网络损失函数中，所述的奖励函数包括奖励时序特征和奖励知识图谱特征；

【技术特征摘要】

1.一种知识增强的深度强化学习推荐方法，其特征在于由下述步骤组成：

2.根据权利要求1所述的知识增强的深度强化学习推荐方法，其特征在于：在步骤(2)构建深度强化学习网络中，所述的编码器的全连接层1有12152个神经元，全连接层2有1024个神经元，输出维度为1024，激活函数层1、激活函数层2均为relu函数；

3.根据权利...

【专利技术属性】
技术研发人员：张立臣，周萌，郭龙江，李晓琳，卞珂欣，
申请(专利权)人：陕西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人