基于深度强化学习的多样性感知交互推荐方法技术

技术编号:34822162 阅读:65 留言:0更新日期:2022-09-03 20:33
本发明专利技术为基于深度强化学习的多样性感知交互推荐方法,属于大数据深度学习领域。该方法包含以下步骤:S1:录入用户与项目的历史交互行为数据,对数据进行预处理;S2:利用建立用户的长短期偏好模型,得到用户的行为表征;S3:建立异质图网络,得到上下文知识表征;S4:分建立对应的知识级别奖励函数和行为级别奖励函数,并合成为带有容错策略的复合奖励函数;S5:对动作空间进行动作过滤;S6:按照一定的概率随机选取项目,构成压缩后的动作空间;S7:搭建基于强化学习网络的推荐系统,并进行训练;S8:利用训练好的推荐系统对用户进行项目推荐。本发明专利技术方法能够增强用户偏好不确定的表征能力,提升了推荐系统的多样性、鲁棒性和用户体验感。感。感。

【技术实现步骤摘要】
基于深度强化学习的多样性感知交互推荐方法


[0001]本专利技术涉及基于深度强化学习的多样性感知交互推荐方法,属于大数据人工智能领域,尤其适用于基于深度强化学习的多样性感知交互推荐。

技术介绍

[0002]随着互联网和自动技术的飞速发展,现在越来越多的人都拥有智能手机,平板电脑和其他智能终端,这使得生产、生活的数据信息呈爆炸式增长,这就导致了信息超载问题。当用户在搜索其感兴趣的信息时,会花费大量的时间和精力去过滤掉无用的信息,然而结果往往无法让用户的满意,于是,个性化推荐技术应时而生。个性化推荐技术是指利用用户某种兴趣点和购买特点,向用户推荐感兴趣的内容,是解决信息超载问题的有效途径。
[0003]虽然通过融合深度学习技术,序列推荐系统的性能得到了大幅的提升。但现有方法更侧重于拟合用户历史交互行为。它们有着类似的搭建方式,即在充分获取用户历史数据的前提下,设计并训练特定的监督模型,从而得到用户对于不同物品的喜好程度。在此,人们往往假设用户数据已充分获取,且其行为会在较长时间之内保持稳定,使得上述过程中所建立的推荐模型得难以应付实际中的需求。对于诸多现实的推荐场景,用户偏好存在不确定性。在推荐系统与用户持续交互的过程中,用户的偏好通常会显著地随着推荐结果的不同而发生动态漂移。因此,这就需要推荐算法充分考虑用户偏好不确定性所带来的短期和长期效应。短期效应主要体现在推荐多样性的下降,而长期效应则是指随着时间的推移,由用户偏好不确定产生的推荐偏差会被逐渐放大,从而导致推荐系统最终失效。但相应解决此问题的研究仍然不多,比较常见的做法是引入其它的指标来评估推荐性能,比如通过引入多样性,使得在保证精度的同时确保推荐列表包含更多不同类别的项目。但同时追求多个指标的推荐算法虽然可以用于部分解决用户偏好不确定性带来的短期影响问题,但其设计之初并不是为了解决面向用户偏好不确定的序列推荐问题,因此在类似序列推荐这种持续长期运行的系统中仍然可能存在问题。

技术实现思路

[0004]有鉴于此,本专利技术提供基于深度强化学习的多样性感知交互推荐方法,一方面,最大熵强化学习由于在目标函数中加入了信息熵来表示行动的不确定性程度,使其可以以不同的组合方式来探索各种最优的可能性,也更有利智能体在面对干扰的时候能够更容易做出调整;另一方面,针对性的序列奖励函数建模方法又对推荐策略学习算法有更强的指导作用;两者的巧妙结合,从而为解决基于用户偏好不确定性的长效序列推荐问题提供了有力的解决方案。
[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]基于深度强化学习的多样性感知交互推荐方法,由强化学习网络构成的推荐系统实现,所述的基于强化学习网络的推荐系统由一个包含五个元素(S,A,R,p,γ)的元组组成,其中,R为回报函数,p为状态转移概率,γ为折扣因子;所述的用户在当前时刻的状态被
抽象表征成为状态空间S;所述的所有可进行推荐的项目集合I被当作动作空间A;其特征在于,结合图2,该方法包含以下步骤:
[0007]S1:录入用户与项目的历史交互行为数据,对数据进行预处理;
[0008]S2:针对动作空间A中的用户行为,利用建立用户的长短期偏好模型,得到用户的行为表征;
[0009]S3:针对动作空间A,建立异质图网络,建立用户、项目、时间三者之间的上下文知识表征;
[0010]S4:分别对上下文知识表征和用户行为表征建立对应的知识级别奖励函数和行为级别奖励函数,并合成为带有容错策略的复合奖励函数;
[0011]S5:根据历史交互数据中上一时刻的用户选择的项目,对动作空间A进行动作过滤,得到两个候选项目集合:相似项目集合和多样性项目集合;
[0012]S6:按照一定的概率ρ从相似项目集合中随机选取项目,并按照概率1

ρ从多样性项目集合中随机选取项目,构成压缩后的动作空间
[0013]S7:搭建基于强化学习网络的推荐系统,将Concat连接的用户行为表征和上下文知识表征作为强化学习推荐系统的状态空间S,复合奖励函数作为回报函数R,压缩后的动作空间作为新的动作空间,并利用历史交互数据对网络参数进行训练;
[0014]S8:利用训练好的推荐系统对用户进行项目推荐;
[0015]所述的用户为u∈U=[u1,u2,...,u
m
];所述的项目的集合为I=[i1,i2,

,i
n
];所述的用户行为P是统计用户和项目之间交互行为,P需要按照自定义的时间窗口T=[T1,T2,

,T
k
]分割为k个单元,即是m
×
n
×
k维的向量,0≤ρ≤1。
[0016]进一步,步骤S1所述的对数据进行预处理包括:(1)删除重复数据和缺失、错误数据;(2)统计汇总用户、项目和用户与项目的交互行为;(3)剔除交互行为太少用户数据,避免冷启动。
[0017]进一步,所述的步骤S2具体为:
[0018]S201:利用自动编码器对用户的时间窗口T分别进行编码,得到时间编号
[0019]S202:将用户u对应的动作空间A的用户行为和时间编号的元素分别输入到双向长短时记忆循环网络抽取得到每个时间窗口的用户u的行为信息;
[0020]S203:利用多头注意力机制,将每个时间窗口的用户u的行为信息融合得到用户行为表征
[0021]可优选的,自定义的时间通常选取一天、一周或一个月,要保证每个时间分组内都有历史交互相关数据,且尽可能的兼顾单元数量k足够多和单元内历史交互相关数据足够多。
[0022]进一步,所述的步骤S3具体为:
[0023]S301:利用自动编码器对动作空间A中的项目i
j
进行编码,得到项目编号其中,1≤j≤n;
[0024]S302:利用自动编码器对用户和时间窗口T分别进行编码,得到用户编号e
u
和时间编号
[0025]S303:利用多层感知机将动作空间A中的用户历史行为对应的项目集合编号进行感知压缩,得到项目的聚合特征;
[0026]S304:利用图卷积神经网络将用户编号e
u
、项目聚合特征和时间编号进行串联操作,得到用户、项目、时间三者之间的上下文知识表征
[0027]进一步,步骤S4所述的行为级别奖励函数为
[0028][0029]其中,iT是用户在时间窗口T时的历史交互行为对应的项目序列;是用户在时间窗口T时推荐系统推荐的项目序列;s
l
是i
T
中的子序列,L为i
T
中所有子序列的数量;#(s
l
,i
T
)为子序列s
l
在序列i
T
中出现的次数,为子序列s
l
在序列中出现的次数;
[0030]所述的知识级别奖励函数为
[0031][003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的多样性感知交互推荐方法,由强化学习网络构成的推荐系统实现,所述的基于强化学习网络的推荐系统由一个包含五个元素(S,A,R,p,γ)的元组组成,其中,R为回报函数,p为状态转移概率,γ为折扣因子;所述的用户在当前时刻的状态被抽象表征成为状态空间S;所述的所有可进行推荐的项目集合I被当作动作空间A;其特征在于,该方法包含以下步骤:S1:录入用户与项目的历史交互行为数据,对数据进行预处理;S2:针对动作空间A中的用户行为,利用建立用户的长短期偏好模型,得到用户的行为表征;S3:针对动作空间A,建立异质图网络,建立用户、项目、时间三者之间的上下文知识表征;S4:分别对上下文知识表征和用户行为表征建立对应的知识级别奖励函数和行为级别奖励函数,并合成为带有容错策略的复合奖励函数;S5:根据历史交互数据中上一时刻的用户选择的项目,对动作空间A进行动作过滤,得到两个候选项目集合:相似项目集合和多样性项目集合;S6:按照一定的概率ρ从相似项目集合中随机选取项目,并按照概率1

ρ从多样性项目集合中随机选取项目,构成压缩后的动作空间S7:搭建基于强化学习网络的推荐系统,将Concat连接的用户行为表征和上下文知识表征作为强化学习推荐系统的状态空间S,复合奖励函数作为回报函数R,压缩后的动作空间作为新的动作空间,并利用历史交互数据对网络参数进行训练;S8:利用训练好的推荐系统对用户进行项目推荐;所述的用户为u∈U=[u1,u2,...,u
m
];所述的项目的集合为I=[i1,i2,

,i
n
];所述的用户行为P是统计用户和项目之间交互行为,P需要按照自定义的时间窗口T=[T1,T2,

,T
k
]分割为k个单元,即是m
×
n
×
k维的向量,0≤ρ≤1。2.根据权利要求1所述的基于深度强化学习的多样性感知交互推荐方法,其特征在于,步骤S1所述的对数据进行预处理包括:(1)删除重复数据和缺失、错误数据;(2)统计汇总用户、项目和用户与项目的交互行为;(3)剔除交互行为太少用户数据,避免冷启动。3.根据权利要求1所述的基于深度强化学习的多样性感知交互推荐方法,其特征在于,所述的步骤S2具体为:S201:利用自动编码器对用户的时间窗口T分别进行编码,得到时间编号S202:将用户u对应的动作空间A的用户行为和时间编号的元素分别输入到双向长短时记忆循环网络抽取得到每个时间窗口的用户u的行为信息;S203:利用多头注意力机制,将每个时间窗口的用户u的行为信息融合得到用户行为表征4.根据权利要求1所述的基于深度强化学习的多样性感知交互推荐方法,其特征在于,所述的步骤S3具体为:S301:利用自动编码器对动作空间A中的项目i
j
进行编码,得到项目编号其中,1≤j≤n;
S302:利用自动编码器对用户和时间窗口T分别进行编码,得到用户编号e
u
和时间编号S303:利用多层感知机将动作空间A中的用户历史行为对应的项目集合编号进行感知压缩,得到项目的聚合特征;S304:利用图卷积神经网络将用户编号e
u
、项目聚合特征和时间编号进行串联操作,得到用户、...

【专利技术属性】
技术研发人员:史晓雨尚明生刘泉亮
申请(专利权)人:中国科学院重庆绿色智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1