当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于强化学习和加权元路径的语义推荐方法技术

技术编号:31914502 阅读:55 留言:0更新日期:2022-01-15 12:56
本发明专利技术公开了一种基于强化学习和加权元路径的语义推荐方法,属于推荐算法技术领域,包括收集用户各类实体属性信息、获取记录中用户和物品的异构信息网络,对提取的记录以及各类实体属性信息进行预处理并分析,利用强化学习算法计算不同元路径的权重,自主学习不同元路径的权重,构建马尔可夫决策过程,对元路径的权重进行训练,得到元路径选择权重的信息并生成记录,构建深层决策网络并训练,设计经验池、预测网络和结果网络,对输出的奖励值进行拟合得到最佳权重,依据得到的最佳权重的元路径,计算用户相似度,并选取Top

【技术实现步骤摘要】
一种基于强化学习和加权元路径的语义推荐方法


[0001]本专利技术涉及推荐系统
,尤其是一种基于强化学习和加权元路径的语义推荐方法。

技术介绍

[0002]推荐是一种把用户相关检索内容、推荐并展现给用户的过程,利于用户主动获取到相关信息帮助用户快速的找到符合需求的信息,很大程度上节省了用户的时间。现在推荐方法逐渐成熟,已经广泛应用在各行各业中,比如在电商行业、音乐行业、新闻媒体行业、视频软件行业等都有很出色的表现,给人们生活提供极大的便利,推荐系统除了能够给人类生活带来生活上的便利,也能给企业带来更多的效益,比如淘宝、京东、抖音等应用都有自己的推荐方法,使企业效益在很大程度上有了提升。
[0003]随着推荐系统的技术逐步成熟,较早的推荐方法已经不能满足现在人们的要求。后来随着异构信息网络(Heterogeneousinformationnetwork,HIN)技术的兴起,越来越多的研究者注意到HIN的重要性,HIN包含了多种实体类型的信息,而且不同的元路径代表着不同的信息;但基于元路径的相似度方法进行推荐依然存在缺陷,主要是元路径选择不合理导致基于元路径的相似性方法不可靠,很多没有考虑到元路径的权重问题,无法将包含有语义特征的元路径进行重点训练,无法准确推荐并提供可解释性。
[0004]近年来,随着强化学习(ReinforcementLearning,RL)的不断发展,也为推荐方法提供了新思路,强化学习的原理是利用智能体和环境的不断交互选择最优动作,最后实现回报最大化。近年来有很多学者将强化学习用于推荐系统中,都得到了不错的实验效果;同时语义推荐是要从语义理解的角度分析用户的请求和信息资源,并以此来进行搜索,从而更准确地向用户推荐符合其需求的搜索结果。
[0005]因此,有必要研发一种融合强化学习和加权元路径的语义推荐方法,以满足用户的个性化需求,提高推荐的准确性,更能增加推荐的解释性。

技术实现思路

[0006]本专利技术需要解决的技术问题是提供一种基于强化学习和加权元路径的语义推荐方法,解决了现有技术中存在的缺陷,能够结合用户的购买记录以及其他信息进行个性化推荐,提高了推荐的准确性。
[0007]为解决上述技术问题,本专利技术所采用的技术方案是:
[0008]一种基于强化学习和加权元路径的语义推荐方法,包括以下步骤:
[0009]S1、收集用户购买记录、评分记录、各类实体属性信息,获取记录中用户和物品的异构信息网络;
[0010]S2、对S1中收集的用户购买记录、评分记录以及各类实体属性信息进行预处理,对数据清洗,将处理好的数据作为后续模型训练的输入;
[0011]S3、将S2处理好的数据进行分析,不同的元路径代表着不同的语义关联信息,在异
构信息网络中综合考虑实体的属性,利用不同元路径语义信息度量异构信息网格中用户的相关性;
[0012]S4、利用强化学习算法计算不同元路径的权重,自主学习不同元路径的权重,构建马尔可夫决策过程,根据数据的特点设计状态、动作、环境、奖励函数,对元路径的权重进行训练,得到元路径选择权重的信息并生成记录;
[0013]S5、基于元路径选择权重的信息记录,构建深层决策网络,设计经验池、预测网络和结果网络,对深层决策网络进行训练,然后对输出的奖励值进行拟合,得到最佳权重;
[0014]S6、依据得到的最佳权重的元路径,计算用户相似度,并选取Top

N进行排列,完成推荐。
[0015]本专利技术技术方案的进一步改进在于:S1中,所述数据清洗包括异常数据清洗,从不同特征角度对收集的用户购买记录、评分记录以及各类实体属性信息进行分析,对收集的用户购买记录、评分记录以及各类实体属性信息进行特征工程。
[0016]本专利技术技术方案的进一步改进在于:S3中,具体包括以下步骤:
[0017]S31、根据不同元路径将所述异构信息网络分解为不同的同构子网络;
[0018]S32、从所述同构子网络提取各个记录中用户和物品的语义信息;
[0019]S33、根据不同的语义信息度量用户的相似度。
[0020]本专利技术技术方案的进一步改进在于:S4中,具体包括以下步骤:
[0021]S41、构建马尔可夫决策过程;
[0022]S411、定义状态集,状态为分析选择出来的初始化元路径的不同权重,计算公式为:
[0023][0024]其中,在时刻t之前,不同元路径的权重有N种选择;S代表状态集,V代表元路径选择不同权重的次数,n代表交互记录的时间跨度,p代表元路径与权重选择的最大交互行为;
[0025]S412、定义动作集,动作为每条元路径选择的不同权重包含用户之间的相似度特征,公式为:
[0026][0027]其中,a
t
代表动作,V
k
代表不同权重初始序列,代表交互行为的次数;
[0028]S413、定义回报函数,函数负责计算对当前状态采取动作后得到的奖励值;
[0029]S414、定义折扣因子,代表在训练过程中整个长期的奖励值对当下动作选择的影响,一般取值在0~1之间;
[0030]S42、决策过程训练出不同元路径所选择的权重的信息,学习出元路径所占权重最佳的策略;
[0031]S43、将学习过程中累计的选择权重的经验存储在经验池中,生成经验记录。
[0032]本专利技术技术方案的进一步改进在于:S5中,具体包括以下步骤:
[0033]S51、设计经验池,将选择元路径权重时得到的奖励值和新状态存储在经验池中,即将状态、动作、奖励值和新状态组成的四元组作为经验池的基本存储元素,计算公式为:
[0034]d
k
=<s
t
,a
t
,r
st
,s
t+1
>
[0035]其中,d
k
为学习记录,s
t
为状态数据,a
t
为选取的最优动作,r
st
为奖励值,s
t+1
代表转
移后的新状态;
[0036]S52、设计预测网络,将状态和动作看作一组作为预测网络的输入,将这组的奖励值作为预测网络的输出;
[0037]S53、设计结果网络,将状态转换后的新状态和动作看作一组作为结果网络的输入,将这组的奖励值作为结果网络的输出,计算公式为:
[0038][0039]其中,迭代过程超过一定次数时,结果网络会更新参数,Q
target
代表新状态选择的最优动作的预测值,Q
real
代表结果值,r
s,a
代表选择动作a时根据概率进入到下一状态s得到的奖励值r,γ代表在整个训练过程中整个长期的奖励值对当下动作选择的影响,a代表最优动作;
[0040]S54、对深层决策网络进行训练;...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和加权元路径的语义推荐方法,其特征在于:包括以下步骤:S1、收集用户购买记录、评分记录、各类实体属性信息,获取记录中用户和物品的异构信息网络;S2、对S1中收集的用户购买记录、评分记录以及各类实体属性信息进行预处理,对数据清洗,将处理好的数据作为后续模型训练的输入;S3、将S2处理好的数据进行分析,不同的元路径代表着不同的语义关联信息,在异构信息网络中综合考虑实体的属性,利用不同元路径语义信息度量异构信息网格中用户的相关性;S4、利用强化学习算法计算不同元路径的权重,自主学习不同元路径的权重,构建马尔可夫决策过程,根据数据的特点设计状态、动作、环境、奖励函数,对元路径的权重进行训练,得到元路径选择权重的信息并生成记录;S5、基于元路径选择权重的信息记录,构建深层决策网络,设计经验池、预测网络和结果网络,对深层决策网络进行训练,然后对输出的奖励值进行拟合,得到最佳权重;S6、依据得到的最佳权重的元路径,计算用户相似度,并选取Top

N进行排列,完成推荐。2.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法,其特征在于:S2中,所述数据清洗包括异常数据清洗,从不同特征角度对收集的用户购买记录、评分记录以及各类实体属性信息进行分析,对收集的用户购买记录、评分记录以及各类实体属性信息进行特征工程。3.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法,其特征在于:S3中,具体包括以下步骤:S31、根据不同元路径将所述异构信息网络分解为不同的同构子网络;S32、从所述同构子网络提取各个记录中用户和物品的语义信息;S33、根据不同的语义信息度量用户的相似度。4.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法,其特征在于:S4中,具体包括以下步骤:S41、构建马尔可夫决策过程;S411、定义状态集,状态为分析选择出来的初始化元路径的不同权重,计算公式为:其中,在时刻t之前,不同元路径的权重有N种选择;S代表状态集,V代表元路径选择不同权重的次数,n代表交互记录的时间跨度,p代表元路径与权重选择的最大交互行为;S412、定义动作集,动作为每条元路径选择的不同权重包含用户之间的相似度特征,公式为:其中,a
t
代表动作,V
k
代表不同权重初始序列,代表交互行为的次数;S413、定义回报函数,函数负责计算对当前状态采取动作后得到的奖励值;S4...

【专利技术属性】
技术研发人员:宫继兵郎月李学文
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1