一种基于强化学习和路径推理的可解释推荐方法技术

技术编号：39424910 阅读：8 留言：0更新日期：2023-11-19 16:12

一种基于强化学习和路径推理的可解释推荐方法，包括以下步骤：(1)从各类推荐数据抽取用户、项目、属性等各类实体以及它们之间的关系，构建完整的知识图谱；(2)构建强化学习框架，过程如下：构建了一个强化学习框架，该框架可以在知识图谱上使用户找到对应的推荐项目和推荐理由，包括知识图谱嵌入、强化学习环境和动作选择三个模块；(3)推荐模型训练，通过上述训练得到的推荐模型可以为用户推荐项目，并以知识图谱路径的方式给出推荐理由。本发明专利技术融合知识图谱和强化学习方法，在为用户推荐相应项目的基础上，以路径的方式给出推荐依据，提高了推荐系统的可解释性。高了推荐系统的可解释性。高了推荐系统的可解释性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习和路径推理的可解释推荐方法

[0001]本专利技术涉及知识图谱
、
推荐系统等领域，特别给出了一种基于强化学习和路径推理的可解释推荐方法
。

技术介绍

[0002]互联网的飞速发展一方面可以让用户更加方便快捷的获取各种各样的信息，另一方面也给用户带来了困扰，其中数据爆炸带来的问题尤其显著
。
而推荐系统的出现正好解决了这一问题，它根据用户的行为分析出用户对于某一方面知识或信息的喜好，并将对应的信息精准的推送给用户，从而改善用户体验并促进商业利润
。
[0003]近年来，基于知识图谱的推荐系统引起了研究人员的广泛关注
。
知识图谱
(KG)
是一个异构图，其中节点表示实体，边表示实体之间的关系，项目及其属性可以映射到知识图谱中，以了解项目之间的相互关系，用户之间的交互信息也可以集成到知识图谱中，以更准确捕获用户和项目之间的关系以及用户偏好
。
[0004]现有基于知识图谱的推荐系统可分为基于嵌入的推荐系统以及基于传播的推荐系统
。
基于嵌入的推荐系统利用知识图谱中丰富的事实来充实项目或用户的表示，该系统包括两个基本模块，图嵌入模块用于学习知识图谱中实体和关系的表示，推荐模块用于估计用户对具有学习特征的项目的偏好
。CKE(Special Interest Group on Knowledge Discovery and Data Mining,2016)
是一个基于协同...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习和路径推理的可解释推荐方法，其特征在于，所述方法包括以下步骤：
(1)
构建知识图谱，过程如下：从用户
、
项目
、
属性以及交互关系中抽取各类实体和关系，构建知识图谱，其形式化定义如下：定义
1、
知识图谱是由许多实体和关系构成的结构化语义网络，用以描述用户和推荐项目间的交互关系，可以表示为
KG
＝
{(h,r,t)|h,t∈V,r∈R}
，其中
V
是实体集合，
R
是关系的集合，
h
为头实体，
r
为关系，
t
为尾实体；
(2)
构建强化学习框架，过程如下：构建了一个强化学习框架，该框架可以在知识图谱上使用户找到对应的推荐项目和推荐理由，包括知识图谱嵌入
、
强化学习环境和动作选择三个模块；如下：
(2.1)
知识图谱嵌入采用
TransE
模型将知识图谱中的实体和关系映射到低维向量空间，
TransE
模型假设实体和关系之间的关联通过将实体的嵌入向量平移来实现，计算公式如下：
L(h,r,t)
＝
max (0,d
pos
‑
d
neg
+margin)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
其中
h
为头实体，
r
为关系，
r
为尾实体，
d
pos
为正样本的距离值的范数，
d
neg
为负样本的距离值的范数，
margin
为边界值，模型的目标是学习实体和关系的嵌入向量，使得对于正确的三元组，头实体向量加上关系向量能够接近尾实体向量，而对于错误的三元组，它们之间的距离应当较远，经过训练后，对于知识图谱中的每个节点和关系，都会有对应的
d
维嵌入向量；
(2.2)
强化学习环境强化学习的任务包括两个，一是为给定用户找到知识图谱中的推荐项目，二是采样每个用户通向推荐项目的推理路径，作为项目的推荐理由；定义2：在智能体探索的第
t
步所处的状态
S
t
为其中
r
t
‑1为第
t
步与第
t
‑1步实体之间的关系向量，
e
t
为第
t
步所处的实体向量，为实体集，具体来说，令第
t
步状态中的实体
e
t
‑1为头实体，
V
i
则是与其关联的尾实体集合，这三个元素构成了状态的表示，而在初始状态下的定义为：定义3：在状态
S
t
下，其完整的动作空间为实体
e
t
的所有可能的出边：
A(S
t
)
＝
{(r
′
,e
′
)|(e
t
,r
′
,e
′
)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
其中
e
′
是
e
t
的下一个实体向量，
r
′
是连接
e
t
与
e
′
的关系向量；定义4：在智能体到达最终状态，即步数
t
到达最大值
T
，其奖励分定义为：其中
r
i
为
purchase
关系的向量表示，
e
T
为智能体在最终状态
T
时的实体向量表示，
u
为用户实体的向量表示，
<
·
,
·
>
为向量的点积运算，
max
i∈I
<u+r
i
,i>
为在已知的所有用户购买
记录中，用户向量表示与商品向量表示的点积运算的最大值，
i
为商品的向量表示，
I
为商品的实体集合；定义5：由于知识图谱的特性，状态的表示由所处实体的位置决定，给定状态
S
t
和动作集合中某个被选中的动作
a
t+1
,
下一步的状态定义为：其中
r
t+1
,e
...

【专利技术属性】
技术研发人员：张元鸣，陈祥友，肖刚，程振波，徐雪松，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人