基于逻辑规则与强化学习的知识图谱推理方法技术

技术编号:36537068 阅读:40 留言:0更新日期:2023-02-01 16:24
本发明专利技术涉及基于逻辑规则与强化学习的知识图谱推理方法,针对基于强化学习的多跳推理方法存在的路径关联性弱、探索奖励难以确定的问题,提出利用逻辑规则优化强化学习路径奖励的方法,解决了强化学习在知识图谱推理过程中探索奖励难以确定的缺陷。本发明专利技术在强化学习奖励的设定上,采用命中奖励、嵌入奖励和规则奖励相结合的方式,使智能体在探索学习的过程中充分利用逻辑规则作为引导,有效提高模型的学习效率和正确率。对于单步奖励的设定,引入衰减因子以区分不同路径的重要程度。通过实验结果分析,本发明专利技术提出的改进方法能够有效提升知识图谱推理任务的准确率。识图谱推理任务的准确率。识图谱推理任务的准确率。

【技术实现步骤摘要】
基于逻辑规则与强化学习的知识图谱推理方法


[0001]本专利技术的技术方案涉及知识图谱推理的方法,具体地说是基于逻辑规则与强化学习的知识图谱推理方法。

技术介绍

[0002]知识图谱采用基于图的数据结构对现实世界的事实进行结构化表示。利用图结构表示的优势,知识图谱在知识问答、语义搜索等自然语言处理任务中发挥着重要的作用。自2012年Google推出第一版知识图谱以来,各类知识图谱层出不穷,如世界知识库Freebase、多语言知识库DBpedia、英文知识库WordNet、综合知识库YAGO、NELL以及以Wikipedia为基础的Wikidata等等。然而,这些知识图谱尽管体量很大,但仍然存在无法表示所有客观知识的问题,尤其面对日益增加的新知识,知识图谱很难对下游应用提供有力的支持。针对上述问题,知识图谱推理从知识库中已有的实体关系出发,利用已有的一个或多个知识经过计算推理建立实体之间的新关联,从而丰富知识网络,为知识图谱的补全任务提供解决方法。
[0003]如今,知识图谱推理模型可以分为单跳推理模型和多跳推理模型两类。单跳推理模型又称为基于三元组的推理模型,其目标是将知识图谱中的实体和关系用向量空间中的低维嵌入表示,通常定义得分函数来衡量三元组的正确性。单跳推理模型可以分为三类,分别是距离模型、张量分解模型和语义匹配模型:距离模型又称为平移模型,典型的算法包括TransE,TransR,RotatE等,将知识图谱的每个关系表示为从头实体向量到尾实体向量的一个平移变换,模型通过最小化平移转化误差,将实体和关系映射到低维空间中;张量分解模型通过对基本张量分解算法进行改进和调整并加以应用,以RESCAL为代表,将关系张量通过特定技术分解为多个矩阵,利用这些矩阵构造知识图谱的低维嵌入表示;语义匹配模型利用实体和关系的相似度信息设计目标函数,在低维向量空间发现不同实体和关系潜在语义,DistMult将知识图谱中的二元语义和三元语义进行匹配,QuatE在复向量表示基础上,提出超复空间的向量表示,并将实体和关系映射到该空间。对于知识图谱推理,单跳推理模型能够有效发掘实体和关系之间隐含的语义信息,相比于其他方法性能较好,但是可解释性较差。
[0004]多跳推理模型的目标是在知识图谱中找到与问题相关的多个三元组,并建模多跳长路径以寻找正确的答案。具体而言,给定问题三元组预测尾实体,模型不断根据头实体的邻域信息找到适合的下一跳三元组,直到推理结束。在推理结束时,模型提供可解释的推理路径。DeepPath模型采用强化学习框架进行关系路径的推理,并在关系路径推理上展现了优秀的性能。MINERVA利用REINFORCE算法完成多跳推理任务。MultiHop在MINERVA模型的基础上,加入动作丢弃和奖励塑造方法,减小虚假路径对模型的误导。RLH引入分层强化学习框架模拟人的思维方式,将宏观操作分解为简单子任务,进而学习每个关系的潜在语义。针对知识图谱中的长尾数据,MetaKGR进一步将元学习引入多跳推理,使得模型面对少样本任务时可以快速学习一个较好的参数。针对稀疏知识图谱,DacKGR提出动态预测策略和动态完备策略,在推理过程中引入额外的动作增加路径数。为了适应知识图谱动态增长,CPL将
多跳推理与事实抽取相结合,实现从文本中查找路径和提取事实。相比于单跳推理模型,多跳推理模型准确性有所降低,但有较好的可解释性,能够有效提供推理路径。
[0005]然而,基于强化学习的多跳推理方法仍然存在两个问题:(1)路径关联性较弱。由于强化学习在路径选择上采用随机采样,路径之间的关联性被削弱,导致路径的可解释性相比逻辑规则较差。(2)探索奖励难以确定。强化学习在一定程度上依赖于奖励的反馈,模型需要根据奖励的多少优化动作可能性的分布,而由于知识图谱环境的复杂性,模型通常难以给予恰当的奖励。

技术实现思路

[0006]本专利技术所要解决的技术问题是:提供基于逻辑规则与强化学习的知识图谱推理方法,是一种利用逻辑规则优化强化学习路径奖励的方法,克服了现有的强化学习方法在知识图谱推理过程中探索奖励难以确定,导致的智能体探索效率低下的缺陷,提高了强化学习推理的精度,同时增强了路径的可解释性。
[0007]本专利技术解决该技术问题所采用的技术方案是:基于逻辑规则与强化学习的知识图谱推理方法,是一种利用逻辑规则优化强化学习路径奖励的方法,具体步骤如下:
[0008]第一步,强化学习状态建模:
[0009](1.1)知识图谱三元组嵌入表示:
[0010]将原始三元组(s,r,o)数据输入嵌入方法中进行表示学习,利用打分函数公式(1)将其转化为向量表示形式。
[0011][0012]其中e
s
表示原始三元组中头实体s的嵌入表示,e
o
表示原始三元组中尾实体o的嵌入表示,r
r
是依赖于r的一个关系参数,和分别是e
s
和r
r
堆叠而成的二维空间上的重构向量。*表示卷积操作,ω表示卷积层的过滤器。方法利用重构向量和作为卷积层的输入,ω作为卷积核,计算特征张量,之后将特征张量利用变换函数vec重构成向量,利用矩阵W进行线性变换,并通过内积匹配尾实体的嵌入e
o

[0013]之后,将分数进行归一化处理,p=σ(ψ
r
(e
s
,e
o
)),其中σ表示sigmod函数。嵌入表示方法利用公式(2)的损失函数优化参数。
[0014][0015]其中,t表示标签向量,若实体之间存在关系为1,不存在则为0。
[0016](1.2)历史路径信息表示:
[0017]将探索的路径长度规定为T步,第t步的动作(r,e)根据上述(1.1)步的关系向量和实体向量进行向量化表示为a
t
=[r;e],利用公式(3)的长短期记忆网络(Long Short Term Memory Network,LSTM)存储历史路径信息。
[0018]h
t
=LSTM(h
t
‑1,a
t
‑1)
ꢀꢀꢀꢀ
(3)
[0019](1.3)强化学习状态组成:
[0020]对上述(1.1)步实体和关系嵌入表示和(1.2)步的历史信息进行组合,利用公式(4)完成强化学习第t步的状态的构建。
[0021]s
t
=[r
q
;e
t
;h
t
]ꢀꢀꢀ
(4)
[0022]其中,r
q
表示要查询的关系的嵌入表示,e
t
表示第t步到达实体的嵌入表示,h
t
表示第t步探索的路径历史信息。
[0023]至此完成强化学习状态的构建,得到在第t步的状态s
t

[0024]第二步,将状态输入到强化学习策略网络中,用策略网络引导智能体在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于逻辑规则与强化学习的知识图谱推理方法,其特征在于:包括以下步骤:第一步,强化学习状态建模:(1.1)知识图谱三元组嵌入表示:将原始三元组(s,r,o)数据输入嵌入方法中进行表示学习,利用打分函数公式(1)将其转化为向量表示形式,其中e
s
表示原始三元组中头实体s的嵌入表示,e
o
表示原始三元组中尾实体o的嵌入表示,r
r
是依赖于r的一个关系参数,和分别是e
s
和r
r
堆叠而成的二维空间上的重构向量,*表示卷积操作,ω表示卷积层的过滤器,方法利用重构向量和作为卷积层的输入,ω作为卷积核,计算特征张量,之后将特征张量利用变换函数vec重构成向量,利用矩阵W进行线性变换,并通过内积匹配尾实体的嵌入e
o
,之后,将分数进行归一化处理,p=σ(ψ
r
(e
s
,e
o
)),其中σ表示sigmod函数,嵌入表示方法利用公式(2)的损失函数优化参数,其中,t表示标签向量,若实体之间存在关系为1,不存在则为0,(1.2)历史路径信息表示:将探索的路径长度规定为T步,第t步的动作(r,e)根据上述(1.1)步的关系向量和实体向量进行向量化表示为a
t
=[r;e],利用公式(3)的长短期记忆网络(Long Short Term Memory Network,LSTM)存储历史路径信息,h
t
=LSTM(h
t
‑1,a
t
‑1)
ꢀꢀꢀꢀ
(3)(1.3)强化学习状态组成:对上述(1.1)步实体和关系嵌入表示和(1.2)步的历史信息进行组合,利用公式(4)完成强化学习第t步的状态的构建,s
t
=[r
q
;e
t
;h
t
]
ꢀꢀꢀꢀ
(4)其中,r
q
表示要查询的关系的嵌入表示,e
t
表示第t步到达实体的嵌入表示,h
t
表示第t步探索的路径历史信息,至此完成强化学习状态的构建,得到在第t步的状态s
t
,第二步,将状态输入到强化学习策略网络中,用策略网络引导智能体在动作空间中进行探索,得到下一步动作的概率分布,采用随机抽样选择下一步的动作,进而进行下一步的路径探索:将上述第一步得到的在第t步的状态s
t
输入到强化学习策略网络中,利用公式(5)得到在t步时需要采用动作的概率分布,π
θ
(a
t
|s
t
)=σ(A
t
(W1ReLU(W2s
t
)))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,π
θ
(a
t
|s
t
...

【专利技术属性】
技术研发人员:王利琴宋金晟李英双王振董永峰
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1