本发明专利技术属于知识图谱补全领域,公开了一种基于路径信息的小样本知识图谱补全方法,步骤包括:首先进行数据处理,把数据分为支持集和查询集,采用双向广度优先算法查找支持集中的路径;其次,使用上述路径训练强化学习的智能体,用智能体推理查询集的路径;接下来使用剪枝策略,修剪掉噪声路径,保留高质量的路径,将两种路径做相似度计算;最后,利用径向基函数核将相似度值转换为基于路径的相似嵌入向量,再使用多层感知机将向量转换为得分得到基于路径信息的知识图谱补全模型。本发明专利技术通过引入强化学习有效地挖掘知识图谱中的路径信息,弥补了传统的补全方法在路径信息上受噪声影响的缺点,在小样本知识图谱补全领域有着更好的表现。表现。表现。
【技术实现步骤摘要】
一种基于路径信息的小样本知识图谱补全方法
[0001]本专利技术属于小样本知识图谱补全领域,具体涉及的是一种基于路径信息的小样本知识图谱补全方法。
技术介绍
[0002]知识图谱由大量的形如(h,r,t)的三元组组成,包括两个实体元和一个关系元。h是头实体,t是尾实体,r叫做关系。近年来出现了许多知识图谱,比如,DBpedia、Free
‑
base、NELL、Probase、Wikidata等。知识图谱在问答系统、推荐系统、信息检索等下游任务中发挥着重要的作用。
[0003]虽然知识图谱中包含了大量由实体和关系组成的事实三元组,但是很大一部分知识图谱是不完整的,这些残缺的三元组总是缺少实体元或者关系元。同时,知识图谱中普遍存在一些长尾关系,也就是说,很大一部分数据只有很少的训练实例,这类图谱被称为小样本知识图谱。基于此,知识图谱补全(又叫做链接预测)任务被提出,主要有三种任务模式:头实体补全(?,r,t),尾实体补全(h,r,?),关系补全(h,?,t),缺失的部分即为需要补全的对象。
[0004]知识图谱补全主要有两种模式:1.从已有的三元组来推断出新的三元组。2.从文本中抽取知识作为新的三元组。首先,图嵌入的方法将三元组中的实体和关系表示为低维空间中的向量,然后寻找空间关系进行推理补全,然而这种方式只适用于直接关系,无法处理没有直接关系的三元组。其次,大多数现有的基于嵌入的技术要求每个关系有足够的三元组作为训练数据,例如Bordes等人提出的TransE、Sun等人提出的RotatE。但是96.9%的关系在Freebase中只有少于5个三元组可以作为参考,这限制了传统知识图谱嵌入模型的表达能力,也是小样本知识图谱补全面临的一个挑战。再次,Das等人提出的基于路径的知识图谱推理模型已经表明,路径信息足以表示两个实体之间的关系,这样就解决了小样本知识图谱补全面临的样本数量不足的问题,但大多数现有的小样本学习模型忽略了路径信息,只考虑相关实体的直接邻居,为了表示一个实体,现有的少样本补全模型聚合了所有邻居的嵌入,这可能会引入噪声。最后,我们认为连接头尾实体的关系路径中包含了丰富的信息,然而传统方法都随机抽取路径,这样的路径包含了大量的噪声,人们希望抽取高质量的路径来进行推理补全,以提高知识图谱补全的能力。
技术实现思路
[0005]鉴于此,本专利技术意在提供一种基于路径信息的小样本知识图谱补全方法,通过强化学习寻找路径,以减少噪声数据对于实验模型的影响,更好的解决小样本知识图谱补全问题。
[0006]为实现上述目的,本专利技术所采用的技术方案是:
[0007]一种基于路径信息的小样本知识图谱补全方法,步骤如下:
[0008]第一步:知识图谱由众多的三元组(h,r,t)组成,其中h称为头实体,r称为关系,t
称为尾实体,例如(丈夫1姓名,配偶,妻子1姓名),将这些三元组划分为支持集support和查询集query,使用知识图谱补全方法中流行的预训练模型TransE将文本表示的头尾实体和关系转化为向量;
[0009]第二步:从第一步得到的支持集support中选择一个三元组(h
s
,r
s
,t
s
),利用双向广度优先搜索算法寻找其路径,记为路径被定义为关系的序列我们忽略路径上的实体,因为路径上的关系是我们进行推理的主要依据,路径中经过的实体可以发生变化,所有支持集路径的集合记为
[0010]第三步:利用第二步中得到的支持集路径集合训练强化学习的策略网络,经过训练后的强化学习模型能根据当前已经找到的路径关系来预测下一步要接收的关系,使用奖励函数来奖励模型,鼓励模型找到高质量的路径,使用如下公式给出奖励:
[0011][0012][0013][0014]其中,R1表示全局奖励函数,若从头实体出发到达了正确的尾实体,则给出奖励+1,否则奖励
‑
1,R2表示路径长度的奖励,P表示当前找到的路径,长路径引入了噪声,路径越短奖励越大;R3表示路径多样性奖励,鼓励强化学习模型寻找多样性路径的奖励,|N|表示路径的数量,cos(
·
)是余弦函数,用来求相似度,p={r
′1,r
′2,...,r
′
n
},p表示当前路径,p
i
表示第i条路径,cos(
·
)余弦函数计算方法具体为:
[0015][0016]第四步:利用第三步中训练后的强化学习来推理查询子图,给出待补全的一个三元组(h
q
,r,t
i
),其中t
i
∈T,T是候选尾实体集合,利用强化学习查找从h
q
到t
i
的路径,记为所有查询集路径的集合记为
[0017]第五步:路径表示,使用循环神经网络GRU嵌入每一条路径p,p∈P
s
∪P
q
,具体来讲,将步骤一中使用TransE预先训练后的每一条路径的关系向量序列(r1,r2,...r
l
)分别输入GRU,GRU处理完后会生成一个路径嵌入P,r
i
是关系的向量表示,P是路径的向量表示,处理完所有路径之后,会得到每一条路径的嵌入表示和
[0018]第六步:剪枝操作,将步骤五中得到的路径嵌入表示和使用如下公式进行剪枝,去掉噪声路径:
[0019][0020]其中,r是待补全三元组(h
q
,r,t
i
)中目标关系的向量表示,p
i
是第i条路径的向量表示,s
i
表示第i条路径与目标关系r的相似度,将相似度s
i
按降序排列,保留前M条相似度比较大的路径,舍弃后面的路径,得到和
[0021]第七步:利用步骤六中得到的和使用如下公式计算两种路径的语义相似度值构造出相似度矩阵S
p
:
[0022][0023]接下来对S
p
的每一行使用最大池化,得到最大相似度值的每一行使用最大池化,得到最大相似度值然后使用RBF核函数将转换为特征向量最后将每一行的求和得到嵌入相似度φ;
[0024]第八步:最后使用多层感知机MLP将φ转换为分数,输入单个分数g(h
q
,t
q
,S
r
):
[0025][0026]其中,(h
s
,t
s
)是步骤二中给定的支持集,g(
·
)是最终求得的待补全的三元组的得分,得分越高表示正确率越大。
[0027]第九步:不断重复上述步骤四至步骤八,直到计算出所有的候选尾实体的得分。
[0028]与现有实例相比,本专利技术公开了一下技术效果:
[0029]首先,受谓词逻辑推理的数学应用启发,本专利技术将路径信息进行排列组合,可以用来补全没有直接关系的三本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于路径信息的小样本知识图谱补全方法,其特征在于,步骤如下:第一步:知识图谱由众多的三元组(h,r,t)组成,其中h称为头实体,r称为关系,t称为尾实体,将这些三元组划分为支持集support和查询集query,使用知识图谱补全方法中的预训练模型TransE将文本表示的头实体、尾实体和关系转化为向量;第二步:从第一步得到的支持集support中选择一个三元组(h
s
,r
s
,t
s
),利用双向广度优先搜索算法寻找其路径,记为路径被定义为关系的序列忽略路径上的实体;所有支持集路径的集合记为第三步:利用第二步中得到的支持集路径的集合训练强化学习策略模型,经过训练后的强化学习策略模型能根据当前已经找到的路径关系来预测下一步要接收的关系,使用奖励函数来奖励强化学习策略模型,鼓励强化学习策略模型找到高质量的路径,使用如下公式给出奖励:径,使用如下公式给出奖励:径,使用如下公式给出奖励:其中,R1表示全局奖励函数,若从头实体出发到达了正确的尾实体,则给出奖励+1,否则奖励
‑
1;R2表示路径长度的奖励,P表示当前找到的路径,长路径引入了噪声,路径越短奖励越大;R3表示路径多样性奖励,鼓励强化学习模型寻找多样性路径的奖励,|N|表示路径的数量,cos(
·
)是余弦函数,用来求相似度,p={r
′1,r
′2,
…
,r
′
n
},p表示当前路径,p
i
表示第i条路径;第四步:利用第三步中训练后的强化学习策略模型来推理查询子图,给出待补全的一个三元组(h
q
,r,t
i
),其中t
i
∈T,T是候选尾实体集合,利用强化学习策略模型查找从h
q
到t
i
的路径,记为所有查询集路径的集合记为第五步:路径表示,使用循环神经网络GRU嵌入每...
【专利技术属性】
技术研发人员:马瑞新,于梦菲,高步云,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。