一种基于关系路径推理的全局数据空间链接预测方法及系统技术方案

技术编号:38716040 阅读:11 留言:0更新日期:2023-09-08 14:58
本发明专利技术提出了一种基于关系路径推理的全局数据空间链接预测方法及系统,利用全局数据空间技术对庞大的知识图谱数据进行获取和后续处理;利用知识图谱中大量存在的三角结构来挖掘关系路径,三角结构不仅能够得到路径推理的置信度,同时抽取的路径长度为2,在保证计算效率的同时得到了语义信息最丰富的关系路径;利用门控循环单元结构GRU技术对关系路径进行推理,为模型本身提供了丰富的语义信息;利用注意力机制保证实体对之间多条路径都能充分考虑,且做到了主次分明;改进了ConvR模型的关系初始嵌入结构,以使其在性能优化的同时解决了ConvR难以适应下游任务的问题;本发明专利技术的效果和现有技术相比有着显著优势,可以出色完成链接预测工作。链接预测工作。链接预测工作。

【技术实现步骤摘要】
一种基于关系路径推理的全局数据空间链接预测方法及系统


[0001]本专利技术属于知识图谱补全

链接预测
,具体地,涉及一种基于关系路径推理的全局数据空间链接预测方法及系统。

技术介绍

[0002]近年来,随着知识图谱研究的不断深入,知识图谱丰富的应用价值在多个领域得到了体现:知识图谱和语义技术提供了关于事物的属性分类以及事物之间相互关系的描述,能够辅助搜索引擎进行搜索和索引;知识图谱也被广泛应用在人机问答交互中,AmazonAlexa,Siri,天猫精灵等语音助手背后都有海量知识图谱作为支撑。尽管现有知识图谱系统的规模庞大,但是现有的知识图谱仍然存在着许多问题,其中最重要的问题就是知识图谱存储的知识是稀疏的不完整的,目前比较完善的数据集包括Freebase、WordNet、YAGO等虽然已经包含了数百万个实体和三元组,但与现有事实和新增加的真实世界知识相比,它们还远远不够完整。很多存在于真实世界中的关系在知识图谱的实体之间并不存在,并且很多真实世界中的事物在知识图谱中没有对应的实体。随着知识图谱应用领域的拓展,这个问题的影响越来越不容忽视。
[0003]链接预测就是对知识图谱进行补全的技术,在人工智能特别是机器学习领域的快速发展背景下,预测阶段使用了多种模型结构,更加全面的利用了知识图谱本身以及外部的信息,从而实现了更加高效的链接预测也就是知识图谱补全,进而使知识图谱的相关应用领域获益。尤其是随着知识图谱嵌入技术的不断发展,产生了线性模型,语义匹配模型,图神经网络模型等一大批研究成果;之后人们将卷积神经网络引入链接预测任务中,产生了ConvE,ConvR等卷积神经网络模型用于链接预测,对于知识图谱补全的任务有着重要的意义。
[0004]链路预测模型之间的差别主要在评分函数等方面。基于知识表示方法的评分函数主要有平移距离模型和语义匹配模型两大类。平移距离模型使用基于距离的评分函数,TransE开始了这项工作,通过将实体和关系投影到同一个嵌入向量空间,然后计算尾部实体和通过关系转移后的头部实体的距离来作为优化模型和预测的依据;为了解决TransE模型在处理1

N、N

1、N

N等复杂关系时的局限性,TransH将实体和关系映射到不同的平面,计算分数时将实体映射到关系所在的超平面中;TransR则通过将实体和关系建模在不同的语义空间中,来一定程度上增强TransH的表达能力。语义匹配模型则使用基于相似度的评分函数。基于语义匹配的RESCAL模型,实体用向量表示,关系用矩阵表示,该关系矩阵对潜在因素之间的成对交互作用进行了建模;DistMult将关系矩阵简化为对角矩阵,但是处理过于简化,只能处理对称的关系,这显然对于一般的KGs是不能完全适用的;HolE将RESCAL的表达能力与DistMult的效率和简单性相结合,使用循环相关操作进行计算。但是上面这些肤浅的方法在表达能力上是有限的,解决这一问题的唯一方法是增加其嵌入的大小,但这会导致参数数量的大幅增加,从而导致模型难以扩展到更大的知识图上。
[0005]之后人们将卷积神经网络引入到链接预测任务中,例如ConvE,ConvR,InteractE,
AcrE等模型,它们优化的思路主要在实体和关系的交互率上,通过提高交互率来提升模型性能。ConvE首次将卷积的思想引入到链接预测任务中,将头实体和关系的向量进行重塑之后拼接,然后使用随机生成的卷积核对其进行卷积;AcrE通过添加空洞卷积扩大了感受野,进一步增加了实体和关系嵌入之间的交互,以此将头实体和关系更紧密的联系到一起;InteractE将实体和关系进行堆叠之后,通过循环卷积的方式进一步提升了交互性;ConvR将关系作为卷积核对实体进行卷积操作,相对于ConvE增大了实体关系的交互性,但ConvR模型存在实体和关系初始嵌入维度不一致的问题,由于关系需要作为卷积核,所以其维度远大于实体的维度。这会导致下游任务,包括知识图谱补全等相关工作难以开展,因为这些工作涉及的其它模型方法大都要求实体和关系的嵌入维度一致,从而出现前后不一致的问题。本专利技术对ConvR模型存在的上述问题提出了解决方案并将ConvR模型作为本专利技术的模型方法中的一部分。
[0006]现有的卷积神经网络模型大多仅从三元组角度考虑实体间的单步关系,未能有效利用多步关系路径,从而影响性能。要知道,实体之间的多步关系路径蕴含了丰富的语义信息,而关系路径的特征对进行知识表示具有重要的意义。例如,(李华,就职于,北京大学)(北京大学,位于,北京)隐含了李华居住于北京这一关系,即(李华,居住于,北京)。但是并不是所有的多步关系都能推出合理的联系,例如(李华,朋友,王五)(王五,朋友,张三),很难说李华和张三之间有什么关系,它们也许是现实中完全不认识的人。由此可见,并不是所有的关系路径都是可靠且对知识图谱表示学习有意义的;而且实体对之间的关系路径会有很多,遍历所有的关系路径,计算消耗会很大,同时随着关系路径长度越长,实体对之间的关系越淡薄,推理的意义也不大。

技术实现思路

[0007]针对知识图谱补全

链接预测问题,本专利技术提出了一种基于关系路径推理的全局数据空间链接预测方法及系统,涉及模型结构采用的是编码器

解码器结构,编码器为基于关系路径推理的模型,解码器使用修改后的ConvR模型,以此来进行知识图谱中缺失实体和关系的补全工作。
[0008]本专利技术通过以下技术方案实现:
[0009]一种基于关系路径推理的全局数据空间链接预测方法:
[0010]所述方法具体包括以下步骤:
[0011]步骤1:利用全局数据空间技术不断获取大规模知识图谱数据并进行处理,直到处理完所有数据,最终获得知识图谱数据集中的三角结构,用于后续的关系路径推理工作;
[0012]步骤2:对步骤1得到的三角结构采用关系路径推理算法进行处理;
[0013]步骤3:将步骤2得到的基于关系路径推理模型作为编码器,所述编码器的输出为步骤2得到的路径关系三元组和原直接关系三元组,之后将其一起放入基于ConvR模型的解码器中,共同训练学习;
[0014]步骤4:修改ConvR的关系初始嵌入结构,并将修改后的ConvR模型作为解码器得出预测结果;
[0015]步骤5:对整个模型进行训练及参数优化,最终得出训练好的模型。
[0016]进一步地,在步骤1中,
[0017]步骤1.1:所述对知识图谱数据进行处理具体为:统计出知识图谱中每个头实体h能够通过直接关系到达的尾实体的集合;
[0018]步骤1.2:对于知识图谱中存在的三元组(h,r,t),根据步骤1.1得到的结果查看,头实体h能够到达的尾实体集合中是否包含某个中间实体m,其所能到达的尾实体集合中包含尾实体t;
[0019]步骤1.3:根据步骤1.2的结果,得到具有三角结构的三个三元组,分别是(h,r,t),(h,r1,m),(m,r2,t)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关系路径推理的全局数据空间链接预测方法,其特征在于:所述方法具体包括以下步骤:步骤1:利用全局数据空间技术不断获取大规模知识图谱数据并进行处理,直到处理完所有数据,最终获得知识图谱数据集中的三角结构,用于后续的关系路径推理工作;步骤2:对步骤1得到的三角结构采用关系路径推理算法进行处理;步骤3:将步骤2得到的基于关系路径推理模型作为编码器,所述编码器的输出为步骤2得到的路径关系三元组和原直接关系三元组,之后将其一起放入基于ConvR模型的解码器中,共同训练学习;步骤4:修改ConvR的关系初始嵌入结构,并将修改后的ConvR模型作为解码器得出预测结果;步骤5:对整个模型进行训练及参数优化,最终得出训练好的模型。2.根据权利要求1所述预测方法,其特征在于:在步骤1中,步骤1.1:所述对知识图谱数据进行处理具体为:统计出知识图谱中每个头实体h能够通过直接关系到达的尾实体的集合;步骤1.2:对于知识图谱中存在的三元组(h,r,t),根据步骤1.1得到的结果查看,头实体h能够到达的尾实体集合中是否包含某个中间实体m,其所能到达的尾实体集合中包含尾实体t;步骤1.3:根据步骤1.2的结果,得到具有三角结构的三个三元组,分别是(h,r,t),(h,r1,m),(m,r2,t),并将路径关系和直接关系相似度作为推理的置信度分数。3.根据权利要求2所述预测方法,其特征在于:在步骤2中,步骤2.1:根据步骤1得到的三角结构,获取出其中包含的一条关系路径(h,r1+r2,t);步骤2.2:如果步骤2.1得到关系路径为多条,使用注意力机制将路径融合为一条关系路径;如果实体对(m,t)之间存在两个关系r2,r3,则(h,t)之间的关系路径包括(h,r1+r2,t),(h,r1+r3,t)两条,则需要使用注意力机制将r2,r3融合为一个关系嵌入向量r
23
,具体计算公式如下,其中向量维度为式如下,其中向量维度为式如下,其中向量维度为r
23
=att2·
r2+att3·
r3所述att2为关系r2所占权重分数,att3为关系r3所占权重分数,T代表向量的转置操作;步骤2.3:将步骤2.2得到的关系路径中包含的关系使用门控循环单元结构GRU技术进行推理,得到一个新的关系r
p
;步骤2.4:将步骤2.3得到的新关系r
p
与原关系路径中的头实体h和尾实体t组合成新的路径三元组(h,r
p
,t)。4.根据权利要求3所述预测方法,其特征在于:在步骤4中,
步骤4.1:将ConvR中关系r的初始嵌入维度调整成和实体e的嵌入维度一致,即将关系的嵌入向量维度重塑为步骤4.2:使用随机初始化的卷积核卷积核数为n,对步骤4....

【专利技术属性】
技术研发人员:李丽洁李鑫韩启龙宋洪涛卢丹刘鹏
申请(专利权)人:哈尔滨龙明科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1