一种基于上下文信息融合的知识图谱补全方法技术

技术编号:35780854 阅读:44 留言:0更新日期:2022-12-01 14:26
本发明专利技术属于自然语言处理技术领域,具体涉及一种基于上下文信息融合的知识图谱补全方法。本发明专利技术首次利用3D卷积处理知识图谱上下文信息,并引入头尾双关系来解决复杂关系的编码问题。首先使用实体关系编码模块对输入的实体关系对进行编码得到实体关系特征;再使用上下文编码模块对输入的上下文信息进行编码得到上下文特征;然后将实体关系特征和上下文特征输入到特征融合模块进行特征融合得到查询向量;最后计算查询向量与候选尾实体向量的相似度得到不同候选实体的得分。本发明专利技术利用3D卷积对上下文结构信息进行特征提取,将其融入实体关系特征中,在多个常用的数据集上进一步提高知识图谱补全方法的准确率。知识图谱补全方法的准确率。知识图谱补全方法的准确率。

【技术实现步骤摘要】
一种基于上下文信息融合的知识图谱补全方法


[0001]本专利技术属于知识图谱
,具体涉及一种基于上下文信息融合的知识图谱补全方法。

技术介绍

[0002]近年来,知识图谱领域的发展备受人们的关注。知识图谱(Knowledge Graph,KG)在人工智能领域的众多问题中有成功应用如问答和信息检索等。知识图谱中包含三元组<头实体,关系,尾实体>,表示为<h,r,t>,是许多自然语言处理特别是信息检索应用如语义搜索和问答的有用资源。然而大型知识图谱,即使包含数十亿个三元组,仍然是不完整的,即丢失了许多有效三元组。因此,许多研究工作都集中在知识图补全任务上,该任务旨在预测知识图谱三元组中缺失的部分。
[0003]基于距离的知识图谱补全模型通常定义一个评分函数,其形式类似于||h+r

t||,用来衡量给定三元组的合理性。例如,TransE模型直接将嵌入空间作为翻译空间;TransH模型将关系建模为在超平面上的平移操作;TransR模型对不同空间中的实体和关系进行建模,即实体空间和多个关系空间;TransD模型通过使用两个向量对每个实体或关系进行建模;TranSparse模型主要考虑知识图谱中的异质性和不平衡性;PTransE模型将关系路径集成到TransE模型中;ITransF模型使用稀疏注意力机制来发现隐藏的关系概念,并通过概念共享来传递知识。以上常见的基于距离计算的知识图谱补全模型通常具有较高的模型训练速度和模型参数效率。
[0004]最近,研究人员开始探索基于卷积神经网络的知识图谱嵌入(KnowledgeGraphEmbedding,简称KGE)方法并取得良好的结果。例如,ConvE模型在嵌入和多层非线性特征上使用2D卷积来对知识图谱进行建模;ConvKB模型也将卷积神经网络用于KGE;ConMask使用依赖关系的内容掩码、全卷积神经网络和语义平均方法从知识图谱中实体和关系的文本特征中提取依赖关系的嵌入;RSNs研究了路径级知识图谱嵌入学习方法,提出循环跳跃网络使用序列模型学习关系路径;KG

BERT将BERT模型集成到KGE模型中;COKE模型使用Transformer通过增加与特征排列、特征重塑和循环卷积的交互来扩展ConvE模型。
[0005]随着基于图的卷积网络(Graph Convolutional Network,GCN)受到越来越多的关注,如何利用上下文结构信息也成为了重要的研究内容。R

GCN使用基于GCN的方法来处理每个实体的上下文信息;A2N模型使用使用注意力机制来编码邻居上下文结构信息;CompGCN模型将节点和关系联合嵌入到关系图中。
[0006]然而上述方法存在以下三个问题:(1)基于距离计算的方法难以解决复杂关系的编码问题;(2)基于卷积神经网络的方法无法在模型复杂性和表征能力之间做出均衡;(3)现有模型无法高效利用上下文信息。

技术实现思路

[0007]为了解决上述问题,本专利技术提出了一种基于上下文信息融合的知识图谱补全方法。该算法首先使用实体关系编码模块对输入的实体关系对进行编码得到实体关系特征向量;其次使用上下文编码模块对输入的上下文结构信息进行编码得到上下文特征矩阵;然后将得到的实体关系特征向量和上下文特征矩阵输入特征融合模块进行特征融合,得到查询向量;最后计算查询向量与候选尾实体向量的相似度得分,得分最高的尾实体即为算法预测的结果。
[0008]为了达到上述目的,本专利技术的技术方案如下:
[0009]一种基于上下文信息融合的知识图谱补全方法,具体实现步骤如下:
[0010]步骤S1:数据预处理。根据数据集中三元组数据,构建算法的输入数据,包括实体关系对、上下文信息对和候选实体列表;
[0011]进一步,所述步骤S1具体为:
[0012]步骤S11:数据集中出现的头实体h和尾实体t,构成集合E,即为候选实体列表;
[0013]步骤S12:对于给定的三元组<h,r,t>,取其中的头实体h和关系r构成实体关系对p:<h,r>;
[0014]步骤S13:为每个实体关系对构建上下文结构信息。对于给定的实体关系对p:<h,r>,在数据集中找到所有与p具有相同实体h或相同关系r的实体关系对的集合c,即为实体关系对p对应的上下文信息对列表,而所有c构成的集合C,是所有实体关系对所对应的上下文信息对的集合。
[0015]步骤S2:将实体关系对输入实体关系编码模块,得到实体关系特征;
[0016]进一步,所述步骤S2具体为:
[0017]步骤S21:将实体关系对进行初始化嵌入,得到实体关系矩阵;
[0018]步骤S22:将实体关系矩阵分别输入多个不同的2D卷积网络进行特征提取,得到多个不同尺度的实体关系特征,然后将多个实体关系特征拼接在一起得到初始实体关系特征;
[0019]步骤S23:初始实体关系特征经过全连接层映射改变嵌入维度得到实体关系特征。
[0020]步骤S3:将一组上下文信息对输入上下文编码模块,得到多个上下文特征;
[0021]进一步,所述步骤S3具体为:
[0022]步骤S31:将实体关系对所对应的一组上下文信息对进行初始化嵌入,得到多个上下文嵌入;
[0023]步骤S32:多个上下文嵌入顺序拼接在一起得到上下文嵌入;
[0024]步骤S33:将上下文嵌入输入3D卷积网络进行特征提取,得到一组上下文特征。
[0025]步骤S4:将实体关系特征和一组上下文特征输入特征融合模块,得到查询向量;
[0026]进一步,所述步骤S4具体为:
[0027]步骤S41:将实体关系特征和一组上下文特征输入Transformer网络,得到初始查询向量;
[0028]步骤S42:将初始查询向量输入多层感知机,得到查询向量。
[0029]步骤S5:计算查询向量与候选实体之间的相似度,得到候选实体的概率分布。
[0030]进一步,所述步骤S5具体为:
[0031]步骤S51:将候选实体列表进行初始化嵌入,得到候选实体嵌入;
[0032]步骤S52:基于余弦相似度计算查询向量与候选实体嵌入的相似度得分;然后经过sigmoid函数计算得到候选实体的概率分布。
[0033]步骤S6:根据损失函数训练整个算法,使算法预测结果拟合正确结果。所得的整个算法模型即为知识图谱补全方法的工具。
[0034]本专利技术的有益效果:
[0035](1)我们创新性地引入3D卷积来编码上下文结构信息,相比于2D卷积,3D卷积有更强的表征能力,而且能够处理序列数据。3D卷积不仅能够高效地处理上下文结构信息,并且在编码过程中进行信息交互。
[0036](2)相比于基于卷积神经网络的其他模型,我们使用头尾双本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文信息融合的知识图谱补全方法,其特征在于,步骤包括:步骤S1:数据预处理;根据数据集中三元组数据,构建算法的输入数据,包括实体关系对、上下文信息对和候选实体列表;步骤S2:将实体关系对输入实体关系编码模块,得到实体关系特征;步骤S21:将实体关系对进行初始化嵌入,得到实体关系矩阵;步骤S22:将实体关系矩阵分别输入多个不同的2D卷积网络进行特征提取,得到多个不同尺度的实体关系特征,然后将多个实体关系特征拼接在一起得到初始实体关系特征;步骤S23:初始实体关系特征经过全连接层映射改变嵌入维度得到实体关系特征;步骤S3:将一组上下文信息对输入上下文编码模块,得到多个上下文特征;步骤S31:将实体关系对所对应的一组上下文信息对进行初始化嵌入,得到多个上下文嵌入;步骤S32:多个上下文嵌入顺序拼接在一起得到上下文嵌入;步骤S33:将上下文嵌入输入3D卷积网络进行特征提取,得到一组上下文特征;步骤S4:将实体关系特征和一组上下文特征输入到特征融合模块,得到查询向量;步骤S41:将实体关系特征和一组上下文特征输入Transformer网络,得到初始查询向量;步骤S42:将初始查询向量输入多层感知机,得到查询向量;步骤S5:计算查询向量与候选实体之间的相似度,得到候选实体的概率分布;步骤S51:将候选实体列表进行初始化嵌入,得到候选实体嵌入;步骤S52:基于余弦相似度计算查询向量与候选实体嵌入的相似度得分;然后经过sigmoid函数计算得到候选实体的概率分布;步骤S6:最小化整体损失函数训练整个算法,使算法预测结果拟合正确结果;所得的整个算法模型即为知识图谱补全方法的工具。2.根据权利要求1所述的一种基于上下文信息融合的知识图谱补全方法,其特征在于,所述步骤S1具体为:步骤S11:数据集中出现的头实体h和尾实体t,构成集合E,即为候选实体列表;步骤S12:对于给定的三元组<h,r,t>,取其中的头实体h和关系r构成实体关系对p:<h,r>;步骤S13:为每个实体关系对构建上下文结构信息;对于给定的实体关系对p:<h,r>,在数据集中找到所有与p具有相同实体h或相同关系r的实体关系对的集合c,即为实体关系对p对应的上下文信息对列表,而所有c构成的集合C,是所有实体关系对所对应的上下文信息对的集合。3.根据权利要求1或2所述的一种基于上下文信息融合的知识图谱补全方法,其特征在于,所述步骤S2具体为:步骤S21:将实体关系对p分别进行初始化嵌入,得到实体嵌入E
h
∈R1×
d
和关系嵌入E
r
∈R1×
d
,其中d是知识图谱表征的嵌入维度;然后将E
h
和E
r
进行拼接和重塑操作,得到实体关系矩阵其中,d1和d2分别是实体关系矩阵的宽和高,满足条件d1×
d2=2d;步骤S22:将实体关系矩阵M
p
分别输入3个不同的2D卷积网络进行特征提取,得到3个实
体关系特征然后将三个实体关系特征拼接在一起得到初始实体关系特征f
p
∈R1×
3d
,即定义其中[;]表示拼接;步骤S23:将f
p
输入全连接层改变嵌入维度得到实体关系特征F
p
∈R1×
d
。4.根据权利要求1或2所述的一种基于上下文信息融合的知识图谱补全方法,其特征在于,所述步骤S3具体为:步骤S31:将实体关系对p所对应的上下文信息对c按照步骤S21所描述的方式进行处理,得到n个上下文嵌入矩阵其中n代表上下文信息对的个数,j∈[1,n]代表第j个上下文信息对,d1和d2分别是上下文嵌入的宽和高,满足条件d1×
d2=2d,d是知识图谱表征的嵌入维度;步骤S32:将n个上下文嵌入V
c
拼接在一起得到上下文嵌入即定义其中[;]表示拼接操作;步骤S33:将上下文嵌入M
c
输入3D卷积网络进行特征提取,得到n个上下文特征5.根据权利要求3所述的一种基于上下文信息融合的知识图谱补全方法,其特征在于,所述步骤S3具体为:步骤S31:将实体关系对p所对应的上下文信息对c按照步骤S21...

【专利技术属性】
技术研发人员:马战川张立和孔雨秋陈思龙尹宝才
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1