一种基于多任务学习的知识图谱链接预测方法、计算机设备及存储介质技术

技术编号:39036507 阅读:10 留言:0更新日期:2023-10-10 11:49
一种基于多任务学习的知识图谱链接预测方法、计算机设备及存储介质,涉及知识图谱补全领域。解决现有InteractE模型存在的平移特性被破坏的问题。本发明专利技术提供以下方案,对知识图谱数据集进行预处理生成逆关系三元组,将得到的逆关系三元组的知识图谱数据集作为输入;构建基于多任务学习的知识图谱链接预测模型;在所述预测模型的训练集上进行迭代训练;将验证集中待预测逆关系三元组的头实体和关系输入到所述模型中,得到InteractE模型作为解码器的全部尾实体的预测得分,将测试集中待预测三元组的头实体和关系输入加载模型参数的模型中,预测得分最高的尾实体作为输出。适用于知识图谱中已经存在的头实体和关系信息预测缺失的尾实体的方法中。缺失的尾实体的方法中。缺失的尾实体的方法中。

【技术实现步骤摘要】
一种基于多任务学习的知识图谱链接预测方法、计算机设备及存储介质


[0001]本专利技术涉及知识图谱补全


技术介绍

[0002]知识图谱结构上是大型的、图结构的数据库,通常利用关系数据库维护一张巨大的三元组表来管理数据,它以三元组(h,r,t)的形式存储数据,其中h表示头实体、t表示尾实体、r表示关系。知识图谱作为人工智能领域中的一个重要研究方向,已在金融、医疗、搜索等多个领域得到广泛应用。随着人们对知识图谱的深入研究,研究人员发现知识图谱中普遍存在信息缺失的问题。如:在Freebase数据集中,超过70%的个人信息没有出生地信息、超过99%的个人缺少种族信息等。如果采用人工的方式向知识图谱中添加新信息,成本很高,难以满足实际需求。链接预测方法是一种知识图谱补全技术,可以根据知识图谱中已经存在的三元组的信息预测知识图谱的缺失信息。
[0003]现有的链接预测模型根据其构建方式可以大致分为线性模型、语义匹配模型和卷积神经网络模型。其中:
[0004]线性模型,将关系看作从头实体到尾实体的平移,通过计算关系平移后的头实体嵌入向量和尾实体嵌入向量的距离来评估三元组的真实性,距离越大,三元组的真实性越低。线性模型的优点是结构简单;缺点是表达能力有限,难以处理复杂情况。
[0005]语义匹配模型,通过计算实体和关系在向量空间中潜在语义的评分来评价三元组的真实性。语义匹配模型的优点是结构清晰;缺点是随着实体嵌入向量和关系嵌入向量维度的增大,模型的参数量也会随之不断增加。卷积神经网络模型,通过卷积、池化等操作捕获头实体和关系之间的复杂交互,进而生成蕴含头实体信息和关系信息的嵌入向量,最后将嵌入向量输入softmax函数得到实体集合中每个实体的预测得分,取得分最高的实体作为模型的输出。卷积神经网络模型的优点是预测尾实体的准确度高;缺点是InteractE等模型对实体嵌入向量和关系嵌入向量进行重塑,破坏了嵌入向量的语义信息,导致三元组中的平移特性被破坏。

技术实现思路

[0006]本专利技术解决InteractE模型存在的平移特性被破坏的问题。本专利技术提供以下技术方案:一种基于多任务学习的知识图谱链接预测方法,包括:
[0007]步骤1:对知识图谱数据集进行预处理生成逆关系三元组,将所述得到的逆关系三元组的知识图谱数据集作为输入,所述得到的逆关系三元组的知识图谱数据集划分为训练集、验证集和测试集;
[0008]步骤2:构建基于多任务学习的知识图谱链接预测模型,所述模型包含图卷积编码器、多任务框架、InteractE解码器和线性模型解码器模块;
[0009]步骤3:对步骤2中所述多任务学习的知识图谱链接预测模型在步骤1的训练集上
进行迭代训练;
[0010]步骤4:将所述验证集中待预测逆关系三元组的头实体和关系输入到步骤3中优化的的基于多任务学习的知识图谱链接预测模型中,得到InteractE模型作为解码器的全部尾实体的预测得分,使用MRR指标评估模型的性能,保存所有迭代中MRR指标最高的模型参数;
[0011]步骤5:加载步骤4的模型参数,将测试集中待预测三元组的头实体和关系输入加载模型参数的模型中,得到InteractE模型作为解码器的全部尾实体的预测得分,将预测得分最高的尾实体作为输出。
[0012]进一步的,提供一种优选实施方式,所述步骤1具体包括以下步骤:
[0013]步骤1.1:从知识图谱数据集中依次提取三元组;
[0014]步骤1.2:对步骤1.1得到的三元组进行预处理生成逆关系三元组,并将逆关系三元组添加到知识图谱数据集中;
[0015]步骤1.3:将知识图谱数据集划分为训练集、验证集和测试集。
[0016]进一步的,提供一种优选实施方式,将所述知识图谱数据集按照8:1:1的比例划分为训练集、验证集与测试集。
[0017]进一步的,提供一种优选实施方式,所述步骤2具体还包括以下步骤:
[0018]步骤2.1:对于给定三元组中的头实体嵌入向量和关系嵌入向量,使用的实体

关系嵌入组合,得到蕴含关系信息的实体嵌入向量;
[0019]步骤2.2:将步骤2.1中生成的实体嵌入向量通过图卷积神经网络聚合信息,得到新的实体嵌入向量;
[0020]步骤2.3:将步骤2.2中得到的实体嵌入向量和关系嵌入向量输入多任务学习框架中,得到两组向量,每组各自包含特定的实体嵌入向量和关系嵌入向量,将两组嵌入向量分别输入InteractE模型和线性模型中;
[0021]步骤2.4:采用InteractE模型和线性模型作为解码器分别得到实体集合中每个实体的预测得分。
[0022]进一步的,提供一种优选实施方式,所述步骤2.1中实体

关系嵌入组合具体为:
[0023]e
o
=W
r
e
o
+e
o
[0024]其中,e
o
∈R
d
为头实体嵌入向量,e
r
∈R
d
为关系嵌入向量,W
r
是与关系相关的参数矩阵,W
r
∈R
d

[0025]进一步的,提供一种优选实施方式,所述步骤2.2中得到新的实体嵌入向量具体为:
[0026][0027]其中,N(v)是节点v的出边的近邻集合。节点u为节点v的相邻节点,二者通过关系r相互连接。其中,e
u
为节点u的初始嵌入向量,W
r
是与关系相关的参数矩阵,W
r
∈R
d

[0028]进一步的,提供一种优选实施方式,所述步骤2.4中取得预测得分的具体方法为:
[0029]p(h,r,t)=|W
rh
h+r

W
rt
t|
[0030]其中,h,t,r∈R
d
,W
rh
与W
rt
为嵌入矩阵。
[0031][0032]其中,e
s
表示头实体的嵌入、e
o
表示尾实体的嵌入、e
r
表示关系的嵌入,vec(
·
)表示将张量变换为向量,*表示深度卷积。ω表示卷积滤波器。W是一个权重矩阵。f和g分别表示RELU函数和sigmoid函数。e
o
为依次用实体集合中每个实体的进行替换得到对应的预测得分。
[0033]进一步的,提供一种优选实施方式,所述步骤3具体包括以下步骤:
[0034]步骤3.1:将步骤1中训练集的数据输入到步骤2中所述模型中,分别得到实体集合中每个实体的预测得分;
[0035]步骤3.2:分别计算预测评分值与真实值之间的差值来获得损失值,对损失值求和作为模型的损失值;
[0036]步骤3.3:通过反本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的知识图谱链接预测方法,其特征在于,包括:步骤1:对知识图谱数据集进行预处理生成逆关系三元组,将所述得到的逆关系三元组的知识图谱数据集作为输入,所述得到的逆关系三元组的知识图谱数据集划分为训练集、验证集和测试集;步骤2:构建基于多任务学习的知识图谱链接预测模型,所述模型包含图卷积编码器、多任务框架、InteractE解码器和线性模型解码器模块;步骤3:对步骤2中所述多任务学习的知识图谱链接预测模型在步骤1的训练集上进行迭代训练;步骤4:将所述验证集中待预测逆关系三元组的头实体和关系输入到步骤3中优化的的基于多任务学习的知识图谱链接预测模型中,得到InteractE模型作为解码器的全部尾实体的预测得分,使用MRR指标评估模型的性能,保存所有迭代中MRR指标最高的模型参数;步骤5:加载步骤4的模型参数,将测试集中待预测三元组的头实体和关系输入加载模型参数的模型中,得到InteractE模型作为解码器的全部尾实体的预测得分,将预测得分最高的尾实体作为输出。2.根据权利要求1所述的一种基于多任务学习的知识图谱链接预测方法,其特征在于,所述步骤1具体包括以下步骤:步骤1.1:从知识图谱数据集中依次提取三元组;步骤1.2:对步骤1.1得到的三元组进行预处理生成逆关系三元组,并将逆关系三元组添加到知识图谱数据集中;步骤1.3:将知识图谱数据集划分为训练集、验证集和测试集。3.根据权利要求2所述的一种基于多任务学习的知识图谱链接预测方法,其特征在于,将所述知识图谱数据集按照8:1:1的比例划分为训练集、验证集与测试集。4.根据权利要求1所述的一种基于多任务学习的知识图谱链接预测方法,其特征在于,所述步骤2具体还包括以下步骤:步骤2.1:对于给定三元组中的头实体嵌入向量和关系嵌入向量,使用的实体

关系嵌入组合,得到蕴含关系信息的实体嵌入向量;步骤2.2:将步骤2.1中生成的实体嵌入向量通过图卷积神经网络聚合信息,得到新的实体嵌入向量;步骤2.3:将步骤2.2中得到的实体嵌入向量和关系嵌入向量输入多任务学习框架中,得到两组向量,每组各自包含特定的实体嵌入向量和关系嵌入向量,将两组嵌入向量分别输入InteractE模型和线性模型中;步骤2.4:采用InteractE模型和线性模型作为解码器分别得到实体集合中每个实体的预测得分。5.根据权利要4所述的一种基于多任务学习的知识图谱链接预测方法,其特征在于,所述步骤2.1中实体

关系嵌入组合具体为:e
a
=W
r
e
o
+e
a
其中,e
o
∈R
d

【专利技术属性】
技术研发人员:王也杨建华韩启龙宋洪涛刘鹏
申请(专利权)人:哈尔滨龙明科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1