【技术实现步骤摘要】
一种基于多任务学习的知识图谱链接预测方法、计算机设备及存储介质
[0001]本专利技术涉及知识图谱补全
技术介绍
[0002]知识图谱结构上是大型的、图结构的数据库,通常利用关系数据库维护一张巨大的三元组表来管理数据,它以三元组(h,r,t)的形式存储数据,其中h表示头实体、t表示尾实体、r表示关系。知识图谱作为人工智能领域中的一个重要研究方向,已在金融、医疗、搜索等多个领域得到广泛应用。随着人们对知识图谱的深入研究,研究人员发现知识图谱中普遍存在信息缺失的问题。如:在Freebase数据集中,超过70%的个人信息没有出生地信息、超过99%的个人缺少种族信息等。如果采用人工的方式向知识图谱中添加新信息,成本很高,难以满足实际需求。链接预测方法是一种知识图谱补全技术,可以根据知识图谱中已经存在的三元组的信息预测知识图谱的缺失信息。
[0003]现有的链接预测模型根据其构建方式可以大致分为线性模型、语义匹配模型和卷积神经网络模型。其中:
[0004]线性模型,将关系看作从头实体到尾实体的平移,通过计算关系平移后的头实体嵌入向量和尾实体嵌入向量的距离来评估三元组的真实性,距离越大,三元组的真实性越低。线性模型的优点是结构简单;缺点是表达能力有限,难以处理复杂情况。
[0005]语义匹配模型,通过计算实体和关系在向量空间中潜在语义的评分来评价三元组的真实性。语义匹配模型的优点是结构清晰;缺点是随着实体嵌入向量和关系嵌入向量维度的增大,模型的参数量也会随之不断增加。卷积神经网络模型,通过卷积、 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于多任务学习的知识图谱链接预测方法,其特征在于,包括:步骤1:对知识图谱数据集进行预处理生成逆关系三元组,将所述得到的逆关系三元组的知识图谱数据集作为输入,所述得到的逆关系三元组的知识图谱数据集划分为训练集、验证集和测试集;步骤2:构建基于多任务学习的知识图谱链接预测模型,所述模型包含图卷积编码器、多任务框架、InteractE解码器和线性模型解码器模块;步骤3:对步骤2中所述多任务学习的知识图谱链接预测模型在步骤1的训练集上进行迭代训练;步骤4:将所述验证集中待预测逆关系三元组的头实体和关系输入到步骤3中优化的的基于多任务学习的知识图谱链接预测模型中,得到InteractE模型作为解码器的全部尾实体的预测得分,使用MRR指标评估模型的性能,保存所有迭代中MRR指标最高的模型参数;步骤5:加载步骤4的模型参数,将测试集中待预测三元组的头实体和关系输入加载模型参数的模型中,得到InteractE模型作为解码器的全部尾实体的预测得分,将预测得分最高的尾实体作为输出。2.根据权利要求1所述的一种基于多任务学习的知识图谱链接预测方法,其特征在于,所述步骤1具体包括以下步骤:步骤1.1:从知识图谱数据集中依次提取三元组;步骤1.2:对步骤1.1得到的三元组进行预处理生成逆关系三元组,并将逆关系三元组添加到知识图谱数据集中;步骤1.3:将知识图谱数据集划分为训练集、验证集和测试集。3.根据权利要求2所述的一种基于多任务学习的知识图谱链接预测方法,其特征在于,将所述知识图谱数据集按照8:1:1的比例划分为训练集、验证集与测试集。4.根据权利要求1所述的一种基于多任务学习的知识图谱链接预测方法,其特征在于,所述步骤2具体还包括以下步骤:步骤2.1:对于给定三元组中的头实体嵌入向量和关系嵌入向量,使用的实体
‑
关系嵌入组合,得到蕴含关系信息的实体嵌入向量;步骤2.2:将步骤2.1中生成的实体嵌入向量通过图卷积神经网络聚合信息,得到新的实体嵌入向量;步骤2.3:将步骤2.2中得到的实体嵌入向量和关系嵌入向量输入多任务学习框架中,得到两组向量,每组各自包含特定的实体嵌入向量和关系嵌入向量,将两组嵌入向量分别输入InteractE模型和线性模型中;步骤2.4:采用InteractE模型和线性模型作为解码器分别得到实体集合中每个实体的预测得分。5.根据权利要4所述的一种基于多任务学习的知识图谱链接预测方法,其特征在于,所述步骤2.1中实体
‑
关系嵌入组合具体为:e
a
=W
r
e
o
+e
a
其中,e
o
∈R
d
技术研发人员:王也,杨建华,韩启龙,宋洪涛,刘鹏,
申请(专利权)人:哈尔滨龙明科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。