一种基于小样本学习的知识图谱实体链接预测方法技术

技术编号:32573032 阅读:13 留言:0更新日期:2022-03-09 17:01
本发明专利技术属于元学习与知识表示学习技术领域,具体涉及一种基于小样本学习的知识图谱实体链接预测方法。本发明专利技术利用元学习的方式在一个任务中只利用少数三元组信息完成关系信息的提取以及快速更新;考虑数据集中的三元组会存在复杂的头尾实体数量对应关系,通过预先统计出完整三元组中的头尾实体数量,根据头尾实体所占比例确定负样本的生成方式;通过知识表示学习的传统评分函数将实体向量和关系向量以共处同一平面的方式进行数学计算。本发明专利技术通过将更新后的关系信息向量映射到超平面,并将实体向量进行超平面投影分解,使得模型能够有效缓解训练过程中过度收敛的情况。效缓解训练过程中过度收敛的情况。效缓解训练过程中过度收敛的情况。

【技术实现步骤摘要】
一种基于小样本学习的知识图谱实体链接预测方法


[0001]本专利技术属于元学习与知识表示学习
,具体涉及一种基于小样本学习的知识图谱实体链接预测方法。

技术介绍

[0002]现有多数的机器学习模型都依赖于大量的数据进行训练,然而针对特殊领域或者复杂的任务时,少量的样本数据限制了已有模型的能力,使得模型无法达到相应的效果。研究人员针对小样本的问题提出了众多解决办法,在计算机视觉领域、图像分类任务中已经形成了许多性能优异的模型,但是在知识图谱领域中发展较为缓慢。以三元组形式表示的知识图谱中普遍存在长尾现象,只有极少数的三元组关系拥有大量对应的头尾实体,在小样本数据的条件下进行知识图谱实体链接预测的任务亟待解决。
[0003]知识表示学习利用机器学习技术获取每个实体或者关系的向量化表达,能够将描述的文本对象表示为一个低维的实值向量,利用对象在空间的相对距离,反映它们之前的语义关系。由于内容被映射到向量空间中,相应的算法可以使用数值计算,并且基于向量的表示会更加适用于机器学习算法。
[0004]元学习的目的是让模型本身获得一种学习能力,这种能力能够保证模型自动学习到一些模型训练之外可以学习到的知识,包括模型的超参数、神经网络的初始参数、神经网络的结构和优化器等元知识。在小样本学习中,元学习从大量的先验任务中学习到元知识,利用以往的先验知识来指导模型在新任务中的更快的学习。在基于元学习的知识图谱补全的任务可理解为实体链接预测问题,通过训练集中真实的三元组数据训练元学习器,使得元学习器能够获得以下能力:从完整的三元组中抽取关系信息,转移到缺失的三元组中,并且可以仅仅通过少量实例来加速任务中的学习过程。

技术实现思路

[0005]本专利技术的目的在于解决知识图谱中常见的长尾现象带来的三元组数量不足以支撑现有模型训练从而难以推断出缺失三元组的问题,提供一种基于小样本学习的知识图谱实体链接预测方法。
[0006]一种基于小样本学习的知识图谱实体链接预测方法,包括以下步骤:
[0007]步骤1:在知识库中提取大量的由头实体、关系、尾实体构成的三元组,将这些三元组整理为后续模型训练所需的数据集;
[0008]步骤2:根据元学习的数据集处理标准,将整体数据集分为两个部分M
Train
训练集和M
Test
测试集,为保证基于小样本的模型训练正确性,要求
[0009]步骤3:定义以向量方式表达的三元组为(h,r,t);其中,h,t分别表示头、尾实体向量;r表示关系向量;将步骤2中的M
Train
和M
Test
根据实体的自身语义复杂度以动态向量维度的方式进行初始化;
[0010]步骤4:对于M
Train
中具有相同关系r的三元组加入到任务Task
r
中,定义T是所有关
系任务的集合,Task
r
∈T;
[0011]步骤5:根据步骤4中的T抽取任意一项任务Task

r
,对于多数Task

r
会包含多个三元组信息,将Task

r
中的多个三元组划分出支持集S
r
和查询集Q
r

[0012]步骤6:对步骤5中的支持集S
r
中某个实体对使用基于元学习的机器学习方法进行关系信息提取;
[0013]步骤7:利用知识表示学习方法中的核心思想确定三元组评估函数以及损失函数,不断进行梯度更新,得到最终的关系信息向量;
[0014]步骤7.1:对步骤5中的S
r
头尾实体数量对应关系分类,针对一对多、多对一等复杂情况以头尾实体所占比例为主要依据完成负样本的生成,加快模型训练的速度;
[0015]步骤7.2:将步骤6.3中得到的关系向量以及实体对(h
i
,t
i
)通过超平面转换分别得到使用三元组评估函数允许头尾实体在涉及不同关系时具有分布式表示的特点;
[0016]步骤7.3:根据步骤7.2中三元组评估函数定义损失函数定义损失函数其中,γ为边界超参数;分别代表正样本与负样本的得分;C是约束的超参数;
[0017]步骤7.4:计算步骤7.3中损失函数对于当前任务的关系信息向量的梯度变化量遵循梯度更新的规则,按照实现对关系信息向量的快速更新;其中,为更新后的关系信息;α为学习率;
[0018]步骤7.5:重复步骤7.1到7.4,持续更新直到遍历支持集S
r
中的全部三元组;
[0019]步骤8:将步骤5中的查询集Q
r
所有三元组按照步骤6、步骤7完成关系信息更新,得到最终关系信息向量
[0020]步骤9:对步骤3中测试集M
Test
,按照步骤5分解出支持集S
rT
和查询集Q
rT
,将S
rT
以步骤6到步骤7最终得到的关系信息向量对三元组中的关系进行初始化,训练完整三元组的向量表示;
[0021]步骤10:将步骤9中的查询集Q
rT
中的实体向量带入三元组中缺失的部分,结合步骤7.2中的评分函数计算得分,通过MRR、HIT@K等评测方法确定最终补全的实体。
[0022]进一步地,所述步骤6具体包括:
[0023]步骤6.1:从支持集S
r
取出实体对(h
i
,t
i
),通过若干层全连接神经网络的计算得到实体对(h
i
,t
i
)对于关系r的表示
[0024]步骤6.2:计算支持集S
r
中的三元组个数N,重复步骤6.1得到支持集S
r
中所有实体对关系r的表示之和
[0025]步骤6.3:计算对关系r的信息提取结果为
[0026]本专利技术的有益效果在于:
[0027]本专利技术利用元学习的方式在一个任务中只利用少数三元组信息完成关系信息的
提取以及快速更新;考虑数据集中的三元组会存在复杂的头尾实体数量对应关系,通过预先统计出完整三元组中的头尾实体数量,根据头尾实体所占比例确定负样本的生成方式;通过知识表示学习的传统评分函数将实体向量和关系向量以共处同一平面的方式进行数学计算。本专利技术通过将更新后的关系信息向量映射到超平面,并将实体向量进行超平面投影分解,使得模型能够有效缓解训练过程中过度收敛的情况。
附图说明
[0028]图1为本专利技术的一种基于小样本学习的知识图谱实体链接预测方法的流程图。
具体实施方式
[0029]下面结合附图对本专利技术做进一步描述。
[0030]本专利技术属于知识图谱补全领域中的实体链接预测方法,涉及元学习,知识表示学习等相关技术。本专利技术是为了解决知识图谱中常见的长尾现象带来的三元组数量不足以支本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的知识图谱实体链接预测方法,其特征在于,包括以下步骤:步骤1:在知识库中提取大量的由头实体、关系、尾实体构成的三元组,将这些三元组整理为后续模型训练所需的数据集;步骤2:根据元学习的数据集处理标准,将整体数据集分为两个部分M
Train
训练集和M
Test
测试集,为保证基于小样本的模型训练正确性,要求步骤3:定义以向量方式表达的三元组为(h,r,t);其中,h,t分别表示头、尾实体向量;r表示关系向量;将步骤2中的M
Train
和M
Test
根据实体的自身语义复杂度以动态向量维度的方式进行初始化;步骤4:对于M
Train
中具有相同关系r的三元组加入到任务Task
r
中,定义T是所有关系任务的集合,Task
r
∈T;步骤5:根据步骤4中的T抽取任意一项任务Task

r
,对于多数Task

r
会包含多个三元组信息,将Task

r
中的多个三元组划分出支持集S
r
和查询集Q
r
;步骤6:对步骤5中的支持集S
r
中某个实体对使用基于元学习的机器学习方法进行关系信息提取;步骤7:利用知识表示学习方法中的核心思想确定三元组评估函数以及损失函数,不断进行梯度更新,得到最终的关系信息向量;步骤7.1:对步骤5中的S
r
头尾实体数量对应关系分类,针对一对多、多对一等复杂情况以头尾实体所占比例为主要依据完成负样本的生成,加快模型训练的速度;步骤7.2:将步骤6.3中得到的关系向量以及实体对(h
i
,t
i
...

【专利技术属性】
技术研发人员:刘泽超马万朋孙建国刘瑞男武俊鹏申林山
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1