一种基于小样本学习的知识图谱实体链接预测方法技术

技术编号：32573032 阅读：13 留言：0更新日期：2022-03-09 17:01

本发明专利技术属于元学习与知识表示学习技术领域，具体涉及一种基于小样本学习的知识图谱实体链接预测方法。本发明专利技术利用元学习的方式在一个任务中只利用少数三元组信息完成关系信息的提取以及快速更新；考虑数据集中的三元组会存在复杂的头尾实体数量对应关系，通过预先统计出完整三元组中的头尾实体数量，根据头尾实体所占比例确定负样本的生成方式；通过知识表示学习的传统评分函数将实体向量和关系向量以共处同一平面的方式进行数学计算。本发明专利技术通过将更新后的关系信息向量映射到超平面，并将实体向量进行超平面投影分解，使得模型能够有效缓解训练过程中过度收敛的情况。效缓解训练过程中过度收敛的情况。效缓解训练过程中过度收敛的情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于小样本学习的知识图谱实体链接预测方法

[0001]本专利技术属于元学习与知识表示学习
，具体涉及一种基于小样本学习的知识图谱实体链接预测方法。

技术介绍

[0002]现有多数的机器学习模型都依赖于大量的数据进行训练，然而针对特殊领域或者复杂的任务时，少量的样本数据限制了已有模型的能力，使得模型无法达到相应的效果。研究人员针对小样本的问题提出了众多解决办法，在计算机视觉领域、图像分类任务中已经形成了许多性能优异的模型，但是在知识图谱领域中发展较为缓慢。以三元组形式表示的知识图谱中普遍存在长尾现象，只有极少数的三元组关系拥有大量对应的头尾实体，在小样本数据的条件下进行知识图谱实体链接预测的任务亟待解决。
[0003]知识表示学习利用机器学习技术获取每个实体或者关系的向量化表达，能够将描述的文本对象表示为一个低维的实值向量，利用对象在空间的相对距离，反映它们之前的语义关系。由于内容被映射到向量空间中，相应的算法可以使用数值计算，并且基于向量的表示会更加适用于机器学习算法。
[0004]元学习的目的是让模型本身获得一种学习能力，这种能力能够保证模型自动学习到一些模型训练之外可以学习到的知识，包括模型的超参数、神经网络的初始参数、神经网络的结构和优化器等元知识。在小样本学习中，元学习从大量的先验任务中学习到元知识，利用以往的先验知识来指导模型在新任务中的更快的学习。在基于元学习的知识图谱补全的任务可理解为实体链接预测问题，通过训练集中真实的三元组数据训练元学习器，使得元学习器能够获得以下能力：从完...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的知识图谱实体链接预测方法，其特征在于，包括以下步骤：步骤1：在知识库中提取大量的由头实体、关系、尾实体构成的三元组，将这些三元组整理为后续模型训练所需的数据集；步骤2：根据元学习的数据集处理标准，将整体数据集分为两个部分M
Train
训练集和M
Test
测试集，为保证基于小样本的模型训练正确性，要求步骤3：定义以向量方式表达的三元组为(h,r,t)；其中，h，t分别表示头、尾实体向量；r表示关系向量；将步骤2中的M
Train
和M
Test
根据实体的自身语义复杂度以动态向量维度的方式进行初始化；步骤4：对于M
Train
中具有相同关系r的三元组加入到任务Task
r
中，定义T是所有关系任务的集合，Task
r
∈T；步骤5：根据步骤4中的T抽取任意一项任务Task
′
r
，对于多数Task
′
r
会包含多个三元组信息，将Task
′
r
中的多个三元组划分出支持集S
r
和查询集Q
r
；步骤6：对步骤5中的支持集S
r
中某个实体对使用基于元学习的机器学习方法进行关系信息提取；步骤7：利用知识表示学习方法中的核心思想确定三元组评估函数以及损失函数，不断进行梯度更新，得到最终的关系信息向量；步骤7.1：对步骤5中的S
r
头尾实体数量对应关系分类，针对一对多、多对一等复杂情况以头尾实体所占比例为主要依据完成负样本的生成，加快模型训练的速度；步骤7.2：将步骤6.3中得到的关系向量以及实体对(h
i
,t
i
...

【专利技术属性】
技术研发人员：刘泽超，马万朋，孙建国，刘瑞男，武俊鹏，申林山，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人