小样本知识图谱补全方法、系统、设备及存储介质技术方案

技术编号:33700788 阅读:8 留言:0更新日期:2022-06-06 08:09
本发明专利技术公开了一种小样本知识图谱补全方法、系统、设备及存储介质,通过引入实体间的交互和实体间的关系,可以增强中心实体的表示能力。此外,通过进行语义交互建模可以捕捉支撑集中不同的实体对所反映的不同特征,有效的表示小样本关系的不同方面,最终进一步提高小样本关系连接预测的准确率,提升小样本知识图谱补全效果,进而提升在在搜索引擎、问答系统、推荐系统等相关应用中的效果。荐系统等相关应用中的效果。荐系统等相关应用中的效果。

【技术实现步骤摘要】
小样本知识图谱补全方法、系统、设备及存储介质


[0001]本专利技术涉及图数据挖掘领域,尤其涉及一种小样本知识图谱补全方法、系统、设备及存储介质。

技术介绍

[0002]图是一种数据结构,由节点和连接各节点的边组成。知识图谱是一种特殊的图,图中的边有着不同的类型,不同类型的边有不同的语义。在知识图谱中,节点表示一个实体,边表示关系。实体可以表示自然界中任何一类客观存在的对象或任何一种约定俗成的概念,关系则用于描述不同对象之间的相互作用、依赖关系。知识图谱是人类对于世界知识的表达和存储的一种方式,因此,有很高的研究价值和应用价值,也引起了学术界和工业界的广泛关注。
[0003]目前,知识图谱广泛应用于搜索引擎、问答系统、推荐系统中。知识图谱由一系列三元组构成,形如<头实体,关系,尾实体>。其中头实体与尾实体为知识图谱中的某一实体,关系为知识图谱上的一种关系。一个三元组定义了知识图谱中的一条边,知识图谱中所有的边共同构成整个知识图谱。知识补全是知识图谱上的任务之一,旨在根据已知的三元组,推测出潜在的、可能的三元组,进一步补全残缺的三元组,提高知识图谱的完整性,增强知识图谱的易用性,使得知识图谱在其他任务上更易于使用,可以提升在搜索引擎、问答系统、推荐系统的应用效果。
[0004]但是,数据统计发现,知识图谱中关系的频次,往往呈现出长尾分布的特性,换言之,一小部分的关系出现在三元组的次数很多,大部分的关系出现在三元组的次数很少。出现次数很少的关系被称为小样本关系。包含小样本关系的三元组很少,因此理解小样本关系较为困难。另外,小样本关系往往需要进一步补全,较少的三元组也提升了小样本知识图谱补全任务的难度。
[0005]目前为止,已有少许相关的技术方案与研究成果,部分代表性的公开技术方法大致可以分为以下两种类型:1、传统的知识图谱补全方法。
[0006]传统的知识图谱补全方法需要大量的数据作为支撑,因而在小样本的场景下,往往表现的很差。最具有代表性的,是基于翻译的模型,最早的TransE模型则假设实体和关系的向量满足假设“头实体+关系=尾实体”,据此对每个实体和关系的向量表示优化。后续在翻译模型上的方法,如TransH,则是对TransE的优化和改进,进一步考虑到了不同关系的一对多、多对一的特性。但是在小样本关系下,表现仍然不好。
[0007]2、其他小样本知识图谱补全方法的方法。
[0008]其他小样本知识图谱补全方法的方法主要分为使用度量学习的方法和使用元学习的方法。
[0009](1)使用度量学习的方法。度量学习是使用距离函数或相似度函数衡量两个向量间的距离或相似度。在度量学习的基础上,给定一种关系下的少数几个三元组(称为支撑
集),再给定一个询问的头实体和尾实体(称为询问实体对),从而可以根据度量函数,判断询问实体对和给定的已知的三元组的关系。最终得出询问实体对是否满足当前的关系。论文“Xiong, Wenhan, et al. "One

Shot Relational Learning for Knowledge Graphs." Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.”描述了一种使用知识图谱中邻居实体节点编码的方法,该方法可以融合邻居实体结点的信息,进一步对实体对的节点进行表示。首先将每个实体嵌入到向量空间中,对于需要表达的实体,获取它在知识图谱上的一阶邻居,通过多层感知机得到编码后邻居实体向量,将邻居实体向量的平均值作为中心实体的表示。为了得到支撑集和询问实体对的相关关系,采用长短期记忆神经网络进行匹配。论文“Zhang, Chuxu, et al. "Few

shot knowledge graph completion." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 03. 2020.”进一步考虑到了邻居实体节点编码时,不同实体节点的重要程度不同,进而为他们分配不同的权重,该权重应该由模型学习得到。具体而言,对于实体的邻居节点,使用全连接层得到中心实体节点对于邻居实体节点的权重,将邻居实体节点向量的加权和作为中心实体节点的向量表示。论文“Sheng, Jiawei, et al. "Adaptive Attentional Network for Few

Shot Knowledge Graph Completion. " Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. 2020.”在得到中心实体表示的过程当中,使用了注意力机制,计算出当前邻居实体系节点对于任务关系的权重,通过加权和的形式进一步融合了当前关系的表示,除此之外,为了得到更加一般化的询问实体对的表示,使用注意力机制,计算得到询问和支撑集之间的注意力关系,进而得到询问的向量表示。
[0010](2)使用元学习的方法。元学习是一种学习方法,希望模型获得“学会学习”的能力,最终使得模型能够在已有知识的基础之上,快速适应或学习新的任务。论文“Chen, Mingyang, et al. "Meta Relational Learning for Few

Shot Link Prediction in Knowledge Graphs." Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP

IJCNLP). 2019.”是一种基于元学习的方法。在训练时,该方法把不同小样本关系上的学习任务作为学到的知识,知识来源于两个方面,一种来源于支撑集和询问实体对中对于任务关系的知识,另外一种来源于不同任务之间可以快速迁移的梯度知识。
[0011]然而,上述使用度量学习的方法和使用元学习的方法在获得实体的表示时,忽略了邻居实体之间的语义交互。不同实体和关系之间组合蕴含了大量的语义信息,对小样本关系的学习和推断很有帮助。
[0012]综上所述,现有的技术方案虽然已经取得了一定的成效,但对于小样本存在如下困难:1、传统的知识图谱补全方法需要大量的三元组作为训练数据,而在小样本的场景下没有充足的训练数据,导致训练效果很差。2、其他小样本知识图谱补全方法的方法在获取实体的表示时,忽略了邻居实体与实体之间,实体与关系之间的语义交互。往往不同实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小样本知识图谱补全方法,其特征在于,包括:从待补全的知识图谱中提取出所有小样本关系,对于每一小样本关系分别提取出若干支撑三元组构成的支撑集,以及对于每一小样本关系结合给定的若干询问实体对构造若干询问三元组,并提取出所有包含非小样本关系的三元组作为背景知识图谱;其中,小样本关系出现的次数少于非小样本关系,每一支撑三元组包含一个支撑实体对及支撑实体对的关系,所述支撑实体对与询问实体对均包含头尾两个实体;对于每一小样本关系的每一询问三元组,以及支撑集中的每一支撑三元组,均各自通过背景知识图谱中分别提取出询问实体对与支撑实体对的一跳邻居集合,将询问实体对与支撑实体对各自与对应的一跳邻居集合进行语义交互建模,获得每一询问三元组中询问实体对的隐向量与每一支撑三元组中支撑实体对的隐向量;对于每一小样本关系的每一询问三元组,将相应询问实体对的隐向量与对应支撑集的所有支撑三元组中支撑实体对的隐向量拼接后进行语义交互建模,获得每一支撑三元组中支撑实体对的交互特征与询问实体对的交互特征,再通过注意力机制计算出每一支撑三元组中支撑实体对的注意力权重,并对相应支撑实体对的隐向量进行加权,计算出支撑集的表示向量;通过支撑集的表示向量与询问实体对的交互特征计算询问实体对的评分;对于具有相同询问头实体的询问实体对,选出评分最高的询问实体对对应的询问三元组更新待补全的知识图谱。2.根据权利要求1所述的一种小样本知识图谱补全方法,其特征在于,所述从待补全的知识图谱中提取出所有小样本关系,对于每一小样本关系分别提取出若干支撑三元组构成的支撑集,以及对于每一小样本关系结合给定的若干询问实体对构造若干询问三元组,并提取出所有包含非小样本关系的三元组作为背景知识图谱包括:将待补全的知识图谱记为G,其包含三元组集合{(h,r,t)}

ε
×
β
×
ε;单个三元组(h,r,t)中,h表示头实体,t表示尾实体,头实体与尾实体构成三元组中的实体对,r表示实体对的关系;ε表示全部的实体所构成的集合,β表示全部的关系所构成的集合;按照关系出现的次数将集合β划分为两类,一类为小样本关系,构成集合R
few
,另一类为非小样本关系,构成集合R
bg
,满足:R
few
∩R
bg
=

,R
few
∪R
bg
=β;提取出所有包含非小样本关系的三元组作为背景知识图谱G
bg
; 对于每一小样本关系r

∈R
few
,提取出对应的支撑集,其中,s
i
=(h
i ,r

,t
i
)表示支撑集中的第i个支撑三元组,h
i
与t
i
分别表示第i个支撑三元组中的支撑头实体与支撑尾实体,U表示支撑集中支撑三元组的数目; 对于每一小样本关系r

∈R
few
,利用给定的询问实体对构造若干询问三元组构成的集合{(h
j

, r

,t
j

)},其中,h
j

与t
j

分别表示第j个询问三元组中的询问头实体与询问尾实体。3.根据权利要求1所述的一种小样本知识图谱补全方法,其特征在于,所述对于每一小样本关系的每一询问三元组,以及支撑集中的每一支撑三元组,均各自通过背景知识图谱中分别提取出询问实体对与支撑实体对的一跳邻居集合,将询问实体对与支撑实体对各自与对应的一跳邻居集合进行语义交互建模,获得每一询问三元组中询问实体对的隐向量与每一支撑三元组中支撑实体对的隐向量包括:
对于每一询问三元组,从背景知识图谱中分别获取询问头实体与询问尾实体的所有一跳邻居实体及相应的关系;对于支撑集中的每一支撑三元组,从背景知识图谱中分别获取支撑头实体与支撑尾实体的所有一跳邻居实体及相应的关系;对每个一跳邻居实体与相应关系的嵌入表示进行融合编码,作为每个一跳邻居实体的融合表示向量,最终获得询问头实体与询问尾实体所有的一跳邻居实体的融合表示向量,以及每一支撑三元组中支撑头实体与支撑尾实体所有的一跳邻居实体的融合表示向量;通过编码相应小样本关系,获得关系向量,结合所述关系向量与相应实体的嵌入表示,获得每一询问三元组中询问头实体与询问尾实体的表示向量,以及每一支撑三元组中支撑头实体与支撑尾实体的表示向量;将每一询问三元组中询问头实体的表示向量及询问尾实体的表示向量分别与对应的所有的一跳邻居实体的融合表示向量进行拼接,则每一询问实体对获得两组拼接向量;将每一支撑三元组中支撑头实体的表示向量及支撑尾实体的表示向量分别与对应的所有的一跳邻居实体的融合表示向量进行拼接,则每一支撑实体对获得两组拼接向量;将每一询问实体对的两组拼接向量,以及每一支撑实体对的两组拼接向量,均分别单独通过Transformer模型进行语义交互建模,再融合两组拼接向量的语义交互建模结果,获得每一询问三元组中询问实体对的隐向量以及每一支撑三元组中支撑实体对的隐向量。4.根据权利要求3所述的一种小样本知识图谱补全方法,其特征在于,每个一跳邻居实体的融合表示向量,每一询问三元组中询问头实体与询问尾实体的表示向量,以及每一支撑三元组中支撑头实体与支撑尾实体的表示向量采用下述方式计算:定义实体e表示询问头实体、支撑头实体、询问尾实体或者支撑尾实体;从背景知识图谱中获取实体e的所有一跳邻居实体及相应的关系,记为,其中,表示实体e的第f个一跳邻居实体,表示实体e与的关系,,为实体e的一跳邻居实体数目;定义第f个一跳邻居实体与关系的嵌入表示为向量和,通过第一感知机进行融合编码,获得第f个一跳邻居实体的融合表示向量:其中,为激活函数,表示向量拼接操作,W1与b1表示第一组可学习的参数;实体e所在询问三元组或者支撑三元组中对应的小样本关系通过下述公式进行编码计算,获得关系向量R
e
:其中,与构成一个支撑实体对或者一个询问实体对;h
j

表示第j个询问三元组中的询问头实体,h
i
表示支撑集中第i个支撑三元组中的支撑头实体,实体为h
j

【专利技术属性】
技术研发人员:徐童陈恩红罗鹏飞朱熹
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1