小样本知识图谱补全方法、系统、设备及存储介质技术方案

技术编号：33700788 阅读：8 留言：0更新日期：2022-06-06 08:09

本发明专利技术公开了一种小样本知识图谱补全方法、系统、设备及存储介质，通过引入实体间的交互和实体间的关系，可以增强中心实体的表示能力。此外，通过进行语义交互建模可以捕捉支撑集中不同的实体对所反映的不同特征，有效的表示小样本关系的不同方面，最终进一步提高小样本关系连接预测的准确率，提升小样本知识图谱补全效果，进而提升在在搜索引擎、问答系统、推荐系统等相关应用中的效果。荐系统等相关应用中的效果。荐系统等相关应用中的效果。

全部详细技术资料下载

【技术实现步骤摘要】
小样本知识图谱补全方法、系统、设备及存储介质

[0001]本专利技术涉及图数据挖掘领域，尤其涉及一种小样本知识图谱补全方法、系统、设备及存储介质。

技术介绍

[0002]图是一种数据结构，由节点和连接各节点的边组成。知识图谱是一种特殊的图，图中的边有着不同的类型，不同类型的边有不同的语义。在知识图谱中，节点表示一个实体，边表示关系。实体可以表示自然界中任何一类客观存在的对象或任何一种约定俗成的概念，关系则用于描述不同对象之间的相互作用、依赖关系。知识图谱是人类对于世界知识的表达和存储的一种方式，因此，有很高的研究价值和应用价值，也引起了学术界和工业界的广泛关注。
[0003]目前，知识图谱广泛应用于搜索引擎、问答系统、推荐系统中。知识图谱由一系列三元组构成，形如<头实体，关系，尾实体>。其中头实体与尾实体为知识图谱中的某一实体，关系为知识图谱上的一种关系。一个三元组定义了知识图谱中的一条边，知识图谱中所有的边共同构成整个知识图谱。知识补全是知识图谱上的任务之一，旨在根据已知的三元组，推测出潜在的、可能的三元组，进一步补全残缺的三元组，提高知识图谱的完整性，增强知识图谱的易用性，使得知识图谱在其他任务上更易于使用，可以提升在搜索引擎、问答系统、推荐系统的应用效果。
[0004]但是，数据统计发现，知识图谱中关系的频次，往往呈现出长尾分布的特性，换言之，一小部分的关系出现在三元组的次数很多，大部分的关系出现在三元组的次数很少。出现次数很少的关系被称为小样本关系。包含小样本关系的...

【技术保护点】

【技术特征摘要】
1.一种小样本知识图谱补全方法，其特征在于，包括：从待补全的知识图谱中提取出所有小样本关系，对于每一小样本关系分别提取出若干支撑三元组构成的支撑集，以及对于每一小样本关系结合给定的若干询问实体对构造若干询问三元组，并提取出所有包含非小样本关系的三元组作为背景知识图谱；其中，小样本关系出现的次数少于非小样本关系，每一支撑三元组包含一个支撑实体对及支撑实体对的关系，所述支撑实体对与询问实体对均包含头尾两个实体；对于每一小样本关系的每一询问三元组，以及支撑集中的每一支撑三元组，均各自通过背景知识图谱中分别提取出询问实体对与支撑实体对的一跳邻居集合，将询问实体对与支撑实体对各自与对应的一跳邻居集合进行语义交互建模，获得每一询问三元组中询问实体对的隐向量与每一支撑三元组中支撑实体对的隐向量；对于每一小样本关系的每一询问三元组，将相应询问实体对的隐向量与对应支撑集的所有支撑三元组中支撑实体对的隐向量拼接后进行语义交互建模，获得每一支撑三元组中支撑实体对的交互特征与询问实体对的交互特征，再通过注意力机制计算出每一支撑三元组中支撑实体对的注意力权重，并对相应支撑实体对的隐向量进行加权，计算出支撑集的表示向量；通过支撑集的表示向量与询问实体对的交互特征计算询问实体对的评分；对于具有相同询问头实体的询问实体对，选出评分最高的询问实体对对应的询问三元组更新待补全的知识图谱。2.根据权利要求1所述的一种小样本知识图谱补全方法，其特征在于，所述从待补全的知识图谱中提取出所有小样本关系，对于每一小样本关系分别提取出若干支撑三元组构成的支撑集，以及对于每一小样本关系结合给定的若干询问实体对构造若干询问三元组，并提取出所有包含非小样本关系的三元组作为背景知识图谱包括：将待补全的知识图谱记为G，其包含三元组集合{(h,r,t)}
⊆
ε
×
β
×
ε；单个三元组(h,r,t)中，h表示头实体，t表示尾实体，头实体与尾实体构成三元组中的实体对，r表示实体对的关系；ε表示全部的实体所构成的集合，β表示全部的关系所构成的集合；按照关系出现的次数将集合β划分为两类，一类为小样本关系，构成集合R
few
，另一类为非小样本关系，构成集合R
bg
，满足：R
few
∩R
bg
=
∅
，R
few
∪R
bg
=β；提取出所有包含非小样本关系的三元组作为背景知识图谱G
bg
；对于每一小样本关系r
’
∈R
few
，提取出对应的支撑集，其中，s
i
=(h
i ,r
’
,t
i
)表示支撑集中的第i个支撑三元组，h
i
与t
i
分别表示第i个支撑三元组中的支撑头实体与支撑尾实体，U表示支撑集中支撑三元组的数目；对于每一小样本关系r
’
∈R
few
，利用给定的询问实体对构造若干询问三元组构成的集合{(h
j
’
, r
’
,t
j
’
)}，其中，h
j
’
与t
j
’
分别表示第j个询问三元组中的询问头实体与询问尾实体。3.根据权利要求1所述的一种小样本知识图谱补全方法，其特征在于，所述对于每一小样本关系的每一询问三元组，以及支撑集中的每一支撑三元组，均各自通过背景知识图谱中分别提取出询问实体对与支撑实体对的一跳邻居集合，将询问实体对与支撑实体对各自与对应的一跳邻居集合进行语义交互建模，获得每一询问三元组中询问实体对的隐向量与每一支撑三元组中支撑实体对的隐向量包括：
对于每一询问三元组，从背景知识图谱中分别获取询问头实体与询问尾实体的所有一跳邻居实体及相应的关系；对于支撑集中的每一支撑三元组，从背景知识图谱中分别获取支撑头实体与支撑尾实体的所有一跳邻居实体及相应的关系；对每个一跳邻居实体与相应关系的嵌入表示进行融合编码，作为每个一跳邻居实体的融合表示向量，最终获得询问头实体与询问尾实体所有的一跳邻居实体的融合表示向量，以及每一支撑三元组中支撑头实体与支撑尾实体所有的一跳邻居实体的融合表示向量；通过编码相应小样本关系，获得关系向量，结合所述关系向量与相应实体的嵌入表示，获得每一询问三元组中询问头实体与询问尾实体的表示向量，以及每一支撑三元组中支撑头实体与支撑尾实体的表示向量；将每一询问三元组中询问头实体的表示向量及询问尾实体的表示向量分别与对应的所有的一跳邻居实体的融合表示向量进行拼接，则每一询问实体对获得两组拼接向量；将每一支撑三元组中支撑头实体的表示向量及支撑尾实体的表示向量分别与对应的所有的一跳邻居实体的融合表示向量进行拼接，则每一支撑实体对获得两组拼接向量；将每一询问实体对的两组拼接向量，以及每一支撑实体对的两组拼接向量，均分别单独通过Transformer模型进行语义交互建模，再融合两组拼接向量的语义交互建模结果，获得每一询问三元组中询问实体对的隐向量以及每一支撑三元组中支撑实体对的隐向量。4.根据权利要求3所述的一种小样本知识图谱补全方法，其特征在于，每个一跳邻居实体的融合表示向量，每一询问三元组中询问头实体与询问尾实体的表示向量，以及每一支撑三元组中支撑头实体与支撑尾实体的表示向量采用下述方式计算：定义实体e表示询问头实体、支撑头实体、询问尾实体或者支撑尾实体；从背景知识图谱中获取实体e的所有一跳邻居实体及相应的关系，记为，其中，表示实体e的第f个一跳邻居实体，表示实体e与的关系，，为实体e的一跳邻居实体数目；定义第f个一跳邻居实体与关系的嵌入表示为向量和，通过第一感知机进行融合编码，获得第f个一跳邻居实体的融合表示向量：其中，为激活函数，表示向量拼接操作，W1与b1表示第一组可学习的参数；实体e所在询问三元组或者支撑三元组中对应的小样本关系通过下述公式进行编码计算，获得关系向量R
e
：其中，与构成一个支撑实体对或者一个询问实体对；h
j
’
表示第j个询问三元组中的询问头实体，h
i
表示支撑集中第i个支撑三元组中的支撑头实体，实体为h
j

【专利技术属性】
技术研发人员：徐童，陈恩红，罗鹏飞，朱熹，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人