当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于节点自适应的小样本知识图谱补全方法和装置制造方法及图纸

技术编号:37128084 阅读:12 留言:0更新日期:2023-04-06 21:26
一种基于节点自适应的小样本知识图谱补全方法,包括:步骤1、为知识图谱中所有实体构建邻居序列;步骤2、将实体的邻居序列经过transformer后输入进自适应阶层分类器,从而得到该实体的自适应聚合阶层;步骤3、采用基于注意力图网络的聚合方式对实体的邻居进行聚合;步骤4、将聚合好后的头尾实体表征成关系向量,分支持集关系向量和查询关系向量;步骤5、对同一task下的支持集向量和查询向量进行相似度计算;步骤6、根据相似度计算损失函数值;步骤7、进行网络训练,直到到达设定的迭代次数;步骤8、完成训练并得到推理模型。本发明专利技术通过图网络阶层表示和阶层分类的方法实现了对高频实体和稀疏实体的良好表征,从而提升补全方法的准确性。方法的准确性。方法的准确性。

【技术实现步骤摘要】
一种基于节点自适应的小样本知识图谱补全方法和装置


[0001]本专利技术属于数据挖掘算法应用
,涉及一种基于节点自适应的小样本知识图谱补全方法。

技术介绍

[0002]知识图是一种结构化的语义知识库,用于以符号的形式描述物理世界中的概念及其相互关系。现实世界中的许多知识图谱数据库,如Freebase、Wikidata、 NELL等,都是以(头实体、关系、尾实体)形式表达的三重事实。由于知识图谱的重要性,它也被引入到自然语言处理的各种下游任务中,如知识问答、对话系统、信息抽取等。知识图谱的完整性促进了这些下游任务的运行。然而,现实世界中的知识图谱数据库还远远不够完整和全面。因此,有必要通过推断新的三重事实来完善知识图谱。为了完善知识图谱数据,大多数现有的基于嵌入的知识图谱补全模型需要为每个关系提供足够的三元组作为训练数据,如TransE, RotatE和ConvE等。
[0003]然而在现实中,每个关系的三元组数量都符合长尾分布。也就是说,只有少数关系频繁出现,而大多数关系在一个知识图谱数据库中只出现几次。这种现象限制了非频繁关系学习一个良好的向量表征,从而进一步降低了知识图谱补全的性能。因此这也激发了一个新兴的研究课题,称为小样本知识图谱补全,其任务为给定一个task关系r以及所属该关系的几个实体对,从而预测该任务关系下的另一个查询实体对中的尾实体(h,r,?)。小样本知识图谱补全方法采用基于度量学习和基于模型的两种方式进行模型建构,其主要思想为将实体对表征成为小样本关系的向量表示,并将相同的小样本关系的不同向量表征进行相似度计算。为了更好的将实体对表征成关系向量表示,就需要对单个实体进行良好的表征。因此现有方法采用了图网络方法对实体的一阶邻居实体向量进行聚合从而丰富单个实体对向量表示。
[0004]但是,由于实体的邻居数量也呈现严重的长尾分布,因此大部分实体的可聚合邻居数量极少,这严重制约了实体对良好表征。因此有必要将实体对聚合阶层数扩大,但是扩大后也会导致实体在聚合邻居的过程中引入噪声从而影响自身的向量表征。并且有部分实体邻居数量较多,在只聚合一阶邻居的情况就已经能获得周围丰富的邻居信息,此时再将其聚合范围扩大会导致此类实体的表征受到噪声污染。而现有模型没有根据实体自适应的决定其聚合的邻居范围,应当对长尾分布中的头部实体的聚合范围减少,而对尾部实体对聚合范围应该扩大。从而使得每个实体都有充分的邻居信息可以聚合同时又尽量减少噪声的引入。

技术实现思路

[0005]本专利技术目的是为了实现对于小样本知识图谱的有效补全,并解决现有补全方法面临大部分实体没有充分的邻居信息用以聚合的问题,提出一种基于节点自适应的小样本知识图谱补全方法,能够实现对每个节点的聚合范围进行分类,从而缓解大部分实体没有充
分的邻居信息聚合的问题,以及高频率实体聚合范围扩大导致的噪音污染问题,它在小样本知识图谱补全领域具有重要的作用。
[0006]本专利技术的技术关键在于,为知识图谱中所有实体构建邻居序列;并将实体的邻居序列经过transformer后输入进自适应阶层分类器,从而得到该实体的自适应聚合阶层;采用基于注意力图网络的聚合方式对实体的邻居进行聚合,其邻居拓展到第几阶由自适应阶层分类器所决定。从而实现节点的自适应聚合
[0007]一种基于节点自适应的小样本知识图谱补全方法,包括以下步骤:
[0008]步骤1、为知识图谱中所有实体构建邻居序列;
[0009]步骤2、将实体的邻居序列经过transformer后输入进自适应阶层分类器,从而得到该实体的自适应聚合阶层;
[0010]步骤3、采用基于注意力图网络的聚合方式对实体的邻居进行聚合,其邻居拓展到第几阶由自适应阶层分类器所决定;
[0011]步骤4、将聚合好后的头尾对向量通过两种方式表征成所对应task的小样本关系向量,分为支持集关系向量和查询关系向量;
[0012]步骤5、对同一task下的支持集向量和查询向量进行相似度计算;
[0013]步骤6、根据相似度计算损失函数值;
[0014]步骤7、进行网络训练,直到到达设定的迭代次数;
[0015]步骤8、完成训练后,使用训练好的模型根据头实体和关系来补全尾实体。
[0016]优选地,步骤1具体包括:为知识图谱中每个节点构建属于它的邻居序列,该序列长度为255,由自身节点e、分层节点以及一到四阶邻居节点构成,其具体组成方式见图1。其中一到四阶邻居分别选取五十个邻居节点,若节点数量不足则补padding操作,若超过规定数量则随机抽取。
[0017]优选地,步骤2具体包括:
[0018]第一层多头注意力层采用Mask操作使得一阶分层节点只聚合一阶邻居。将聚合后的一阶分层节点向量与节点e向量进行拼接,随后将其输入到自适应阶层分类器进行二分类,决定是否聚合一阶邻居。若聚合一阶邻居,则执行步骤3。若为否则节点e不聚合任何邻居,将跳过步骤3、4执行阶段。
[0019]优选地,步骤3具体包括:若步骤2中的自适应阶层分类器分类结果为聚合一阶邻居,transformer继续编码,第二层多头注意力层同样采用Mask操作使得二阶分层节点只聚合第二阶邻居,将聚合后的二阶分层节点向量与节点e向量进行拼接输入自适应阶层分类器以决定是否聚合第二阶邻居。同理,若聚合第二阶邻居则采用如同步骤2、3方法对第三阶和第四阶邻居进行分类,最终 Transformer输出节点e的自适应聚合阶层。
[0020]优选地,步骤4具体包括:将步骤3得到的自适应聚合阶层数作为节点e需要聚合的邻居范围。采用基于注意力图网络的聚合方式进行邻居聚合,将节点e的向量表征与周围邻居实体表征向量进行相似度计算,所得相似度经过Softmax 函数后即为此该邻居与节点e的注意力权重。例如步骤2得出e的自适应聚合阶层数为2,则图网络第一层聚合节点e的一阶邻居,第二层聚合节点e的二阶邻居,其公式如下:
[0021][0022][0023]其中,公式(1)中,*代表矩阵乘法操作,代表节点e的向量表示, N
e
为节点e的一阶邻居,通过上述计算关系级别注意力被表示为α
e,i
;公式(2) 中e

为节点e经过邻居聚合后的向量表征。
[0024]优选地,步骤5具体包括:小样本知识图谱中采用实体对来表征关系,实体对表示为(h,t),其中将头尾实体经过步骤3得到其各自的自适应聚合阶层,再经过步骤4得到头尾实体的聚合向量表示:需要将头尾实体对表征为他们之间的关系,即该task的小样本关系。本专利技术设计了两种实体对编码方式:
[0025]1)双向LSTM编码
[0026]首先模型需要定义K shot,即将该小样本关系r的支持集中的实体对数量。将每个实体对的头尾实体向量进行拼接操作,得到该实体对的向量表示。将K个实体对组合成该小样本关系的实体对序列,随后将该序列输入进双向LSTM编码。最终得到的向量即为该task下支持集表征的小样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于节点自适应的小样本知识图谱补全方法,其特征在于,包括以下步骤:步骤1、为知识图谱中所有实体构建邻居序列;步骤2、将实体的邻居序列经过transformer后输入进自适应阶层分类器,从而得到该实体的自适应聚合阶层;步骤3、采用基于注意力图网络的聚合方式对实体的邻居进行聚合,其邻居拓展到第几阶由自适应阶层分类器所决定;步骤4、将聚合好后的头尾对向量通过两种方式表征成所对应task的小样本关系向量,分为支持集关系向量和查询关系向量;步骤5、对同一task下的支持集向量和查询向量进行相似度计算;步骤6、根据相似度计算损失函数值;步骤7、进行网络训练,直到到达设定的迭代次数;步骤8、完成训练后,使用训练好的模型根据头实体和关系来补全尾实体。2.如权利要求1所述的一种基于节点自适应的小样本知识图谱补全方法,其特征在于,步骤1具体包括:构建邻居序列,该序列长度为255,由自身节点e、分层节点以及一到四阶邻居节点构成;其中一到四阶邻居分别选取五十个邻居节点,若节点数量不足则补padding操作,若超过规定数量则随机抽取。3.如权利要求1所述的一种基于节点自适应的小样本知识图谱补全方法,其特征在于,步骤2具体包括:Transformer第一层多头注意力层采用Mask操作使得一阶分层节点只聚合一阶邻居;将聚合后的一阶分层节点向量与节点e向量进行拼接,随后将其输入到自适应阶层分类器进行二分类,决定是否聚合一阶邻居;若聚合一阶邻居,则执行步骤3;若为否则节点e不聚合任何邻居,将跳过步骤3、4执行阶段。4.如权利要求1所述的一种基于节点自适应的小样本知识图谱补全方法,其特征在于,步骤3具体包括:若步骤2中的自适应阶层分类器分类结果为聚合一阶邻居,transformer继续编码,第二层多头注意力层同样采用Mask操作使得二阶分层节点只聚合第二阶邻居,将聚合后的二阶分层节点向量与节点e向量进行拼接输入自适应阶层分类器以决定是否聚合第二阶邻居;同理,若聚合第二阶邻居则采用如同步骤2、3方法对第三阶和第四阶邻居进行分类,最终Transformer输出节点e的自适应聚合阶层。5.如权利要求1所述的一种基于节点自适应的小样本知识图谱补全方法,其特征在于,步骤4具体包括:将步骤3得到的自适应聚合阶层数作为节点e需要聚合的邻居范围;采用基于注意力图网络的聚合方式进行邻居聚合,将节点e的向量表征与周围邻居实体表征向量进行相似度计算,所得相似度经过Softmax函数后即为此该邻居与节点e的注意力权重;步骤2得出e的自适应聚合阶层数为2,则图网络第一层聚合节点e的一阶邻居,第二层聚合节点e的二阶邻居,其公式如下:其公式如下:其中,公式(1)中,*代表矩阵乘法操作,代表节点e的向量表示,N
e
为节点e的一阶邻居,通过上述计算关系级别注意力被表示为α
e,i
;公式(2)中e

为节点e经过邻居聚合后的向量表征。
6.如权利要求1所述的一种基于节点自适应的小样本知识图谱补全方法,其特征在于,步骤5具体包括:小样本知识图谱中采用实体对来表征关系,实体对表示为(h,t),其中将头尾实体经过步骤3得到其各自的自适应聚合阶层,再经过步骤4得到头尾实体的聚...

【专利技术属性】
技术研发人员:李超张钊姚远舟巴宁宁
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1