本体概念增强的归纳式图谱表征方法技术

技术编号:28035590 阅读:46 留言:0更新日期:2021-04-09 23:17
本发明专利技术公开了一种本体概念增强的归纳式图谱表征方法,通过双层注意力机制可以生成包含丰富信息的本体概念表征,其可被用来有效地提高新增实体的嵌入效果;使用了关系确定的注意力机制融合一个新增实体对应的多个概念,生成实体模板向量;接着该模板向量进一步融合了由新增实体内部邻居提供的个性化特征,生成新增实体向量表征,最终有效地提升了图谱补全任务的效果。

【技术实现步骤摘要】
本体概念增强的归纳式图谱表征方法
本专利技术涉及自然语言处理中的知识图谱表示学习领域,尤其涉及一种本体概念增强的归纳式图谱表征方法。
技术介绍
知识图谱中包含了大量实例实体三元组,实例实体三元组可以表示为(头实体,关系,尾实体)的形式,一个实例实体三元组代表了一条知识。知识图谱在信息检索,问答,推荐等任务中担任越来越重要的角色,其应用范围也在不断扩展。然而,现有的知识谱图普遍存在不够完整的问题,即大量实体之间的关系仍然未包含在图谱中。基于表示学习的图谱补全任务旨在学得实体和关系的向量表示,进而基于实体和关系向量,预测实体之间缺失的关系。传统的直推式表示学习方法假设所有的测试实体在训练阶段都是可见的。然而,在现实场景中,图谱构建之后还会不断完善,这就导致图谱中会不断出现新的实体。直推式表示学习方法必须重新训练整个图谱,才能得到新增实体的表征,这是非常低效、耗费资源的。因此,归纳式图谱表示学习方法旨在归纳式地生成新增实体的表征,进而节省资源、满足实时计算的需求。目前,针对新增实体的归纳式表示学习方法已有少许相关的技术方案与研究成果,部分代表性的公开技术包括:CN202010809387.0,一种面向知识图谱表示学习的局部训练方法,根据TransE模型,利用图谱原有实体和关系的向量表示,得到新增实体的初始化表示,再进行微调。CN201911380039.X,一种基于锚点的知识图谱表示学习方法,利用文本信息作为新增实体的语义基础并联合已有知识图谱的相关局部知识进行训练。现有技术可划分为两类:(1)基于新增实体内部邻居的方法(如专利CN202010809387.0),这类方法一般使用图卷积神经网络模型融合新增实体的内部邻居,进而归纳式地生成新增实体的表征。(2)基于新增实体描述信息的方法(如专利CN201911380039.X),这类方法通常使用新增实体的文本或图像描述信息,采用文本或图像嵌入工具得到新增实体的向量表示。然而,对于(1)中的方法,由于新增实体内部邻居的稀疏性和异构性,由简单的融合算法生成的新增实体表征往往不够准确。对于(2)中的方法,表征的效果高度依赖于描述信息的质量。在实际应用中,难以获得满足需求的高质量描述信息。
技术实现思路
本专利技术的目的是提供一种本体概念增强的归纳式图谱表征方法,归纳式地产生新增实体的表征,从而使得新增实体的表征更加准确、高效,并提高下游图谱补全任务的准确率。本专利技术的目的是通过以下技术方案实现的:一种本体概念增强的归纳式图谱表征方法,包括:构建网络模型,给定一个包含新增实例实体的三元组,同时给定三元组中每一新增实例实体的本体概念和邻居实例实体集合;所述网络模型,对三元组中每一新增实例实体的每一本体概念通过双层注意力机制生成本体概念的表征;基于所有本体概念的表征与包含新增实例实体的三元组生成新增实例实体的模板表征,再结合邻居实例实体集合生成新增实例实体的最终表征向量;基于所有新增实例实体的最终表征向量评估包含新增实例实体的三元组的合法性;如果满足合法性要求,则将三元组添加到知识图谱中。由上述本专利技术提供的技术方案可以看出,通过双层注意力机制可以生成包含丰富信息的本体概念表征,其可被用来有效地提高新增实体的嵌入效果;使用了关系确定的注意力机制融合一个新增实体对应的多个概念,生成实体模板向量;接着该模板向量进一步融合了由新增实体内部邻居提供的个性化特征,生成新增实体向量表征,最终有效地提升了图谱补全任务的效果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种本体概念增强的归纳式图谱表征方法的流程图;图2为本专利技术实施例提供的一种本体概念增强的归纳式图谱表征方法的模型图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。现有技术中的两类方法都忽略了一个对新增实体十分重要的信息,即本体概念。知识图谱中包含了实例实体及其对应的本体概念。一方面,实例实体为相应的本体概念提供了丰富的细节信息。另一方法,本体概念为其实例实体提供了一个基本的概要信息,这一点对于新增实体尤为重要。本体概念可以作为新增实体的一个基础模板,为其在向量空间提供一个相对精确的位置范围,因此,本专利技术实施例提供一种本体概念增强的归纳式图谱表征方法,如图1所示,主要包括:构建如图2所示的网络模型,给定一个包含新增实例实体的三元组,同时给定三元组中每一新增实例实体的本体概念和邻居实例实体集合;所述网络模型,对三元组中每一新增实例实体的每一本体概念通过双层注意力机制生成本体概念的表征;基于所有本体概念的表征与包含新增实例实体的三元组生成新增实例实体的模板表征,再结合邻居实例实体集合生成新增实例实体的最终表征向量;基于所有新增实例实体的最终表征向量评估包含新增实例实体的三元组的合法性;如果满足合法性要求,则将该三元组添加到知识图谱中,提高图谱的完整性。以上介绍的是整个方案的主要原理,该网络模型需要进行训练与参数估计,之后再用于预测任务。为了便于理解,下面结合上述介绍的原理,对模型训练与参数估计的过程、以及预测任务做相关介绍。一、基本数据的整理及预处理。在进行模型训练与参数估计之前,需要收集并整理基本数据,再进行相关数据的预处理,优选实施方式如下:1、基本数据整理。本专利技术实施例中,所述基本数据是一个包含本体概念信息的知识图谱,主要包含三部分数据信息:实例实体三元组,表示实例实体之间的关系;本体概念三元组,表示本体概念之间的元关系;实例实体概念对,表示实例实体和其所属本体概念之间的对应关系,上述数据通常为文本形式。本专利技术实施例中,本体概念之间的元关系能够反映不同本体概念之间的关联关系,如(cityat_locationstate),对于一个特殊的元关系subclass_of(子类),如(citysubclass_ofplace),体现了本体概念间的父子关系,其他元关系(非subclass_of)为一般元关系。对于一个概念如city,根据subclass_of关系,可以整理得到其父概念、子概念。根据其他一般元关系(如at_location),可以得到一般邻居概念(如state)。为了便于模型训练,需要对图谱进行整理。整理后,对每个实例实体,得到其邻居实例实体集合、以及对应的本体概念集合;对每个本体概念,整理得到其子概念集,父概念集,一般相邻概念集和对应的实例实体集。2、数据预处理。本专利技术实施例中,数据预处理的对应主要为实例实体本文档来自技高网
...

【技术保护点】
1.一种本体概念增强的归纳式图谱表征方法,其特征在于,包括:/n构建网络模型,给定一个包含新增实例实体的三元组,同时给定三元组中每一新增实例实体的本体概念和邻居实例实体集合;所述网络模型,对三元组中每一新增实例实体的每一本体概念通过双层注意力机制生成本体概念的表征;基于所有本体概念的表征与包含新增实例实体的三元组生成新增实例实体的模板表征,再结合邻居实例实体集合生成新增实例实体的最终表征向量;基于所有新增实例实体的最终表征向量评估包含新增实例实体的三元组的合法性;如果满足合法性要求,则将三元组添加到知识图谱中。/n

【技术特征摘要】
1.一种本体概念增强的归纳式图谱表征方法,其特征在于,包括:
构建网络模型,给定一个包含新增实例实体的三元组,同时给定三元组中每一新增实例实体的本体概念和邻居实例实体集合;所述网络模型,对三元组中每一新增实例实体的每一本体概念通过双层注意力机制生成本体概念的表征;基于所有本体概念的表征与包含新增实例实体的三元组生成新增实例实体的模板表征,再结合邻居实例实体集合生成新增实例实体的最终表征向量;基于所有新增实例实体的最终表征向量评估包含新增实例实体的三元组的合法性;如果满足合法性要求,则将三元组添加到知识图谱中。


2.根据权利要求1所述的一种本体概念增强的归纳式图谱表征方法,其特征在于,在网络模型的训练阶段,对包含本体概念信息的知识图谱进行整理,知识图谱包含三部分数据信息:实例实体三元组,表示实例实体之间的关系;本体概念三元组,表示本体概念之间的元关系;实例实体概念对,表示实例实体和其所属本体概念之间的对应关系;之后,进行预处理:将知识图谱中实例实体三元组作为正样本,采用随机替换实例实体三元组中头实体或者尾实体的方式生成负样本,构成正负样本对,结合多个正负样本对进行模型训练与参数估计,包括:
第一部分:将正负样本对中的任意实例实体记为目标实例实体,提取对应的本体概念集合,对于每一本体概念,使用双层注意力机制建模局部层次结构,本体概念与多种类型的节点相关联,所述节点包括:其他本体概念及实例实体;首先,对于每一种类型的节点,使用节点级注意力机制,融合相同类型的节点信息,从而得到各个节点类型的信息表征;然后,使用类型级注意力机制来聚合各个类型的信息表征,得到本体概念的表征;
第二部分:根据实例实体三元组中的关系信息,使用关系确定的注意力机制来结合目标实例实体对应的所有本体概念的表征来生成目标实例实体的模板表征,采用门机制,结合目标实例实体的模板表征以及目标实例实体的邻居实例实体集合生成目标实例实体的最终表征向量;
第三部分:使用评分函数,结合正样本与负样本中所有实例实体的最终表征向量,计算正样本与负样本的评分,并利用评分结果构建损失函数进行模型的参数估计。


3.根据权利要求2所述的一种本体概念增强的归纳式图谱表征方法,其特征在于,知识图谱进行整理后,对每个实例实体,得到其邻居实例实体集合、以及对应的本体概念集合;对每个本体概念,整理得到其子概念集,父概念集,一般相邻概念集和对应的实例实体集。


4.根据权利要求2所述的一种本体概念增强的归纳式图谱表征方法,其特征在于,第一部分中,对于每一本体概念,使用节点级注意力机制,融合相同类型的概念信息,从而得到各个类型的信息表征包括:
将相同类型的节点作为一个组对组中的每一个节点,使用节点级注意力机制得到组中每个节点的节点级注意力值表示为:









其中,t∈{1,2,3,4}代表4组不同类型的节点信息,分别为知识图谱整理阶段得到的本体概念对应的父概念集,子概念集,一般相邻概念集和实例实体集;表示本体概念c的原始表征,为实数集,d是表征向量的维度;是类型为t的第i个节点的表征向量,表示本体概念c的类型为t的节点集合;符号||表示拼接操作,σ为LeakyReLU函数;和是与t相关的训练参数;
再融合同一类型下的节点信息,得到各个节点类型的信息表征,表示为:





5.根据权利要求2或4所述的...

【专利技术属性】
技术研发人员:徐童任超张乐高子彭杜逸超陈恩红
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1