【技术实现步骤摘要】
本体概念增强的归纳式图谱表征方法
本专利技术涉及自然语言处理中的知识图谱表示学习领域,尤其涉及一种本体概念增强的归纳式图谱表征方法。
技术介绍
知识图谱中包含了大量实例实体三元组,实例实体三元组可以表示为(头实体,关系,尾实体)的形式,一个实例实体三元组代表了一条知识。知识图谱在信息检索,问答,推荐等任务中担任越来越重要的角色,其应用范围也在不断扩展。然而,现有的知识谱图普遍存在不够完整的问题,即大量实体之间的关系仍然未包含在图谱中。基于表示学习的图谱补全任务旨在学得实体和关系的向量表示,进而基于实体和关系向量,预测实体之间缺失的关系。传统的直推式表示学习方法假设所有的测试实体在训练阶段都是可见的。然而,在现实场景中,图谱构建之后还会不断完善,这就导致图谱中会不断出现新的实体。直推式表示学习方法必须重新训练整个图谱,才能得到新增实体的表征,这是非常低效、耗费资源的。因此,归纳式图谱表示学习方法旨在归纳式地生成新增实体的表征,进而节省资源、满足实时计算的需求。目前,针对新增实体的归纳式表示学习方法已有少许相关的技术方案与研究成果,部分代表性的公开技术包括:CN202010809387.0,一种面向知识图谱表示学习的局部训练方法,根据TransE模型,利用图谱原有实体和关系的向量表示,得到新增实体的初始化表示,再进行微调。CN201911380039.X,一种基于锚点的知识图谱表示学习方法,利用文本信息作为新增实体的语义基础并联合已有知识图谱的相关局部知识进行训练。现有技术可划分为两类:(1)基于新增实体 ...
【技术保护点】
1.一种本体概念增强的归纳式图谱表征方法,其特征在于,包括:/n构建网络模型,给定一个包含新增实例实体的三元组,同时给定三元组中每一新增实例实体的本体概念和邻居实例实体集合;所述网络模型,对三元组中每一新增实例实体的每一本体概念通过双层注意力机制生成本体概念的表征;基于所有本体概念的表征与包含新增实例实体的三元组生成新增实例实体的模板表征,再结合邻居实例实体集合生成新增实例实体的最终表征向量;基于所有新增实例实体的最终表征向量评估包含新增实例实体的三元组的合法性;如果满足合法性要求,则将三元组添加到知识图谱中。/n
【技术特征摘要】
1.一种本体概念增强的归纳式图谱表征方法,其特征在于,包括:
构建网络模型,给定一个包含新增实例实体的三元组,同时给定三元组中每一新增实例实体的本体概念和邻居实例实体集合;所述网络模型,对三元组中每一新增实例实体的每一本体概念通过双层注意力机制生成本体概念的表征;基于所有本体概念的表征与包含新增实例实体的三元组生成新增实例实体的模板表征,再结合邻居实例实体集合生成新增实例实体的最终表征向量;基于所有新增实例实体的最终表征向量评估包含新增实例实体的三元组的合法性;如果满足合法性要求,则将三元组添加到知识图谱中。
2.根据权利要求1所述的一种本体概念增强的归纳式图谱表征方法,其特征在于,在网络模型的训练阶段,对包含本体概念信息的知识图谱进行整理,知识图谱包含三部分数据信息:实例实体三元组,表示实例实体之间的关系;本体概念三元组,表示本体概念之间的元关系;实例实体概念对,表示实例实体和其所属本体概念之间的对应关系;之后,进行预处理:将知识图谱中实例实体三元组作为正样本,采用随机替换实例实体三元组中头实体或者尾实体的方式生成负样本,构成正负样本对,结合多个正负样本对进行模型训练与参数估计,包括:
第一部分:将正负样本对中的任意实例实体记为目标实例实体,提取对应的本体概念集合,对于每一本体概念,使用双层注意力机制建模局部层次结构,本体概念与多种类型的节点相关联,所述节点包括:其他本体概念及实例实体;首先,对于每一种类型的节点,使用节点级注意力机制,融合相同类型的节点信息,从而得到各个节点类型的信息表征;然后,使用类型级注意力机制来聚合各个类型的信息表征,得到本体概念的表征;
第二部分:根据实例实体三元组中的关系信息,使用关系确定的注意力机制来结合目标实例实体对应的所有本体概念的表征来生成目标实例实体的模板表征,采用门机制,结合目标实例实体的模板表征以及目标实例实体的邻居实例实体集合生成目标实例实体的最终表征向量;
第三部分:使用评分函数,结合正样本与负样本中所有实例实体的最终表征向量,计算正样本与负样本的评分,并利用评分结果构建损失函数进行模型的参数估计。
3.根据权利要求2所述的一种本体概念增强的归纳式图谱表征方法,其特征在于,知识图谱进行整理后,对每个实例实体,得到其邻居实例实体集合、以及对应的本体概念集合;对每个本体概念,整理得到其子概念集,父概念集,一般相邻概念集和对应的实例实体集。
4.根据权利要求2所述的一种本体概念增强的归纳式图谱表征方法,其特征在于,第一部分中,对于每一本体概念,使用节点级注意力机制,融合相同类型的概念信息,从而得到各个类型的信息表征包括:
将相同类型的节点作为一个组对组中的每一个节点,使用节点级注意力机制得到组中每个节点的节点级注意力值表示为:
其中,t∈{1,2,3,4}代表4组不同类型的节点信息,分别为知识图谱整理阶段得到的本体概念对应的父概念集,子概念集,一般相邻概念集和实例实体集;表示本体概念c的原始表征,为实数集,d是表征向量的维度;是类型为t的第i个节点的表征向量,表示本体概念c的类型为t的节点集合;符号||表示拼接操作,σ为LeakyReLU函数;和是与t相关的训练参数;
再融合同一类型下的节点信息,得到各个节点类型的信息表征,表示为:
5.根据权利要求2或4所述的...
【专利技术属性】
技术研发人员:徐童,任超,张乐,高子彭,杜逸超,陈恩红,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。