基于实体序列编码的知识图谱融合方法技术

技术编号:24252019 阅读:163 留言:0更新日期:2020-05-22 23:49
本发明专利技术公开了基于实体序列编码的知识图谱融合方法,所述方法包括:步骤一:知识图谱实体表示学习;步骤二:选择路径编码和对齐模型;步骤三:跨语言实体对齐模型,其中,在源语言知识图谱空间中,针对其中的一个实体,构建与其他种子实体的2跳序列,在目标语言知识图谱空间中构建可能与之对应的序列,找出概率最高的对齐序列,然后从对齐序列中找到同位置的节点,作为该节点的对齐节点;步骤四:添加新的候选种子节点;本发明专利技术针对现有技术中深度学习模型训练语料不足的问题,提出了基于实体路径表示学习的方法。

Knowledge map fusion method based on entity sequence coding

【技术实现步骤摘要】
基于实体序列编码的知识图谱融合方法
本专利技术涉及知识图谱应用
,尤其涉及一种基于实体序列编码的知识图谱融合方法。
技术介绍
目前国内外的知名互联网企业,例如谷歌、百度、腾讯、微软都搭建了属于自己的知识库,这些知识库提供了大量的知识服务信息,例如谷歌的知识库系统KnowledgeVault已经入库16亿条信息,目前还在收集入录更多的信息。百度的知识图谱的应用服务在5年间增长了160倍。这些企业使用知识图谱可以提供的更多语义信息,提供更加智能化的搜索服务,为互联网用户提供了便携的服务。这些知识图谱包含了大量常识信息,融合这些跨语言的知识库可以提供更多的知识,为互联网用户提供更智能化的信息检索帮助服务。但是知识库体系庞大,内容众多,语言不一致,如何高效融合这些知识库成为一个重点挑战问题。融合知识图谱的首要工作是找出两个只是空间可对齐的知识实体,例如将英文知识库中NewYork和中文知识库中的纽约对齐为一个实体。传统的方法可以使用机器词翻译的方式,将多语言实体的词进行翻译,但是存在着一词多义的情况,例如朝阳这个词可能指的是辽宁的朝阳,也可能是北京的朝阳。使用深度学习的方法学习节点向量,标注已知的对齐实体对,训练对齐模型进行对齐,是目前研究的热点工作,这个方法根据实体的语义信息和实体之间的关系语义进行对齐操作,提高了模型的准确率,但是这类模型存在问题,标注训练语料需要耗费大量人力。而且,由于深度学习模型在实体对齐任务中的良好表现,但是缺少训练语料的问题,如果训练语料不充分,无法学习出准确高效的对齐模型。
技术实现思路
为解决上述技术问题,本专利技术提供了一种基于实体序列编码的知识图谱融合方法学习方法。基于实体序列编码的知识图谱融合方法,包括:步骤一:知识图谱实体表示学习;步骤二:选择路径编码和对齐模型;步骤三:跨语言实体对齐模型,其中,在源语言知识图谱空间中,针对其中的一个实体,构建与其他种子实体的2跳序列,在目标语言知识图谱空间中构建可能与之对应的序列,找出概率最高的对齐序列,然后从对齐序列中找到同位置的节点,作为该节点的对齐节点;步骤四:添加新的候选种子节点。进一步,所述步骤一中,使用RotatE模型分别学习源语言知识图谱空间和目标语言知识图谱空间中的实体表示向量和关系表示向量,所述RotatE模型通过三种关系:对称、反转、构成,来训练所述实体表示向量和所述关系表示向量,得到三元组集合和种子实体对。进一步,所述步骤二中,包括构建训练实体序列、对实体序列进行编码;对于任意一对跨语言对齐种子实体,在所述源语言知识图谱空间中选择2跳路径,所述2跳路径上的点都是对齐的种子实体,构建长度为5的节点序列,在所述目标语言知识图谱空间中构建同样长度为5的节点序列,两个空间中2跳实体序列上的点是一一对应的;训练时,对所述节点序列上的节点和关系的表示向量进行拼接和卷积操作学习出2个实体序列的表示,并设计公式计算两个实体序列是否是同一实体序列的概率。进一步,所述计算两个实体序列是否是同一实体序列的概率的公式为:p(vt|vs)=exp(-η||vt-θvs||2)。进一步,所述步骤四中,待步骤三得到所述节点后,如果与旧的训练语料没有冲突,生成新的实体表示路径,作为新的训练语料训练对齐模型。本专利技术一种基于实体序列编码的知识图谱融合方法,针对现有技术中深度学习模型训练语料不足的问题,提出了基于实体路径表示学习的方法,训练模型的输入是已知对齐种子实体之间的2跳路径,在对齐种子实体较少的情况下可以得到较多的路径训练数据,在较少标注训练语料下学习出对齐模型。本专利技术需要的标注训练语料少,只需要标注较少训练实体对,就可以学习训练模型,降低了标注人力成本;相比于简单的机器翻译模型,本专利技术引入实体节点与其他节点之间的关系,模型输入是实体节点之间的2跳路径,使得输入训练模型中的语义信息更丰富,避免了传统机器翻译的一词多义的混淆问题;模型在得到新的可对齐节点后,利用自学习的方法,本专利技术将新的可对齐节点的路径加入训练数据中对模型进行新一轮训练,提高模型训练的准确率,因此使用更少的训练语料,得到更高的准确率。附图说明图1为本专利技术实施例的流程示意图;图2为本专利技术构建训练语料的流程图;图3为本专利技术的深度学习模型的流程图;图4为本专利技术实施例中负采样的流程图。具体实施方式为了能够更加详尽地了解本专利技术实施例的特点与
技术实现思路
,下面结合附图对本专利技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术实施例。为清楚地说明本专利技术的设计思想,下面结合实施例对本专利技术进行说明。图1为本专利技术实施例一种基于实体序列编码的知识图谱融合方法的流程示意图,如图1所示,所述基于实体序列编码的知识图谱融合方法包括以下步骤:步骤一:知识图谱实体表示学习;步骤二:选择路径编码和对齐模型;步骤三:跨语言实体对齐模型,其中,在源语言知识图谱空间中,针对其中的一个实体,构建与其他种子实体的2跳序列,在目标语言知识图谱空间中构建可能与之对应的序列,找出概率最高的对齐序列,然后从对齐序列中找到同位置的节点,作为该节点的对齐节点;步骤四:添加新的候选种子节点。上述示例中,本专利技术的知识库的表示为G=(E,R,S),其中E={e1,e2…,en}是知识库的实体集合,其中包含|E|种不同实体;R={r1,r2,…,r|R|}是知识库中的关系集合,包含|R|种不同关系,而S∈E×R×E则表示知识库中的三元组集合,一般表示为(h,r,t),其中h和t表示头实体和尾实体,而r表示h和t之间的关系。我们使用RotatE模型来训练实体与关系向量,RotatE主要利用3种主要的关系:对称,反转,构成对称:对于有:r(x,y)→r(y,x)反转:对于和关系r2,有:r2(x,y)→r1(x,y)构成:对于和关系r2,r3,有r2(x,y)+r3(y,z)→r1(x,z)RotatE首先将头实体h和尾实体t映射到一个高维空间Rk,之后在Rk上定义关系r将头实体h逐元素旋转到尾实体t,具体公式为:t=h°r,where|ri|=1,这里°表示为哈达玛积,并且需要对每个ri∈Ck进行模长约束,如公式中,将模长约束为1.因此,对于每个三元组(h,r,t),RotatE的距离为:dr(h,t)=||h°r-t||通过网络训练使得dr(h,t)最小,此时的三元组(h,r,t)向量为训练所得的实体与关系的特征向量。根据已经标注的对齐种子实体,构建一对可对齐对齐序列,输入到深度学习模型中,得出2条路径编码向量表示。针对一对的种子节点实体<es,e’s>,如果在源语言知识图谱空间中存在一个实体之间序列路径{es,r1,ec,r2,ee},其中r1和r2是关系,ec和ee是源语言知识图谱空间中的实体。在本文档来自技高网
...

【技术保护点】
1.基于实体序列编码的知识图谱融合方法,其特征在于,所示方法包括:/n步骤一:知识图谱实体表示学习;/n步骤二:选择路径编码和对齐模型;/n步骤三:跨语言实体对齐模型,其中,在源语言知识图谱空间中,针对其中的一个实体,构建与其他种子实体的2跳序列,在目标语言知识图谱空间中构建可能与之对应的序列,找出概率最高的对齐序列,然后从对齐序列中找到同位置的节点,作为该节点的对齐节点;/n步骤四:添加新的候选种子节点。/n

【技术特征摘要】
1.基于实体序列编码的知识图谱融合方法,其特征在于,所示方法包括:
步骤一:知识图谱实体表示学习;
步骤二:选择路径编码和对齐模型;
步骤三:跨语言实体对齐模型,其中,在源语言知识图谱空间中,针对其中的一个实体,构建与其他种子实体的2跳序列,在目标语言知识图谱空间中构建可能与之对应的序列,找出概率最高的对齐序列,然后从对齐序列中找到同位置的节点,作为该节点的对齐节点;
步骤四:添加新的候选种子节点。


2.根据权利要求1所述的基于实体序列编码的知识图谱融合方法,其特征在于,所述步骤一中,使用RotatE模型分别学习两源语言知识图谱空间和目标语言知识图谱空间中的实体表示向量和关系表示向量,所述RotatE模型通过三种关系:对称、反转、构成,来训练所述实体表示向量和所述关系表示向量,得到三元组集合和种子实体对。


3.根据权利要求2所述的基于实体序列编码的知识图谱融合方法,其特征在...

【专利技术属性】
技术研发人员:李建欣黄洪仁宁元星毛乾任司靖辉
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1