实体对齐方法、装置和设备制造方法及图纸

技术编号:25439199 阅读:36 留言:0更新日期:2020-08-28 22:27
本发明专利技术公开了一种实体对齐方法、装置和设备。本发明专利技术的核心构思在于提出一种根据基于度感知的采样策略生成异质序列,并基于异质序列中各节点彼此之间的相关性得到目标实体表示的实体对齐方案,具体是根据预设的基于度感知的采样策略,为合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;基于实体节点与关系节点在异质序列中的位置,以及关系节点和实体节点彼此之间的相关性,得到目标实体表示。由于基于实体与关系在异质序列中的位置,以及彼此之间的相关性得到目标实体表示,可以加强实体间的依赖性,便于捕捉实体间长距离的互相依赖特征,提高对实体的表示能力,有效传播对齐信息,提高实体对齐效果。

【技术实现步骤摘要】
实体对齐方法、装置和设备
本专利技术涉及知识图谱
,尤其涉及一种实体对齐方法、装置和设备。
技术介绍
最近几年,知识图谱(KnowledgeGraph,简称KG)在人工智能的多项研究与应用中扮演着举足轻重的角色,它作为问答、推荐系统等领域的技术基石,受到了广泛关注。知识图谱主要描述各类实体(如中国、马云等)的属性以及它们之间的关系,通常用三元组的形式表达:(主语,谓语,宾语)可以简写成SPO(subject,predicate,object),描述各类实体之间关系的三元组称为关系三元组:(entity,relation,entity)。知识图谱是从非结构化的信息中构建出来的,目前存在的知识图谱都是从各大百科网站和非结构化的文本集中抽取出来的。由于来源的多样性,不可避免地造成了知识图谱中三元组的差异,例如从百度百科页面抽取构成知识图谱中的某个三元组是(马云,创始人,淘宝),而从微博或者其他资源抽取构成的另一个知识图谱中表达相同含义的三元组是(马爸爸,创始人,某宝),这两个知识图谱由于存在互补关系,需要利用实体对齐技术进行融合消歧,其目标主要是将两个知识图谱中表达一个意思的实体进行对齐合并,比如这里的马云和马爸爸,某宝与淘宝。由于不同的知识图谱对于实体各方面信息的表达差异性较大,现有针对实体对齐的方法,大多通过知识图谱特有的三元组结构的学习来传播对齐信息,存在表达能力低和信息传播不充分有效的问题,很难高效地获得两个距离较远的实体之间的依赖。因此,如何高效地捕获实体间的长期依赖特征,是本领域亟待解决的重要问题之一。
技术实现思路
鉴于此,本专利技术提供了一种实体对齐方法、装置和设备,本专利技术还相应提供了一种计算机程序产品,通过以上形式,能够高效地捕获实体间的长期依赖特征。关于上述本专利技术采用的技术方案具体如下:第一方面,本专利技术提供了一种实体对齐方法,包括:利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;利用所述目标实体表示,将多个知识图谱中的实体进行对齐。在其中一种可能的实现方式中,所述基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示包括:根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的实体嵌入表示和关系嵌入表示;根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示;根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示。在其中一种可能的实现方式中,所述根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示包括:将所述关系嵌入表示和所述关系节点的前一个实体节点对应的实体相关表示融合,得到关系更新表示;将所述实体嵌入表示和对应的所述实体相关表示融合,得到实体更新表示;将所述关系更新表示作为新的关系嵌入表示,将所述实体更新表示作为新的实体嵌入表示,迭代上述计算过程,直至达到最大迭代次数,得到所述目标实体表示。在其中一种可能的实现方式中,所述基于度感知的采样策略包括:在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合;根据所述候选三元组集合中的各候选三元组相对于所述候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列。在其中一种可能的实现方式中,所述根据所述候选三元组集合中的各候选三元组相对于所述候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列包括:计算所述合并知识图谱中各实体的度以及各关系的频率;将各所述候选三元组中的关系的频率和尾实体的度融合,得到所述度感知偏差;根据各所述候选三元组的尾实体与所述关系三元组的头实体之间的距离,得到深度感知偏差;根据所述度感知偏差和所述深度感知偏差,构建所述异质序列。在其中一种可能的实现方式中,所述根据所述度感知偏差和所述深度感知偏差,构建所述异质序列包括:计算所述度感知偏差和所述深度感知偏差的乘积,得到各所述候选三元组的转移概率;在各所述候选三元组中选择转移概率最大的候选三元组作为增补三元组;将所述增补三元组作为新的关系三元组,重复执行为新的关系三元组确定增补三元组的步骤,直到所述异质序列达到预设长度。第二方面,本专利技术提供了一种实体对齐装置,包括:知识图谱融合模块,用于利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;异质序列生成模块,用于根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;实体表示模块,用于基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;实体对齐模块,用于利用所述目标实体表示,将多个知识图谱中的实体进行对齐。在其中一种可能的实现方式中,所述实体表示模块包括:嵌入表示单元,用于根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的实体嵌入表示和关系嵌入表示;相关表示单元,用于根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示;目标表示单元,用于根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示。在其中一种可能的实现方式中,所述异质序列生成模块包括:候选三元组建立单元,用于在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合;异质序列构建单元,用于根据所述候选三元组集合中的各候选三元组相对于所述候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列。第三方面,本专利技术提供了一种实体对齐设备,包括:一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。第四方面,本专利技术提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面或者第一方面的任一可能实现本文档来自技高网
...

【技术保护点】
1.一种实体对齐方法,其特征在于,包括:/n利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;/n根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;/n基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;/n利用所述目标实体表示,将多个知识图谱中的实体进行对齐。/n

【技术特征摘要】
1.一种实体对齐方法,其特征在于,包括:
利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;
根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;
基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;
利用所述目标实体表示,将多个知识图谱中的实体进行对齐。


2.根据权利要求1所述的实体对齐方法,其特征在于,所述基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示包括:
根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的实体嵌入表示和关系嵌入表示;
根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示;
根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示。


3.根据权利要求2所述的实体对齐方法,其特征在于,所述根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示包括:
将所述关系嵌入表示和所述关系节点的前一个实体节点对应的实体相关表示融合,得到关系更新表示;
将所述实体嵌入表示和对应的所述实体相关表示融合,得到实体更新表示;
将所述关系更新表示作为新的关系嵌入表示,将所述实体更新表示作为新的实体嵌入表示,迭代上述计算过程,直至达到预设的最大迭代次数,得到所述目标实体表示。


4.根据权利要求1所述的实体对齐方法,其特征在于,所述基于度感知的采样策略包括:
在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合;
根据各候选三元组相对于所属候选三元组集合内的其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列。


5.根据权利要求4所述的实体对齐方法,其特征在于,所述根据各候选三元组相对于所属候选三元组集合内的其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列包括:
计算所述合并知识图谱中各实体的度以及各关系的频率;
将各所述候选三元组中的关系的频率和尾实体的度融合,得到所述度感知偏差;
根据各所述候选三元组的尾实体与所述关系三元组的头实体之间的距离,得到深度感知偏差;
根据所述度感知偏差和所述深度感知偏差,构建所述异质序列...

【专利技术属性】
技术研发人员:何莹陈嘉李直旭陈志刚
申请(专利权)人:科大讯飞苏州科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1