对描述同一实体的不同实例进行合并的方法、装置及设备制造方法及图纸

技术编号:13378475 阅读:30 留言:0更新日期:2016-07-21 07:28
本发明专利技术公开了一种对描述同一实体的不同实例进行合并的方法、装置及设备。所述方法包括:获取包含多个实例的连接图,其中,连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;基于实例关系,识别出连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新连接图;在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接实例对所对应的节点的连线;迭代执行基于实例关系更新连接图的步骤和在更新后的连接图中增添连线的步骤,直到满足指定条件。利用本发明专利技术的方法、装置及设备能够较为充分地挖掘出描述同一实体的实例对。

【技术实现步骤摘要】

本专利技术总体上涉及计算机
,特别是涉及一种对描述同一实体的不同实例进行合并的方法、装置及设备
技术介绍
知识图谱旨在描述真实世界中存在的各种实体或概念。知识图谱中的每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。在知识图谱的构建过程中,需要用到不同来源的数据来构建图谱中的实体及关系,例如,为了使得构建的知识图谱可以更加全面,可以用来自百度百科、维基百科、搜狗百科等多种百科类站点来源的数据来构建知识图谱。而实体在不同来源数据中往往会存在差异化、表述不同的实例。直接使用未融合的实例数据将给知识图谱带来冗余和错误信息,因此对描述相同实体的不同实例进行融合是知识图谱构建中一个重要的任务和步骤。目前常见的融合方法主要是通过计算不同实例间的属性相似度,将属性相似度超过阈值的实例对进行融合。这种融合方法虽然在一定程度上也能识别出描述同一实体的不同实例,但是由于这种融合方法仅以属性相似度作为融合实例的标准,使得其对融合过程中所使用的属性模糊匹配规则的要求比较高,在所使用的属性模糊匹配规则设置不完善的情况下,很容易将表述同一实体的实例对识别为不同的实例,对知识图谱的构建带来冗余的数据。由此,需要一种可以较为充分地识别出描述同一实体的不同实例的方案。
技术实现思路
本专利技术主要解决的技术问题是提供一种对描述同一实体的不同实例进行合并的方法、装置及设备,其能够较为充分地识别出描述同一实体的实例对。根据本专利技术的一个方面,提供了一种计算设备,包括:存储器,用于存储包含多个实例的连接图,其中,连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;处理器,与存储器相连接,处理器能够从存储器获取连接图,该处理器配置为:基于实例关系,识别出连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新连接图;在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接实例对所对应的节点的连线;迭代执行基于实例关系更新连接图的步骤和在更新后的连接图中增添连线的操作,直到满足指定条件。由此,本专利技术的设备采用连接图的方式对多个待判定实例中的等价实例进行合并。而在合并的过程中又利用了实例关系,并基于合并后的图模型,扩充实例关系,然后迭代执行上述合并、扩充的步骤,使得可以较为充分地挖掘出连接图中存在的等价实例。根据本专利技术的另一个方面,提供了一种对描述同一实体的不同实例进行合并的装置,包括:获取模块,用于获取包含多个实例的连接图,其中,连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;合并模块,用于基于实例关系,识别出连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新连接图;扩充模块,用于在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接实例对所对应的节点的连线;迭代模块,用于使得合并模块和扩充模块迭代执行更新连接图的操作和增添连线的操作,直到满足指定条件。可选地,上述装置中述及的扩充模块可以包括:关联度计算模块,用于对于更新后的连接图中的任一节点,计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度,其中N大于等于1;第一识别模块,用于将关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对,并增添连接这两个节点之间的连线。由于等价实例的合并,合并后的连接图中的实例关系也会发生一定的变化。此时,可以通过计算节点间的关联度,来发现存在实例关系的实例对。可选地,上述装置中述及的指定条件可以设定为,扩充模块在更新后的连接图中识别出的未发现的存在实例关系的实例对的数目为零。可选地,上述装置中述及的合并模块可以包括:分组模块,用于对多个实例进行分组;相似度计算模块,用于针对每个分组,基于实例关系计算组内任意两个实例之间的相似度;第二识别模块,用于将相似度达到预定相似度阈值的实例对识别为描述同一实体的实例对。可选地,对于来自不同来源的两个实例,相似度计算模块可以根据以下公式计算这两个实例之间的相似度Sim:Sim=Jacij/Uniq Jac i j = C i ∩ C j C i ∪ C j ]]>Uniq=Log(Max(CntsourceA,i,CntsourceB,j)+1)其中,Ci为与实例i具有实例关系的实例集合,Cj为与实例j具有实例关系的实例集合,Jacij为实例i、j之间的实例关系相似度,Uniq为实例的唯一性度量,CntsourceA,i为实例i在来源A中的同名实例的个数、CntsourceB,j为实例j在来源B中的同名实例的个数。可选地,上述装置中述及的获取模块还可以包括:属性相似度计算模块可以计算连接图中任意两个节点所对应的实例之间的属性相似度;和第二合并模块,可以将属性相似度超过预定属性相似度阈值的两个实例所对应的节点合并为一个节点。根据本专利技术的另一个方面,提供了一种对描述同一实体的不同实例进行合并的方法,该方法包括:获取包含多个实例的连接图,其中,连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;基于实例关系,识别出连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新连接图;在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接实例对所对应的节点的连线;迭代执行基于实例关系更新连接图的步骤和在更新后的连接图中增添连线的步骤,直到满足指定条件。可选地,上述方法中述及的在更新后的连接图中识别出未发现的存在实例关系的实例对的步骤可以包括:对于更新后的连接图中的任一节点本文档来自技高网
...

【技术保护点】
一种计算设备,包括:存储器,用于存储包含多个实例的连接图,其中,所述连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;以及处理器,与所述存储器相连接,所述处理器能够从所述存储器获取所述连接图,该处理器配置为:基于所述实例关系,识别出所述连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新所述连接图;在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接所述实例对所对应的节点的连线;迭代执行所述基于实例关系更新连接图的步骤和所述在更新后的连接图中增添连线的操作,直到满足指定条件。

【技术特征摘要】
1.一种计算设备,包括:
存储器,用于存储包含多个实例的连接图,其中,所述连接图中的不
同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关
系;以及
处理器,与所述存储器相连接,所述处理器能够从所述存储器获取所
述连接图,该处理器配置为:
基于所述实例关系,识别出所述连接图中描述同一实体的不同实
例,对识别出的实例所对应的节点进行合并,并更新所述连接图;
在更新后的连接图中识别出未发现的存在实例关系的实例对,并
增添用以连接所述实例对所对应的节点的连线;
迭代执行所述基于实例关系更新连接图的步骤和所述在更新后的
连接图中增添连线的操作,直到满足指定条件。
2.一种对描述同一实体的不同实例进行合并的装置,包括:
获取模块,用于获取包含多个实例的连接图,其中,所述连接图中的
不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例
关系;
合并模块,用于基于所述实例关系,识别出所述连接图中描述同一实
体的不同实例,对识别出的实例所对应的节点进行合并,并更新所述连接
图;
扩充模块,用于在更新后的连接图中识别出未发现的存在实例关系的
实例对,并增添用以连接所述实例对所对应的节点的连线;
迭代模块,用于使得所述合并模块和所述扩充模块迭代执行更新所述
连接图的操作和增添连线的操作,直到满足指定条件。
3.根据权利要求2所述的装置,其中,所述扩充模块包括:
关联度计算模块,用于对于更新后的连接图中的任一节点,计算该节
点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之
间的关联度,其中N大于等于1;
第一识别模块,用于将所述关联度达到预定关联度阈值的两个节点所
对应的实例对识别为存在实例关系的实例对,并增添连接这两个节点之间
的连线。
4.根据权利要求2或3所述的装置,其中,所述指定条件被设定为,
所述扩充模块在更新后的连接图中识别出的未发现的存在实例关系的
实例对的数目为零。
5.根据权利要求1所述的装置,其中,所述合并模块包括:
分组模块,用于对所述多个实例进行分组;
相似度计算模块,用于针对每个分组,基于实例关系计算组内任意两
个实例之间的相似度;
第二识别模块,用于将相似度达到预定相似度阈值的实例对识别为描
述同一实体的实例对。
6.根据权利要求5所述的装置,其中,对于来自不同来源的两个实例,
所述相似度计算模块根据以下公式计算这两个实例之间的相似度Sim:
Sim=Jacij/Uniq
Jac i j = C i ∩ C j C i ∪ C j ]]>Uniq=Log(Max(CntsourceA,i,CntsourceB,j)+1)
其中,Ci为与实例i具有实例关系的实例集合,Cj为与实例j具有实例
关系的实例集合,Jacij为实例i、j之间的实例关系相似度,Uniq为实例的
唯一性度量,CntsourceA,i为实例i在来源...

【专利技术属性】
技术研发人员:杨扬穆冠宇华能威张伟吴嘉
申请(专利权)人:广州神马移动信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1