【技术实现步骤摘要】
本专利技术总体上涉及计算机
,特别是涉及一种对描述同一实体的不同实例进行合并的方法、装置及设备。
技术介绍
知识图谱旨在描述真实世界中存在的各种实体或概念。知识图谱中的每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。在知识图谱的构建过程中,需要用到不同来源的数据来构建图谱中的实体及关系,例如,为了使得构建的知识图谱可以更加全面,可以用来自百度百科、维基百科、搜狗百科等多种百科类站点来源的数据来构建知识图谱。而实体在不同来源数据中往往会存在差异化、表述不同的实例。直接使用未融合的实例数据将给知识图谱带来冗余和错误信息,因此对描述相同实体的不同实例进行融合是知识图谱构建中一个重要的任务和步骤。目前常见的融合方法主要是通过计算不同实例间的属性相似度,将属性相似度超过阈值的实例对进行融合。这种融合方法虽然在一定程度上也能识别出描述同一实体的不同实例,但是由于这种融合方法仅以属性相似度作为融合实例的标准,使得其对融合过程中所使用的属性模糊匹配规则的要求比较高,在所使用的属性模糊匹配规则设置不完善的情况下,很容易将表述同一实体的实例对识别为不同的实例,对知识图谱的构建带来冗余的数据。由此,需要一 ...
【技术保护点】
一种计算设备,包括:存储器,用于存储包含多个实例的连接图,其中,所述连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;以及处理器,与所述存储器相连接,所述处理器能够从所述存储器获取所述连接图,该处理器配置为:基于所述实例关系,识别出所述连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新所述连接图;在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接所述实例对所对应的节点的连线;迭代执行所述基于实例关系更新连接图的步骤和所述在更新后的连接图中增添连线的操作,直到满足指定条件。
【技术特征摘要】
1.一种计算设备,包括:
存储器,用于存储包含多个实例的连接图,其中,所述连接图中的不
同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关
系;以及
处理器,与所述存储器相连接,所述处理器能够从所述存储器获取所
述连接图,该处理器配置为:
基于所述实例关系,识别出所述连接图中描述同一实体的不同实
例,对识别出的实例所对应的节点进行合并,并更新所述连接图;
在更新后的连接图中识别出未发现的存在实例关系的实例对,并
增添用以连接所述实例对所对应的节点的连线;
迭代执行所述基于实例关系更新连接图的步骤和所述在更新后的
连接图中增添连线的操作,直到满足指定条件。
2.一种对描述同一实体的不同实例进行合并的装置,包括:
获取模块,用于获取包含多个实例的连接图,其中,所述连接图中的
不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例
关系;
合并模块,用于基于所述实例关系,识别出所述连接图中描述同一实
体的不同实例,对识别出的实例所对应的节点进行合并,并更新所述连接
图;
扩充模块,用于在更新后的连接图中识别出未发现的存在实例关系的
实例对,并增添用以连接所述实例对所对应的节点的连线;
迭代模块,用于使得所述合并模块和所述扩充模块迭代执行更新所述
连接图的操作和增添连线的操作,直到满足指定条件。
3.根据权利要求2所述的装置,其中,所述扩充模块包括:
关联度计算模块,用于对于更新后的连接图中的任一节点,计算该节
点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之
间的关联度,其中N大于等于1;
第一识别模块,用于将所述关联度达到预定关联度阈值的两个节点所
对应的实例对识别为存在实例关系的实例对,并增添连接这两个节点之间
的连线。
4.根据权利要求2或3所述的装置,其中,所述指定条件被设定为,
所述扩充模块在更新后的连接图中识别出的未发现的存在实例关系的
实例对的数目为零。
5.根据权利要求1所述的装置,其中,所述合并模块包括:
分组模块,用于对所述多个实例进行分组;
相似度计算模块,用于针对每个分组,基于实例关系计算组内任意两
个实例之间的相似度;
第二识别模块,用于将相似度达到预定相似度阈值的实例对识别为描
述同一实体的实例对。
6.根据权利要求5所述的装置,其中,对于来自不同来源的两个实例,
所述相似度计算模块根据以下公式计算这两个实例之间的相似度Sim:
Sim=Jacij/Uniq
Jac i j = C i ∩ C j C i ∪ C j ]]>Uniq=Log(Max(CntsourceA,i,CntsourceB,j)+1)
其中,Ci为与实例i具有实例关系的实例集合,Cj为与实例j具有实例
关系的实例集合,Jacij为实例i、j之间的实例关系相似度,Uniq为实例的
唯一性度量,CntsourceA,i为实例i在来源...
【专利技术属性】
技术研发人员:杨扬,穆冠宇,华能威,张伟,吴嘉,
申请(专利权)人:广州神马移动信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。