一种基于知识图谱的识别相同实体的方法及装置制造方法及图纸

技术编号:23149262 阅读:24 留言:0更新日期:2020-01-18 13:32
本申请公开了一种基于知识图谱的识别相同实体的方法及装置,针对现有技术中由于实体对齐失败,导致无法高质量链接多个现有知识库的问题,该方法包括:基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并确定候选属性对集合,从候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,根据目标属性对在所述候选属性对集合中的占比,确定所述待对齐的数据图表与参考数据图表对应相同实体。本申请中,确定候选属性对集合后,从候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,从而提高识别效率及准确率。

A method and device of identifying the same entity based on Knowledge Map

【技术实现步骤摘要】
一种基于知识图谱的识别相同实体的方法及装置
本申请涉及计算机
,尤其涉及一种基于知识图谱的识别相同实体的方法及装置。
技术介绍
知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。实体,指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。如图1的“中国”、“美国”、“日本”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。由于不同的数据集中对同一个实体的名称的表述可能不同,因此需要进行实体对齐,即,在不同数据集中找出同一个实体的描述记录,实体对齐的主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。现有技术下,提供了两种实体对齐方案。第一种解决方案为:计算两个实体的属性的相似度,基于计算出的相似度值,与阈值进行比较,如果相似度值高于阈值,则直接判定两个实体为同一实体,然后,将两个实体的相关记录进行整合。然而,采用第一种解决方案时,可能因为偶然出现的数据错误,导致实体对齐失败,此外,仅根据阈值进行判断具有一定的片面性,无法获知对实体影响最大的属性。第二种解决方案为:根据两个实体的属性的一致性将属性序列变为向量,然后利用分类算法判断两个实体是否为同一实体。分类算法可采用逻辑回归算法,逻辑回归算法也被称为广义线性回归模型,它与线性回归模型的形式基本相同,假设预测值为y,属性值所赋予的实数分别表示为xi,各属性的权重分别表示为ωi,则有y=ω0x0+ω1x1+…+ωnxn=WTX相似度值表示为如图2所示,当计算出的g(y)大于预定的阈值时,则判定两个实体为同一实体,然后,将两个实体的相关记录进行整合。然而,采用第二种解决方案时,首先,需要大量的训练数据,其次,需要一次性将全部实体属性都考虑进去,某些情况下,由于某些属性的缺失,会导致g(y)值的变化范围较大,因此出现较大的判断错误,从而导致实体对齐失败。由此可见,需要设计一种新的方案,以克服上述缺陷。
技术实现思路
本申请提供了一种基于知识图谱的识别相同实体的方法及装置,用以解决现有技术中由于实体对齐失败,导致无法高质量链接多个现有知识库,并从顶层创建一个大规模的统一的知识库的问题。本申请实施例提供的技术方案如下:一种基于知识图谱的识别相同实体的方法,包括:基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,所述侯选属性对是针对所述参考数据图表包含的符合第一预设条件的属性进行两两组合训练获得的,所述第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系;从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系;确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。可选的,在基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合之前,进一步包括:获取不同类型的两种样本数据图表,基于所述两种样本数据图表中各个属性的属性名称,计算同一属性分别在所述两种样本数据图表中的属性值的相似度;筛选出符合第一预设条件的属性,并将所述两种样本数据图表结合,作为参考数据图表,所述第一预设条件为:属性值的相似度达到预设的相似度门限;将筛选出的各个属性进行两两组合,得到属性对集合;计算所述属性对集合中,每一个属性对对应的置信度,所述置信度表征所述属性对中,第一属性出现时第二属性同时出现的概率和第二属性出现时第一属性同时出现的概率中的最小值;在所述属性对集合中,筛选出置信度达到预设的置信度门限的属性对,作为候选属性对。可选的,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,进一步包括:基于所述参考数据图表中的属性名称,对所述待对齐的数据图表中各个属性的属性名称进行标准化处理。可选的,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,进一步包括:基于所述参考数据图表,确定所述待对齐的数据图表中未记录有决定性属性,所述决定性属性表征所述待对齐的数据图表与参考数据图表对应相同实体。可选的,从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对时,具体包括:分别针对所述侯选属性对集合中的每一个候选属性对,执行以下操作,将符合第二预设条件的候选属性对作为目标属性对:分别计算一个侯选属性对中第一属性的属性值分布指标和属性分布指标,以及第二属性的属性值分布指标和属性分布指标;其中,所述属性值分布指标表征所述待对齐的数据图表中一属性的属性值不重复取值数目在属性值总数目中的占比,所述属性分布指标表征所述待对齐的数据图表中一属性的属性值总数目在属性出现总数目中的占比;确定所述第一属性和第二属性的属性值分布指标差值达到属性值分布指标门限值,且所述第一属性和第二属性的属性分布指标差值达到属性分布指标门限值时,判定所述侯选属性对符合第二预设条件。一种基于知识图谱的识别相同实体的装置,包括:第一处理单元,用于基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,所述侯选属性对是针对所述参考数据图表包含的符合第一预设条件的属性进行两两组合训练获得的,所述第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系;第二处理单元,用于从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系;第三处理单元,用于确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。可选的,在基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元进一步用于:获取不同类型的两种样本数据图表,基于所述两种样本数据图表中各个属性的属性名称,计算同一属性分别在所述两种样本数据图表中的属性值的相似度;筛选出符合第一预设条件的属性,并将所述两种样本数据图表结合,作为参考数据图表,所述第一预设条件为:属性值的相似度达到预设的相似度门限;将筛选出的各个属性进行两两组合,得到属性对集合;计算所述属性对集合中,每一个属性对对应的置信度,所述置信度表征所述属性对中,第一属性出现时第二属性本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱的识别相同实体的方法,其特征在于,包括:/n基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,所述侯选属性对是针对所述参考数据图表包含的符合第一预设条件的属性进行两两组合训练获得的,所述第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系;/n从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系;/n确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。/n

【技术特征摘要】
1.一种基于知识图谱的识别相同实体的方法,其特征在于,包括:
基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,所述侯选属性对是针对所述参考数据图表包含的符合第一预设条件的属性进行两两组合训练获得的,所述第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系;
从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系;
确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。


2.如权利要求1所述的方法,其特征在于,在基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合之前,进一步包括:
获取不同类型的两种样本数据图表,基于所述两种样本数据图表中各个属性的属性名称,计算同一属性分别在所述两种样本数据图表中的属性值的相似度;
筛选出符合第一预设条件的属性,并将所述两种样本数据图表结合,作为参考数据图表,所述第一预设条件为:属性值的相似度达到预设的相似度门限;
将筛选出的各个属性进行两两组合,得到属性对集合;
计算所述属性对集合中,每一个属性对对应的置信度,所述置信度表征所述属性对中,第一属性出现时第二属性同时出现的概率和第二属性出现时第一属性同时出现的概率中的最小值;
在所述属性对集合中,筛选出置信度达到预设的置信度门限的属性对,作为候选属性对。


3.如权利要求1所述的方法,其特征在于,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,进一步包括:
基于所述参考数据图表中的属性名称,对所述待对齐的数据图表中各个属性的属性名称进行标准化处理。


4.如权利要求1所述的方法,其特征在于,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,进一步包括:
基于所述参考数据图表,确定所述待对齐的数据图表中未记录有决定性属性,所述决定性属性表征所述待对齐的数据图表与参考数据图表对应相同实体。


5.如权利要求1-4任一项所述的方法,其特征在于,从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对时,具体包括:
分别针对所述侯选属性对集合中的每一个候选属性对,执行以下操作,将符合第二预设条件的候选属性对作为目标属性对:
分别计算一个侯选属性对中第一属性的属性值分布指标和属性分布指标,以及第二属性的属性值分布指标和属性分布指标;其中,所述属性值分布指标表征所述待对齐的数据图表中一属性的属性值不重复取值数目在属性值总数目中的占比,所述属性分布指标表征所述待对齐的数据图表中一属性的属性值总数目在属性出现总数目中的占比;
确定所述第一属性和第二属性的属性值分布指标差值达到属性值分布指标门限值,且所述第一属性和第二属性的属性分布指标差值达到属性分布指标门限值时,判定所述侯选属性对符合第二预设条件。


6.一种基于知识图谱的识别相同实体的装置,其特征...

【专利技术属性】
技术研发人员:陈维强高雪松王月岭
申请(专利权)人:海信集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1