一种用于知识图谱补全的增量式多源实体解析方法技术

技术编号:30823599 阅读:11 留言:0更新日期:2021-11-18 12:13
本发明专利技术公开了一种用于知识图谱补全的增量式多源实体解析方法,包括:在增量式多源实体之间应用配对链接,导出相似度图谱;采用聚类方法,利用相似度图谱来确定增量式多源实体所属的实体簇,输出完全聚类图谱,完成对增量式多源实体的解析。本发明专利技术目的是减少对添加新源和实体的顺序的依赖,为此考虑优化分配给实体集群的新实体集。本发明专利技术提出使用轻量级方法来修复实体簇,以纠正错误的簇,新方法集成在用于并行和可扩展的实体聚类的FAM实体解析框架中,对实际工作负载的新方法进行详细评估显示了其有效性,特别是,修复方法优于其他的增量式方法,并且与批处理式实体解析相比,其质量达到了相同的水平,这表明其结果与添加新实体的顺序无关。体的顺序无关。体的顺序无关。

【技术实现步骤摘要】
一种用于知识图谱补全的增量式多源实体解析方法


[0001]本专利技术属于数据处理
,具体涉及一种用于知识图谱补全的增量式多源实体解析方法。

技术介绍

[0002]知识图谱将许多实体及其属性和关系以及有关实体类型和关系类型的关联元数据物理地集成在类似图谱的结构中。知识图谱实体通常是从众多源中集成的,例如其他知识图谱或网页。初始知识图谱可以从单个源(例如,诸如DBpedia等预先存在的知识图谱)或多个源的静态集成来创建。知识图谱补全(或扩展)是指新实体和整个源的增量添加。添加新实体需要解决一些具有挑战性的任务,尤其是将新实体与知识图谱中已知的实体进行匹配和聚类的增量实体解析。
[0003]先前有关实体解析的大多数工作都是处理匹配来自一个或多个静态数据源的实体的静态实体解析。这种静态方法不足以将实体添加到使用中的知识图谱中,在该知识图谱中,大多数已经集成的实体在很大程度上不受新实体的影响,因此不必在每次更新时重新集成。多源实体的实体解析通常将匹配实体进行分组或聚类,然后可以使用这些簇来融合(合并)匹配实体的属性以获得对知识图谱的丰富实体描述。因此,增量实体解析需要为新实体更新这些实体簇。一个简单的方法是将一个新实体添加到最相似的现有集群中,或者在没有相似实体的情况下创建一个新集群。但是,这种方法通常对添加新实体的顺序有很强的依赖性。特别地,例如由于数据质量问题而导致的错误群集决策无法得到纠正,并且在添加新实体时可能导致进一步的错误。因此,总体实体解析质量可能比所有实体同时集成的批实体解析差很多。
专利
技术实现思路

[0004]为解决上述问题,本专利技术提出一种用于知识图谱补全的增量式多源实体解析方法。
[0005]本专利技术采用如下技术方案:
[0006]一种用于知识图谱补全的增量式多源实体解析方法,包括在增量式多源实体之间应用配对链接,导出相似度图谱;其中,所述相似度图谱用于将来自多个源的匹配实体进行分组,以形成实体集群;
[0007]采用聚类方法,利用相似度图谱来确定增量式多源实体所属的实体簇,输出完全聚类图谱,完成对增量式多源实体的解析。
[0008]进一步地,在增量式多源实体之间应用配对链接,导出相似度图谱的步骤中,包括步骤:
[0009]将源自现有源或源自新源的新实体作为输入工作流,输入已确定聚类的相似度图谱中进行迭代,输出已有的实体簇,新实体的组以及新创建的链接组成的分组相似图。
[0010]进一步地,所采用的聚类方法包括最大双向合并基方法和n

深度重新聚类法;其
中,所述最大双向合并基方法是通过判断,将新的增量式多源实体分配到相似的现有簇中,或形成新簇;所述n

深度重新聚类法是通过对现有聚类图谱进行重新聚类,以修复现有聚类,从而为新的增量式多源实体实现更好的聚类分配,其中n是用来控制被考虑重聚类的相似图的部分的参数。
[0011]进一步地,相似度图谱公式表示为G=(E,L);其中,E的顶点表示实体,L的边缘表示相似实体之间的链接的图;边缘具有指示相似度的相似度值(区间[0,1]中的实数)的属性;同一源的实体之间没有边缘。
[0012]进一步地,聚类相似图谱CG是一个相似度图谱G,使得其所有实体都被聚类,相同的集群实体解析id被分配给同一簇的所有顶点。
[0013]本专利技术涉及一种用于知识图谱补全的增量式多源实体解析方法,用于知识图谱补全对多源数据进行整合的增量实体解析,与以前的方法相比,目的是减少对添加新源和实体的顺序的依赖,为此考虑优化分配给实体集群的新实体集。本专利技术提出使用轻量级方法来修复实体簇,以纠正错误的簇,新方法集成在用于并行和可扩展的实体聚类的FAM实体解析框架中,对实际工作负载的新方法进行详细评估显示了其有效性,特别是,修复方法优于其他的增量式方法,并且与批处理式实体解析相比,其质量达到了相同的水平,这表明其结果与添加新实体的顺序无关。
附图说明
[0014]图1是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法的流程示意图;
[0015]图2是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中增量实体解析的FAM实体解析工作流程示意图;
[0016]图3是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中分组相似度图谱样本示意图;
[0017]图4是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中最大合并概念示意图;
[0018]图5是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中链路输入示意图;
[0019]图6是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中w/o新链路输入示意图;
[0020]图7是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中新链路输入示意图;
[0021]图8是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中融合聚类图谱的链路输入示意图;
[0022]图9是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中融合聚类图谱的链路输出示意图;
[0023]图10是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中最大双向合并示意图;
[0024]图11是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中1


度聚类示意图;
[0025]图12是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中图11的第二次增量输入后得到的结果示意图;
[0026]图13是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中1

深度聚类输出示意图;
[0027]图14是本专利技术提供的一种用于知识图谱补全的增量式多源实体解析方法中2

深度聚类输出示意图。
具体实施方式
[0028]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术做进一步的详细说明。应当理解,此外所描述的具体实施例仅用以解释本专利技术,但并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都将属于本专利技术保护的范围。
[0029]如图1所示,本专利技术提供了一种用于知识图谱补全的增量式多源实体解析方法,包括在增量式多源实体之间应用配对链接,导出相似度图谱;其中,所述相似度图谱用于将来自多个源的匹配实体进行分组,以形成实体集群;
[0030]采用聚类方法,利用相似度图谱来确定增量式多源实体所属的实体簇,输出完全聚类图谱,完成对增量式多源实体的解析。
[0031]进一步地,在增量式多源实体之间应用配对链接,导出相似度图谱的步骤中,包括步骤:
[0032]将源自现有源或源自新源的新实体作为输入工作流,输入已确定聚类的相似度图谱中进行迭代,输出已有的实体簇,新实体的组以及新创建的链接组成的分组相似图。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于知识图谱补全的增量式多源实体解析方法,其特征在于,包括:在增量式多源实体之间应用配对链接,导出相似度图谱;其中,所述相似度图谱用于将来自多个源的匹配实体进行分组,以形成实体集群;采用聚类方法,利用相似度图谱来确定增量式多源实体所属的实体簇,输出完全聚类图谱,完成对增量式多源实体的解析。2.根据权利要求1所述的用于知识图谱补全的增量式多源实体解析方法,其特征在于,在增量式多源实体之间应用配对链接,导出相似度图谱的步骤中,包括步骤:将源自现有源或源自新源的新实体作为输入工作流,输入已确定聚类的相似度图谱中进行迭代,输出已有的实体簇,新实体的组以及新创建的链接组成的分组相似图。3.根据权利要求1所述的用于知识图谱补全的增量式多源实体解析方法,其特征在于,所采用的聚类方法包括最大双向合并基方法和n

深度重新聚类...

【专利技术属性】
技术研发人员:沈亮高灵超周春雷朱广新陈相舟
申请(专利权)人:国家电网有限公司大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1