当前位置: 首页 > 专利查询>浙江大学专利>正文

一种知识图谱数据清洗方法及装置制造方法及图纸

技术编号:33993617 阅读:20 留言:0更新日期:2022-07-02 10:20
本发明专利技术公开了一种知识图谱数据清洗方法及装置,该方法包括:获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。谱。谱。

【技术实现步骤摘要】
一种知识图谱数据清洗方法及装置


[0001]本专利技术属于知识图谱数据清洗
,尤其涉及一种知识图谱数据清洗方法及装置。

技术介绍

[0002]近些年,知识图谱因其成功地应用于关系抽取、推荐系统等众多任务而受到越来越多的关注。此外,由于网络资源的庞大,构建知识图谱的过程往往是自动化地以避免人为的监督,从而不可避免地引入各种错误,包括模糊、冲突、错误和冗余信息,知识图谱的质量保证是各种知识驱动应用的前提。因此,如何设计一种通用的、高效的知识图谱数据清洗方法已经成为学术界和工业界的迫切需要。
[0003]一方面,过去的方法假设知识图谱是干净的,但由于知识图谱是自动抽取的,噪声不可避免地存在。另一方面,知识图谱嵌入技术近年来受到了广泛地关注,知识图谱嵌入模型的流行源于基于语义的向量表示,可以灵活地应用于各个领域。
[0004]在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:现有的方法将知识图谱嵌入和错误检测独立考虑,然而这两个任务相互依赖、相互影响。一方面,错误检测模型可以为知识图谱嵌入提供可靠的数据;另一方面,嵌入模型学习到的高质量的嵌入为对错误数据的推理识别提供了基础。

技术实现思路

[0005]针对现有技术的不足,本申请实施例的目的是提供一种知识图谱数据清洗方法及装置,以提高知识图谱的质量。
[0006]根据本申请实施例的第一方面,提供一种知识图谱数据清洗方法,包括:获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
[0007]进一步地,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,包括:S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的
知识图谱嵌入模型;S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;S26:根据更新后的置信度,训练所述知识图谱嵌入模型;S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22

S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。
[0008]进一步地,使用训练后的三元组分类模型对知识图谱中的三元组进行分类,包括:输入给定三元组,通过训练后的三元组分类模型得到所述三元组的置信度;若所述三元组的置信度大于等于预定阈值,则所述三元组是正确的;若所述三元组的置信度小于预定阈值,则所述三元组是错误的。
[0009]进一步地,将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度,包括:将所述错误的三元组输入训练后的知识图谱嵌入模型,根据所述知识图谱嵌入模型的得分函数计算得到所述错误的三元组的局部置信度;计算流入头实体和从尾实体流出的三元组的置信度,对所有置信度加权求平均得到所述错误的三元组的路径置信度;融合所述错误的三元组的所述局部置信度和所述路径置信度,得到所述错误的三元组的全局置信度。
[0010]进一步地,通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱,包括:根据所述错误的三元组的全局置信度,将所述错误的三元组修复成全局置信度最高的三元组。
[0011]根据本申请实施例的第二方面,提供一种知识图谱数据清洗装置,包括:获取模块,用于获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一个三元组;训练模块,用于根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;分类模块,用于使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;输入模块,用于将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;修复模块,用于通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。
[0012]根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的知识图谱数据清洗方法。
[0013]根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述的知识图谱数据清洗方法的步骤。
[0014]本申请的实施例提供的技术方案可以包括以下有益效果:由上述实施例可知,本申请训练能够相互促进的一个知识图谱嵌入模型和一个三元组分类模型,前者用于得到知识图谱的嵌入以及后续的错误修复,后者用于错误的检测以及更好地指导知识图谱嵌入模型地训练。两者训练完成后,首先使用训练后的三元组分类模型检测出错误的三元组,接着将错误的三元组输入训练后的知识图谱嵌入模型,得到错误的三元组的全局置信度,根据全局置信度进行错误的修复,可以对修复的结果给用户提供直观的解释,整个过程无需任何的人为介入,从而实现自动、高精度和对用户友好的知识图谱数据清洗。
[0015]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0017]图1是根据一示例性实施例示出的一种知识图谱数据清洗方法的流程图。
[0018]图2是根据一示例性实施例示出的步骤S12的流程图。
[0019]图3是根据一示例性实施例示出的步骤S13的流程图。
[0020]图4是根据一示例性实施例示出的步骤S14的流程图。
[0021]图5是根据一示例性实施例示出的数据清洗流程的示意图。
[0022]图6是根据一示例性实施例示出的一种装置的框图。
具体实施方式
[0023]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱数据清洗方法,其特征在于,包括:获取待清洗知识图谱,所述待清洗知识图谱包括若干实体和关系,其中两个实体和它们之间的关系组成一条三元组;根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进;使用训练后的三元组分类模型对知识图谱中的三元组进行分类,得到错误的三元组;将所述错误的三元组输入训练后的知识图谱嵌入模型,得到所述错误的三元组的全局置信度;通过所述全局置信度对错误的三元组进行修复,以得到清洗后的知识图谱。2.根据权利要求1所述方法,其特征在于,根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组,训练一个知识图谱嵌入模型和一个三元组分类模型,包括:S21:将所述待清洗知识图谱中的每一条三元组的置信度初始化为1;S22:将所有三元组输入所述知识图谱嵌入模型,使用随机负采样训练噪声感知的知识图谱嵌入模型;S23:根据训练后的知识图谱嵌入模型的得分函数,计算每一条三元组的得分;S24:选取若干得分最高的三元组作为正确的三元组,对所述正确的三元组的实体或关系进行随机替换,得到错误的三元组;S25:使用所述正确的三元组和错误的三元组对三元组分类模型进行训练,训练完成后更新每一条三元组的置信度;S26:根据更新后的置信度,训练所述知识图谱嵌入模型;S27:将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型,重复步骤S22

S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练,直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。3.根据权利要求1所述的方法,其特征在于,使用训练后的三元组分类模型对知识图谱中的三元组进行分类,包括:输入给定三元组,通过训练后的三元组分类模型得到所述三元组的置信度;若所述三元组的置信度大于等于预定阈值,则所述三元组是正确的;若所述三元组的置信度小于预定阈值...

【专利技术属性】
技术研发人员:高云君陈璐汪鹏飞葛丛丛曾晓灿
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1