一种知识图谱数据清洗方法及装置制造方法及图纸

技术编号：33993617 阅读：20 留言：0更新日期：2022-07-02 10:20

本发明专利技术公开了一种知识图谱数据清洗方法及装置，该方法包括：获取待清洗知识图谱，所述待清洗知识图谱包括若干实体和关系，其中两个实体和它们之间的关系组成一个三元组；根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组，训练一个知识图谱嵌入模型和一个三元组分类模型，其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进；使用训练后的三元组分类模型对知识图谱中的三元组进行分类，得到错误的三元组；将所述错误的三元组输入训练后的知识图谱嵌入模型，得到所述错误的三元组的全局置信度；通过所述全局置信度对错误的三元组进行修复，以得到清洗后的知识图谱。谱。谱。

全部详细技术资料下载

【技术实现步骤摘要】
一种知识图谱数据清洗方法及装置

[0001]本专利技术属于知识图谱数据清洗
，尤其涉及一种知识图谱数据清洗方法及装置。

技术介绍

[0002]近些年，知识图谱因其成功地应用于关系抽取、推荐系统等众多任务而受到越来越多的关注。此外，由于网络资源的庞大，构建知识图谱的过程往往是自动化地以避免人为的监督，从而不可避免地引入各种错误，包括模糊、冲突、错误和冗余信息，知识图谱的质量保证是各种知识驱动应用的前提。因此，如何设计一种通用的、高效的知识图谱数据清洗方法已经成为学术界和工业界的迫切需要。
[0003]一方面，过去的方法假设知识图谱是干净的，但由于知识图谱是自动抽取的，噪声不可避免地存在。另一方面，知识图谱嵌入技术近年来受到了广泛地关注，知识图谱嵌入模型的流行源于基于语义的向量表示，可以灵活地应用于各个领域。
[0004]在实现本专利技术的过程中，专利技术人发现现有技术中至少存在如下问题：现有的方法将知识图谱嵌入和错误检测独立考虑，然而这两个任务相互依赖、相互影响。一方面，错误检测模型可以为知识图谱嵌入提供可靠的数据；另一方面，嵌入模型学习到的高质量的嵌入为对错误数据的推理识别提供了基础。

技术实现思路

[0005]针对现有技术的不足，本申请实施例的目的是提供一种知识图谱数据清洗方法及装置，以提高知识图谱的质量。
[0006]根据本申请实施例的第一方面，提供一种知识图谱数据清洗方法，包括：获取待清洗知识图谱，所述待清洗知识图谱包括若干实体和关系，其中两个实体和它们之间的关系组...

【技术保护点】

【技术特征摘要】
1.一种知识图谱数据清洗方法，其特征在于，包括：获取待清洗知识图谱，所述待清洗知识图谱包括若干实体和关系，其中两个实体和它们之间的关系组成一条三元组；根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组，训练一个知识图谱嵌入模型和一个三元组分类模型，其中所述知识图谱嵌入模型和所述三元组分类模型能相互促进；使用训练后的三元组分类模型对知识图谱中的三元组进行分类，得到错误的三元组；将所述错误的三元组输入训练后的知识图谱嵌入模型，得到所述错误的三元组的全局置信度；通过所述全局置信度对错误的三元组进行修复，以得到清洗后的知识图谱。2.根据权利要求1所述方法，其特征在于，根据所述待清洗知识图谱和所述待清洗知识图谱中的所有三元组，训练一个知识图谱嵌入模型和一个三元组分类模型，包括：S21：将所述待清洗知识图谱中的每一条三元组的置信度初始化为1；S22：将所有三元组输入所述知识图谱嵌入模型，使用随机负采样训练噪声感知的知识图谱嵌入模型；S23：根据训练后的知识图谱嵌入模型的得分函数，计算每一条三元组的得分；S24：选取若干得分最高的三元组作为正确的三元组，对所述正确的三元组的实体或关系进行随机替换，得到错误的三元组；S25：使用所述正确的三元组和错误的三元组对三元组分类模型进行训练，训练完成后更新每一条三元组的置信度；S26：根据更新后的置信度，训练所述知识图谱嵌入模型；S27：将步骤S22中的知识图谱嵌入模型替换为经过步骤S26训练后的知识图谱嵌入模型，重复步骤S22
‑
S25以使得所述知识图谱嵌入模型和所述三元组分类模型相互促进地迭代训练，直至所述知识图谱嵌入模型和所述三元组分类模型均完全收敛。3.根据权利要求1所述的方法，其特征在于，使用训练后的三元组分类模型对知识图谱中的三元组进行分类，包括：输入给定三元组，通过训练后的三元组分类模型得到所述三元组的置信度；若所述三元组的置信度大于等于预定阈值，则所述三元组是正确的；若所述三元组的置信度小于预定阈值...

【专利技术属性】
技术研发人员：高云君，陈璐，汪鹏飞，葛丛丛，曾晓灿，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人