基于知识图谱的数据清洗方法技术

技术编号:39667242 阅读:20 留言:0更新日期:2023-12-11 18:31
本申请提供一种基于知识图谱的数据清洗方法

【技术实现步骤摘要】
基于知识图谱的数据清洗方法、装置、电子设备及介质


[0001]本申请涉及数据处理
,尤其涉及一种基于知识图谱的数据清洗方法

装置

电子设备及介质


技术介绍

[0002]数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息

纠正数据中存在的错误

大数据平台存储有大量的业务数据,对存储的业务数据进行清洗是保证业务数据一致性和正确性的必要手段

[0003]通常情况下,对数据进行清洗的方式需要人工参与,如需要数据清洗人员根据清洗任务编写
SQL
语句,从而基于
SQL
语句对数据进行清洗,但过程复杂,需要消耗大量的人力和时间,清洗效率较低

因此如何提高数据清洗的清洗效率,是亟需解决的问题


技术实现思路

[0004]为了解决基于现有方法对数据进行清洗的效率较低的问题,本申请提供了一种基于知识图谱的数据清洗方法

装置

电子设备及介质

[0005]第一方面,本申请提供了一种基于知识图谱的数据清洗方法,包括:
[0006]获取待清洗数据;
[0007]基于所述待清洗数据中的字段和关联关系确定所述待清洗数据对应的目标检核规则,所述关联关系包括字段与检核规则之间的关联关系,所述检核规则用于对数据库中的数据进行检核;
[0008]基于所述目标检核规则与知识图谱确定所述待清洗数据对应的目标质量知识库,所述目标质量知识库中存储有
SQL
处理模板;
[0009]基于所述目标质量知识库中的所述
SQL
处理模板生成清洗
SQL
,通过执行所述清洗
SQL
对所述待清洗数据进行清洗

[0010]作为本申请实施例一种可选的实施方式,在获取待清洗数据之前,所述方法还包括:
[0011]获取检核规则

质量知识库

质量维度

检核任务,所述质量维度用于衡量数据的质量;
[0012]以所述检核规则模板

所述质量知识库

所述质量维度

以及所述检核任务为节点构建知识图谱

[0013]作为本申请实施例一种可选的实施方式,所述以所述检核规则

所述质量知识库

所述质量维度

以及所述检核任务为节点构建知识图谱,包括:
[0014]获取所述检核规则

所述质量知识库

所述质量维度

以及所述检核任务的节点分别对应的实体数据;
[0015]获取各个节点分别对应的实体数据之间的关系,并基于所述各个节点分别对应的实体数据之间的关系构建知识图谱

[0016]作为本申请实施例一种可选的实施方式,所述获取待清洗数据,包括:
[0017]接收用户输入的检核任务,基于检核规则模板对数据库中的数据进行检核,得到检核结果;
[0018]将所述检核结果中的异常字段对应的数据确定为待清洗数据

[0019]作为本申请实施例一种可选的实施方式,在基于所述目标质量知识库中的所述
SQL
处理模板生成清洗
SQL
之后,所述方法还包括:
[0020]响应于用户输入的数据清洗操作,显示清洗页面,所述清洗页面上显示有所述清洗
SQL

[0021]响应于用户针对所述清洗
SQL
输入的修改操作,对所述清洗
SQL
进行修改,得到目标清洗
SQL

[0022]所述通过执行所述清洗
SQL
对所述待清洗数据进行清洗,包括:
[0023]通过执行所述目标清洗
SQL
对所述待清洗数据进行清洗

[0024]作为本申请实施例一种可选的实施方式,所述基于所述目标质量知识库中的所述
SQL
处理模板生成清洗
SQL
,包括:
[0025]根据所述检核任务的任务
ID、
所述数据库的库信息

所述数据库中数据表的表信息

所述异常字段

以及检核规则生成清洗任务参数;
[0026]基于所述
SQL
处理模板对所述清洗任务参数进行处理,生成清洗
SQL。
[0027]作为本申请实施例一种可选的实施方式,在通过执行所述清洗
SQL
对所述待清洗数据进行清洗更新数据表之后,所述方法还包括:
[0028]基于对所述待清洗数据进行清洗之后得到的已清洗数据,对所述待清洗数据对应的数据表进行更新,得到更新数据表;
[0029]基于所述目标检核规则对所述更新数据表中的数据进行检核,确定所述更新数据表中的数据是否满足预设要求

[0030]第二方面,本申请实施例提供一种基于知识图谱的数据清洗装置,包括:
[0031]获取模块,用于获取待清洗数据;
[0032]确定模块,用于基于所述待清洗数据中的字段和关联关系确定所述待清洗数据对应的目标检核规则,所述关联关系包括字段与检核规则之间的关联关系,所述检核规则用于对数据库中的数据进行检核;
[0033]处理模块,用于基于所述目标检核规则与知识图谱确定所述待清洗数据对应的目标质量知识库,所述目标质量知识库中存储有
SQL
处理模板;
[0034]生成模块,用于基于所述目标质量知识库中的所述
SQL
处理模板生成清洗
SQL
,通过执行所述清洗
SQL
对所述待清洗数据进行清洗

[0035]作为本申请实施例一种可选的实施方式,所述装置还包括:
[0036]构建模块,用于在获取待清洗数据之前,获取检核规则

质量知识库

质量维度

检核任务,所述质量维度用于衡量数据的质量;
[0037]以所述检核规则模板

所述质量知识库

所述质量维度

以及所述检核任务为节点构建知识图谱

[0038]作为本申请实施例一种可选的实施方式,所述构建模块,具体用于获取所述检核规则

所述质量知识库

所述质量维度

以及所述检核任务的节点分别对应的实体数据;
[0039]获取各个节点分别对应的实体数据之间的关系,并基于所述各个节点分别对应的实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于知识图谱的数据清洗方法,其特征在于,包括:获取待清洗数据;基于所述待清洗数据中的字段和关联关系确定所述待清洗数据对应的目标检核规则,所述关联关系包括字段与检核规则之间的关联关系,所述检核规则用于对数据库中的数据进行检核;基于所述目标检核规则与知识图谱确定所述待清洗数据对应的目标质量知识库,所述目标质量知识库中存储有
SQL
处理模板;基于所述目标质量知识库中的所述
SQL
处理模板生成清洗
SQL
,通过执行所述清洗
SQL
对所述待清洗数据进行清洗
。2.
根据权利要求1所述的方法,其特征在于,在获取待清洗数据之前,所述方法还包括:获取检核规则

质量知识库

质量维度

检核任务,所述质量维度用于衡量数据的质量;以所述检核规则模板

所述质量知识库

所述质量维度

以及所述检核任务为节点构建知识图谱
。3.
根据权利要求2所述的方法,其特征在于,所述以所述检核规则

所述质量知识库

所述质量维度

以及所述检核任务为节点构建知识图谱,包括:获取所述检核规则

所述质量知识库

所述质量维度

以及所述检核任务的节点分别对应的实体数据;获取各个节点分别对应的实体数据之间的关系,并基于所述各个节点分别对应的实体数据之间的关系构建知识图谱
。4.
根据权利要求1所述的方法,其特征在于,所述获取待清洗数据,包括:接收用户输入的检核任务,基于检核规则模板对数据库中的数据进行检核,得到检核结果;将所述检核结果中的异常字段对应的数据确定为待清洗数据
。5.
根据权利要求1所述的方法,其特征在于,在基于所述目标质量知识库中的所述
SQL
处理模板生成清洗
SQL
之后,所述方法还包括:响应于用户输入的数据清洗操作,显示清洗页面,所述清洗页面上显示有所述清洗
SQL
;响应于用户针对所述清洗
SQL
输入的修改操作,对所述清洗
SQL
...

【专利技术属性】
技术研发人员:师莎
申请(专利权)人:中电云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1