数据质量检测方法技术

技术编号:39726553 阅读:7 留言:0更新日期:2023-12-17 23:30
本发明专利技术公开了一种数据质量检测方法

【技术实现步骤摘要】
数据质量检测方法、装置、设备及存储介质


[0001]本专利技术涉及数据质量检测领域,特别涉及一种数据质量检测方法

装置

设备及存储介质


技术介绍

[0002]在大数据应用中,数据质量问题是一个常见的挑战

由于数据来源复杂,数据量巨大,数据质量问题可能涉及到数据的完整性

一致性

准确性

及时性等多个方面

这些问题可能导致分析结果的不准确性

决策的错误性以及业务流程的混乱性,给企业带来损失和风险

因此,如何有效地发现和解决数据质量问题,成为了数据应用领域的一个重要技术问题

[0003]目前,传统的数据质量检测方法需要人工根据待检测数据信息配置数据质量校验规则,通过人工配置规则的方式难以覆盖待检测数据所有可能出现的数据质量问题,导致数据质量检测结果不精确


技术实现思路

[0004]本专利技术的目的在于提供一种数据质量检测方法

装置

设备及存储介质,应用于数据质量检测领域,该方法通过深度学习方法训练得到校验规则推荐模型,通过校验规则推荐模型输出待检测数据需要配置的规则,相比于现有技术通过人工配置规则进行数据质量检测的方式,本专利技术方法提高了数据质量检测结果的准确性

[0005]为解决上述技术问题,本专利技术提供一种数据质量检测方法,包括:
[0006]获取待检测数据,基于所述待检测数据与校验规则推荐模型获取目标数据质量校验规则;
[0007]设置数据质量检测结果的输出源信息,获取所述待检测数据的输入源信息;
[0008]调用可执行
Flink
生成程序基于所述输出源信息

所述输入源信息及所述目标数据质量校验规则生成可执行
Flink
程序;
[0009]将所述可执行
Flink
程序上传至
Flink
平台,以使所述
Flink
平台执行所述可执行
Flink
程序生成所述数据质量检测结果;
[0010]其中,所述校验规则推荐模型的训练方法为:
[0011]获取数据集中每个字段的字段特征,对所述字段特征进行数据质量校验规则标注;
[0012]基于标注后的所述字段特征训练所述校验规则推荐模型

[0013]可选的,所述调用可执行
Flink
生成程序基于所述输出源信息

所述输入源信息及所述目标数据质量校验规则生成可执行
Flink
程序,包括:
[0014]调用所述可执行
Flink
生成程序;
[0015]基于所述输出源信息生成
Flink
可识别输出源信息;
[0016]基于所述输入源信息生成
Flink
可识别输入源信息;
[0017]基于所述目标数据质量校验规则生成
Flink SQL
语言的所述目标数据质量校验规则;
[0018]基于所述
Flink
可识别输出源信息

所述
Flink
可识别输入源信息及
Flink SQL
语言的所述目标数据质量校验规则生成所述可执行
Flink
程序

[0019]可选的,所述获取数据集中每个字段的字段特征,对所述字段特征进行数据质量校验规则标注,包括:
[0020]获取所述数据集中的每个字段的所述字段特征,将非数字类型的所述字段特征转换为数字类型的所述字段特征;
[0021]将所述数据质量校验规则进行数字编码得到对应的规则编码;
[0022]基于所述规则编码对数字类型的所述字段特征进行标注

[0023]可选的,所述获取待检测数据,包括:
[0024]连接多个数据源,获取多个所述数据源中的数据信息;
[0025]将所述数据信息存储在数据仓库或者数据湖中;
[0026]从所述数据仓库或者所述数据湖中获取所述待检测数据

[0027]可选的,所述将所述数据信息存储在数据仓库或者数据湖中,包括:
[0028]将所述数据信息进行统一格式转换得到统一格式数据信息;
[0029]将所述统一格式数据信息进行数据清洗得到清洗数据信息;
[0030]将所述清洗数据信息存储在所述数据仓库或者数据湖中

[0031]可选的,该方法还可以包括:
[0032]基于所述数据质量检测结果生成图表数据;
[0033]将所述图表数据发送至显示设备,以使所述显示设备显示所述图表数据

[0034]可选的,所述校验规则推荐模型为随机森林模型

[0035]为解决上述技术问题,本专利技术提供一种数据质量检测装置,包括:
[0036]第一模块,由于获取待检测数据,基于所述待检测数据与校验规则推荐模型获取目标数据质量校验规则;
[0037]第二模块,用于设置数据质量检测结果的输出源信息,获取所述待检测数据的输入源信息;
[0038]第三模块,用于调用可执行
Flink
生成程序基于所述输出源信息

所述输入源信息及所述目标数据质量校验规则生成可执行
Flink
程序;
[0039]第四模块,用于将所述可执行
Flink
程序上传至
Flink
平台,以使所述
Flink
平台执行所述可执行
Flink
程序生成所述数据质量检测结果;
[0040]其中,所述校验规则推荐模型的训练方法为:
[0041]获取数据集中每个字段的字段特征,对所述字段特征进行数据质量校验规则标注;
[0042]基于标注后的所述字段特征训练所述校验规则推荐模型

[0043]为解决上述技术问题,本专利技术提供一种电子设备,包括:
[0044]存储器,用于储存计算机程序;
[0045]处理器,用于执行所述计算机程序时实现任一项所述数据质量检测方法

[0046]为解决上述技术问题,本专利技术提供一种计算机可读存储介质,所述计算机可读存
储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时,实现任一项所述数据质量检测方法

[0047]可见,本专利技术方法通过获取待检测数据,基于待检测数据与校验规则推荐模型获取目标数据质量校验规则;设置数据质量检测结果的输出源信息,获取待检测数据的输入源信息;调用可执行
Flink
生成程序基于输出源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据质量检测方法,其特征在于,包括:获取待检测数据,基于所述待检测数据与校验规则推荐模型获取目标数据质量校验规则;设置数据质量检测结果的输出源信息,获取所述待检测数据的输入源信息;调用可执行
Flink
生成程序基于所述输出源信息

所述输入源信息及所述目标数据质量校验规则生成可执行
Flink
程序;将所述可执行
Flink
程序上传至
Flink
平台,以使所述
Flink
平台执行所述可执行
Flink
程序生成所述数据质量检测结果;其中,所述校验规则推荐模型的训练方法为:获取数据集中每个字段的字段特征,对所述字段特征进行数据质量校验规则标注;基于标注后的所述字段特征训练所述校验规则推荐模型
。2.
根据权利要求1所述数据质量检测方法,其特征在于,所述调用可执行
Flink
生成程序基于所述输出源信息

所述输入源信息及所述目标数据质量校验规则生成可执行
Flink
程序,包括:调用所述可执行
Flink
生成程序;基于所述输出源信息生成
Flink
可识别输出源信息;基于所述输入源信息生成
Flink
可识别输入源信息;基于所述目标数据质量校验规则生成
Flink SQL
语言的所述目标数据质量校验规则;基于所述
Flink
可识别输出源信息

所述
Flink
可识别输入源信息及
Flink SQL
语言的所述目标数据质量校验规则生成所述可执行
Flink
程序
。3.
根据权利要求1所述数据质量检测方法,其特征在于,所述获取数据集中每个字段的字段特征,对所述字段特征进行数据质量校验规则标注,包括:获取所述数据集中的每个字段的所述字段特征,将非数字类型的所述字段特征转换为数字类型的所述字段特征;将所述数据质量校验规则进行数字编码得到对应的规则编码;基于所述规则编码对数字类型的所述字段特征进行标注
。4.
...

【专利技术属性】
技术研发人员:王蒴李希明孙焕明刘淑芳王沛
申请(专利权)人:山东中创软件商用中间件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1