System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种高效数据质量检测方法技术_技高网

一种高效数据质量检测方法技术

技术编号:43298909 阅读:13 留言:0更新日期:2024-11-12 16:15
本发明专利技术公开一种高效数据质量检测方法,涉及大数据技术领域;包括:步骤1:定义数据质量检测规则,步骤2:基于NiFi根据数据质量检测规则进行数据质量检测流程编排,步骤3:启动NiFi数据质量检测流程,通过XXL‑JOB运行调度相关数据质量检测探查任务进行数据探查,步骤4:根据数据探查时,发现的数据问题形成的问题库,根据经验得到历史库,对数据问题进行质量改进并上报。

【技术实现步骤摘要】

本专利技术公开一种方法,涉及大数据,具体地说是一种高效数据质量检测方法


技术介绍

1、信息时代,数据规模大幅增加,人工检测方式不再适用。尤其是数据来源复杂化,数据的处理、管理和分析需要额外的技术手段。随着深度学习、云计算、并行计算和分布式系统等技术的兴起,对数据质量检测技术要求越来越高。但目前还没有完善的方法对大量数据质量进行完整性、准确性、一致性和时效性检测。


技术实现思路

1、本专利技术针对现有技术的问题,提供一种高效数据质量检测方法,方便数据质量改进和数据质量评估,打造全链路数据质量规范体系和闭环管控体系。

2、本专利技术提出的具体方案是:

3、本专利技术提供一种高效数据质量检测方法,包括:

4、步骤1:定义数据质量检测规则:

5、通过数据质量检测规则规定质量检测维度,

6、配置基础规则库,

7、根据数据质量检测规则通过业务规则库关联基础规则与要检测的数据源或数据表;

8、步骤2:基于nifi根据数据质量检测规则进行数据质量检测流程编排:配置数据质量检测流程,其中根据流程对数据进行标准验证,进行数据标准转换,对标准转换后数据进行二次标准验证,对符合标准的数据入库保存;

9、步骤3:启动nifi数据质量检测流程,通过xxl-job运行调度相关数据质量检测探查任务进行数据探查,其中数据探查时,选择具体数据源及数据表配置探查信息,创建探查任务调度接口,通过探查任务调度接口创建探查调度任务,调度数据探查任务,查看数据探查结果并根据数据探查结果优化调度数据探查任务的参数;

10、步骤4:根据数据探查时,发现的数据问题形成的问题库,根据经验得到历史库,对数据问题进行质量改进并上报。

11、进一步,所述的一种高效数据质量检测方法中步骤1中通过数据质量检测规则规定质量检测维度,包括:规定质量检测的准确性维度、冗余性维度、完整性维度、关联性维度、唯一性维度、规范性维度、一致性维度和及时性维度。

12、进一步,所述的一种高效数据质量检测方法中步骤1中配置基础规则库,包括:配置基础规则库的sql检测及重复性检测,定义多种数据源sql检测,其中数据源包括mysql、oracle、sqlserver、greenplum、postgresql、hive、newsql、dameng、kingbase、highgo和osca,定义相关类实现数据源sql检测,对传入sql数据总量及问题总量进行汇总统计。

13、进一步,所述的一种高效数据质量检测方法中步骤1中通过业务规则库关联基础规则与要检测的数据源或数据表,包括:根据关联对业务规则进行维护,其中定义业务规则,在业务规则中,为数据表、列配置基础规则或相应sql,设置检测类型为单表检测、mysql数据源及库、表和目标值,设置存储数据源的库、表,在规则列表中记录校验规则、参数名称、参数描述、参数类型和参数值。

14、进一步,所述的一种高效数据质量检测方法中步骤3中数据探查时,具体包括:

15、选择具体数据源及数据表配置探查信息:根据数据源及数据表确定探查范围,探查范围包含全量和抽样,设定抽样采样数据量,选择调度模式,根据调度模式设定的时间自动执行检测任务,对数据表下的所有字段空值率、重复率、数据长度、数据值域、字典分布、样例数据和数据格式全部或部分项进行探查,

16、创建探查任务调度接口,通过探查任务调度接口创建探查调度任务,调度数据探查任务:通过xxl-job分布式任务调度框架实现任务调度,通过探查任务probetaskhandler方法运行数据探查任务时,根据数据源类型路由到不同的数据源,在任务运行中获取表探查结果:字段数、总数据量;字段探查结果:列名、数据元、空值率、重复率、数据长度、样例数据和数据格式,

17、查看数据探查结果并根据数据探查结果优化调度数据探查任务的参数。

18、本专利技术还提供一种高效数据质量检测装置,包括规则管理模块、流程编排模块、调度探查模块和反馈模块,

19、规则管理模块定义数据质量检测规则:

20、通过数据质量检测规则规定质量检测维度,

21、配置基础规则库,

22、根据数据质量检测规则通过业务规则库关联基础规则与要检测的数据源或数据表;

23、流程编排模块基于nifi根据数据质量检测规则进行数据质量检测流程编排:配置数据质量检测流程,其中根据流程对数据进行标准验证,进行数据标准转换,对标准转换后数据进行二次标准验证,对符合标准的数据入库保存;

24、调度探查模块启动nifi数据质量检测流程,通过xxl-job运行调度相关数据质量检测探查任务进行数据探查,其中数据探查时,选择具体数据源及数据表配置探查信息,创建探查任务调度接口,通过探查任务调度接口创建探查调度任务,调度数据探查任务,查看数据探查结果并根据数据探查结果优化调度数据探查任务的参数;

25、反馈模块根据数据探查时,发现的数据问题形成的问题库,根据经验得到历史库,对数据问题进行质量改进并上报。

26、进一步,所述的一种高效数据质量检测装置的规则管理模块通过数据质量检测规则规定质量检测维度,包括:规定质量检测的准确性维度、冗余性维度、完整性维度、关联性维度、唯一性维度、规范性维度、一致性维度和及时性维度。

27、进一步,所述的一种高效数据质量检测装置的规则管理模块配置基础规则库,包括:配置基础规则库的sql检测及重复性检测,定义多种数据源sql检测,其中数据源包括mysql、oracle、sqlserver、greenplum、postgresql、hive、newsql、dameng、kingbase、highgo和osca,定义相关类实现数据源sql检测,对传入sql数据总量及问题总量进行汇总统计。

28、进一步,所述的一种高效数据质量检测装置的规则管理模块通过业务规则库关联基础规则与要检测的数据源或数据表,包括:根据关联对业务规则进行维护,其中定义业务规则,在业务规则中,为数据表、列配置基础规则或相应sql,设置检测类型为单表检测、mysql数据源及库、表和目标值,设置存储数据源的库、表,在规则列表中记录校验规则、参数名称、参数描述、参数类型和参数值。

29、进一步,所述的一种高效数据质量检测装置的调度探查模块进行数据探查时,具体包括:

30、选择具体数据源及数据表配置探查信息:根据数据源及数据表确定探查范围,探查范围包含全量和抽样,设定抽样采样数据量,选择调度模式,根据调度模式设定的时间自动执行检测任务,对数据表下的所有字段空值率、重复率、数据长度、数据值域、字典分布、样例数据和数据格式全部或部分项进行探查,

31、创建探查任务调度接口,通过探查任务调度接口创建探查调度任务,调度数据探查任务:通过xxl-job分布式任务调度框架实现任务调度,通过探查任务pr本文档来自技高网...

【技术保护点】

1.一种高效数据质量检测方法,其特征是包括:

2.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中通过数据质量检测规则规定质量检测维度,包括:规定质量检测的准确性维度、冗余性维度、完整性维度、关联性维度、唯一性维度、规范性维度、一致性维度和及时性维度。

3.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中配置基础规则库,包括:配置基础规则库的SQL检测及重复性检测,定义多种数据源SQL检测,其中数据源包括MySQL、Oracle、SQLserver、Greenplum、Postgresql、Hive、NewSQL、DaMeng、KingBase、HighGo和Osca,定义相关类实现数据源SQL检测,对传入SQL数据总量及问题总量进行汇总统计。

4.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中通过业务规则库关联基础规则与要检测的数据源或数据表,包括:根据关联对业务规则进行维护,其中定义业务规则,在业务规则中,为数据表、列配置基础规则或相应SQL,设置检测类型为单表检测、MySQL数据源及库、表和目标值,设置存储数据源的库、表,在规则列表中记录校验规则、参数名称、参数描述、参数类型和参数值。

5.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤3中数据探查时,具体包括:

6.一种高效数据质量检测装置,其特征是包括规则管理模块、流程编排模块、调度探查模块和反馈模块,

7.根据权利要求6所述的一种高效数据质量检测装置,其特征是规则管理模块通过数据质量检测规则规定质量检测维度,包括:规定质量检测的准确性维度、冗余性维度、完整性维度、关联性维度、唯一性维度、规范性维度、一致性维度和及时性维度。

8.根据权利要求6所述的一种高效数据质量检测装置,其特征是规则管理模块配置基础规则库,包括:配置基础规则库的SQL检测及重复性检测,定义多种数据源SQL检测,其中数据源包括MySQL、Oracle、SQLserver、Greenplum、Postgresql、Hive、NewSQL、DaMeng、KingBase、HighGo和Osca,定义相关类实现数据源SQL检测,对传入SQL数据总量及问题总量进行汇总统计。

9.根据权利要求6所述的一种高效数据质量检测装置,其特征是规则管理模块通过业务规则库关联基础规则与要检测的数据源或数据表,包括:根据关联对业务规则进行维护,其中定义业务规则,在业务规则中,为数据表、列配置基础规则或相应SQL,设置检测类型为单表检测、MySQL数据源及库、表和目标值,设置存储数据源的库、表,在规则列表中记录校验规则、参数名称、参数描述、参数类型和参数值。

10.根据权利要求6所述的一种高效数据质量检测装置,其特征是调度探查模块进行数据探查时,具体包括:

...

【技术特征摘要】

1.一种高效数据质量检测方法,其特征是包括:

2.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中通过数据质量检测规则规定质量检测维度,包括:规定质量检测的准确性维度、冗余性维度、完整性维度、关联性维度、唯一性维度、规范性维度、一致性维度和及时性维度。

3.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中配置基础规则库,包括:配置基础规则库的sql检测及重复性检测,定义多种数据源sql检测,其中数据源包括mysql、oracle、sqlserver、greenplum、postgresql、hive、newsql、dameng、kingbase、highgo和osca,定义相关类实现数据源sql检测,对传入sql数据总量及问题总量进行汇总统计。

4.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中通过业务规则库关联基础规则与要检测的数据源或数据表,包括:根据关联对业务规则进行维护,其中定义业务规则,在业务规则中,为数据表、列配置基础规则或相应sql,设置检测类型为单表检测、mysql数据源及库、表和目标值,设置存储数据源的库、表,在规则列表中记录校验规则、参数名称、参数描述、参数类型和参数值。

5.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤3中数据探查时,具体包括:

6.一种高效数据质量检测装置,...

【专利技术属性】
技术研发人员:宋丽丽李国涛王庆明武铁军李言龙李想史肖霄
申请(专利权)人:上海浪潮云计算服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1