一种高效数据质量检测方法技术

技术编号:43298909 阅读:30 留言:0更新日期:2024-11-12 16:15
本发明专利技术公开一种高效数据质量检测方法,涉及大数据技术领域;包括:步骤1:定义数据质量检测规则,步骤2:基于NiFi根据数据质量检测规则进行数据质量检测流程编排,步骤3:启动NiFi数据质量检测流程,通过XXL‑JOB运行调度相关数据质量检测探查任务进行数据探查,步骤4:根据数据探查时,发现的数据问题形成的问题库,根据经验得到历史库,对数据问题进行质量改进并上报。

【技术实现步骤摘要】

本专利技术公开一种方法,涉及大数据,具体地说是一种高效数据质量检测方法


技术介绍

1、信息时代,数据规模大幅增加,人工检测方式不再适用。尤其是数据来源复杂化,数据的处理、管理和分析需要额外的技术手段。随着深度学习、云计算、并行计算和分布式系统等技术的兴起,对数据质量检测技术要求越来越高。但目前还没有完善的方法对大量数据质量进行完整性、准确性、一致性和时效性检测。


技术实现思路

1、本专利技术针对现有技术的问题,提供一种高效数据质量检测方法,方便数据质量改进和数据质量评估,打造全链路数据质量规范体系和闭环管控体系。

2、本专利技术提出的具体方案是:

3、本专利技术提供一种高效数据质量检测方法,包括:

4、步骤1:定义数据质量检测规则:

5、通过数据质量检测规则规定质量检测维度,

6、配置基础规则库,

7、根据数据质量检测规则通过业务规则库关联基础规则与要检测的数据源或数据表;

8、步骤2:基于nifi根据数据质量检测规则进行数本文档来自技高网...

【技术保护点】

1.一种高效数据质量检测方法,其特征是包括:

2.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中通过数据质量检测规则规定质量检测维度,包括:规定质量检测的准确性维度、冗余性维度、完整性维度、关联性维度、唯一性维度、规范性维度、一致性维度和及时性维度。

3.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中配置基础规则库,包括:配置基础规则库的SQL检测及重复性检测,定义多种数据源SQL检测,其中数据源包括MySQL、Oracle、SQLserver、Greenplum、Postgresql、Hive、NewSQL、DaMeng、King...

【技术特征摘要】

1.一种高效数据质量检测方法,其特征是包括:

2.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中通过数据质量检测规则规定质量检测维度,包括:规定质量检测的准确性维度、冗余性维度、完整性维度、关联性维度、唯一性维度、规范性维度、一致性维度和及时性维度。

3.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中配置基础规则库,包括:配置基础规则库的sql检测及重复性检测,定义多种数据源sql检测,其中数据源包括mysql、oracle、sqlserver、greenplum、postgresql、hive、newsql、dameng、kingbase、highgo和osca,定义相关类实现数据源sql检测,对传入sql数据总量及问题总量进行汇总统计。

4.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤1中通过业务规则库关联基础规则与要检测的数据源或数据表,包括:根据关联对业务规则进行维护,其中定义业务规则,在业务规则中,为数据表、列配置基础规则或相应sql,设置检测类型为单表检测、mysql数据源及库、表和目标值,设置存储数据源的库、表,在规则列表中记录校验规则、参数名称、参数描述、参数类型和参数值。

5.根据权利要求1所述的一种高效数据质量检测方法,其特征是步骤3中数据探查时,具体包括:

6.一种高效数据质量检测装置,...

【专利技术属性】
技术研发人员:宋丽丽李国涛王庆明武铁军李言龙李想史肖霄
申请(专利权)人:上海浪潮云计算服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1