一种数据质量的检测方法、装置、设备及介质制造方法及图纸

技术编号:41742680 阅读:18 留言:0更新日期:2024-06-19 13:03
本申请涉及数据处理技术领域,公开了一种数据质量的检测方法、装置、设备及介质,解决采用批处理模式对新增数据进行质量检测时需要全量重新计算,效率低下的问题。获取待检测数据集;待检测数据集中包括至少一种数据类型的待检测数据;针对各数据类型的待检测数据:根据预设的数据类型和质量检测规则集的对应关系,确定待检测数据对应的质量检测规则集;对质量检测规则集进行解析,得到质量检测规则集的统计信息;对质量检测规则集中的统计信息,进行视图结构构建,得到SQL脚本框架;基于待检测数据,调用SQL构造器对SQL脚本框架进行填充,得到质量检测规则集对应的SQL脚本;使用SQL脚本进行数据质量检测,得到数据质量检测结果。

【技术实现步骤摘要】

本申请涉及数据处理,具体涉及一种数据质量的检测方法、装置、设备及介质


技术介绍

1、随着业务扩展以及大数据时代的到来,各类数据源类型不断增加,数据也呈爆炸式增长,大量快速聚合的数据往往存在质量问题,因此需要对数据质量进行检测。

2、相关技术中,数据质量检测系统包括data quality monitor(数据质量监视)系统和基于hadoop(分布式系统基础架构)/spark(计算引擎)的批处理质量管理系统。

3、data quality monitor系统的核心检测引擎采用离线批处理模式,无法做到实时性,对大规模的数据处理效率较低。基于hadoop/spark的批处理质量管理系统可以处理海量数据,但无法做到实时性,只能定时批处理,并且效率低。

4、上述两种系统主要以批处理为主,不能针对新增数据进行质量检测,往往需要全量重新计算,效率低下,无法满足实时海量数据的质量检测需求,导致生产数据质量存在一定的安全隐患。


技术实现思路

1、本申请实施例提供一种数据质量的检测方法、装置本文档来自技高网...

【技术保护点】

1.一种数据质量的检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据下列方式确定预设的数据类型和质量检测规则集之间的对应关系:

3.根据权利要求1所述的方法,其特征在于,所述对所述待检测数据对应的质量检测规则集进行解析,得到所述质量检测规则集的统计信息,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述待检测数据,调用SQL构造器对所述SQL脚本框架进行填充,得到所述质量检测规则集对应的SQL脚本,包括:

5.根据权利要求1或4所述的方法,其特征在于,所述得到所述质量检测规则集对应的SQL脚本之...

【技术特征摘要】

1.一种数据质量的检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据下列方式确定预设的数据类型和质量检测规则集之间的对应关系:

3.根据权利要求1所述的方法,其特征在于,所述对所述待检测数据对应的质量检测规则集进行解析,得到所述质量检测规则集的统计信息,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述待检测数据,调用sql构造器对所述sql脚本框架进行填充,得到所述质量检测规则集对应的sql脚本,包括:

5.根据权利要求1或4所述的方法,其特征在于,所述得到所述质量检测规则集对应的sql脚本之后,所述方法还包...

【专利技术属性】
技术研发人员:王虹郭涵谢浩
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1