一种面向大数据的数据质量稽核监控方法技术

技术编号:21605383 阅读:37 留言:0更新日期:2019-07-13 18:10
本发明专利技术公开一种面向大数据的数据质量稽核监控方法,包括如下步骤:(1)构建数据质量稽核评估模型;(2)构建质量稽核执行引擎,通过执行引擎对各层级的数据的一致性、及时性、准确性和完整性进行稽核。本发明专利技术解决海量数据下的实时、异步、异库数据质量稽核和监控,有效保证数据的准确、及时、一致性、完整性,提升数据质量,及时发现数据问题。

A Data Quality Audit and Monitoring Method for Large Data

【技术实现步骤摘要】
一种面向大数据的数据质量稽核监控方法
本专利技术涉及一种数据监控方法,具体是一种面向大数据的数据质量稽核监控方法。
技术介绍
为应对激烈的市场竞争,运营商越来越依赖精确化的数据统计分析以实现科学管理和决策。数据质量的好坏直接关系到信息提供的准确程度。数据质量问题得不到有效解决,数据资产将不能有效反映企业运营和市场事实,经营决策将失去可靠依据。大数据时代,数据爆炸式增长。海量的数据一方面为运营商带来大量的信息资产,另一方面无用数据、干扰数据也呈现指数级增加。因此,围绕企业大数据的生命周期,实现对关键数据的全过程质量监控尤为重要。
技术实现思路
专利技术目的:本专利技术目的在于针对现有技术的不足,提供一种面向大数据的数据质量稽核监控方案,解决海量数据下的实时、异步、异库数据质量稽核和监控,有效保证数据的准确、及时、一致性、完整性,提升数据质量,及时发现数据问题。技术方案:本专利技术所述面向大数据的数据质量稽核监控方法,包括如下步骤:(1)构建数据质量稽核评估模型:根据数据类型、数据质量定义,以及数据在创建和使用时所需要的规则,建立数据质量模型;基于数据质量模型,对接口层、整合层、宽表层和指标层的数据分别制定稽核标准;(2)构建质量稽核执行引擎:整合各层级数据稽核标准,将稽核标准分为一致性稽核、及时性稽核、准确性稽核和完整性稽核,为各稽核标准分别建立稽核执行引擎,通过执行引擎对各层级的数据的一致性、及时性、准确性和完整性进行稽核。本专利技术进一步优选地技术方案为,在构建数据质量稽核评估模型时,对接口层的稽核包括记录数一致性稽核、模糊性稽核、关键业务字段拉链比对和抽样稽核;接口层的记录数一致性稽核包括外系统提供稽核指标结果,结合数据平台入库情况,比对接口层内外两个系统数据一致性;以及文件入库时,结合稽核文件、数据文件、数据平台入库情况,稽核比对记录一致性;接口层的模糊性稽核是在一致性稽核后,比对历史数据、数据趋势和数据关联,设置同比、环比和平衡公式稽核;接口层的关键业务字段拉链比对是比对稽核源系统与数据平台系统数据表字段取值一致性;接口层的抽样稽核是在关键业务字段拉链比对后,比对历史数据、数据趋势和数据关联,设置同比、环比和平衡公式稽核。作为优选地,对于整合层的稽核包括记录数一致性稽核、抽样稽核和模糊性稽核;整合层的记录数一致性稽核是比对整合层中间表与接口表数据记录数;整合层的抽样稽核是对重点中间表抽样比对接口层与整合层数值;整合层的模糊性稽核是在记录数一致性稽核后,比对历史数据、数据趋势和数据关联,设置同比、环比和平衡公式稽核。优选地,对于宽表层的稽核包括记录数一致性稽核、抽样稽核和模糊性稽核;宽表层的记录数一致性稽核是比对宽表层中间表与整合表数据记录数;宽表层的抽样稽核是对重点中间表抽样比对整合层与宽表层数值;宽表层的模糊性稽核是在记录数一致性稽核后,比对历史数据、数据趋势和数据关联,设置同比、环比和平衡公式稽核。优选地,对于指标层的稽核包括记录数一致性稽核、抽样稽核和模糊性稽核;指标层的记录数一致性稽核是比对宽表层中间表与指标表数据记录数;指标层的抽样稽核是对重点中间表抽样比对指标层与宽表层数值;指标层的模糊性稽核是在记录数一致性稽核后,比对历史数据、数据趋势和数据关联,设置同比、环比和平衡公式稽核。优选地,在构建质量稽核执行引擎时,对于一致性稽核包括总数一致性稽核、抽样记录一致性稽核和明细记录一致性稽核;总数一致性稽核为在设定时间下稽核待比对的两数据库的总数,确保两数据库总数的一致性;抽样记录一致性稽核是在设定时间下,提取任一数据库的任意数据,比对另一数据库,确认是否有对应数据存在;明细记录一致性稽核是在设定时间下,将任一数据内每条数据记录与另一数据库数据记录比对,确认是否有对应数据记录存在。优选地,对于及时性稽核是在流失数据采集或处理过程,对每条记录增加及时性分析信息,并标识信息在每个节点的时刻;对每个处理环节,标识记录开始时间点和当前环节时间点,再根据开始时间点和当前环节时间点差值,确定从开始到目前节点的时延数据,时延数据小于或等于设定最大延迟值时,满足及时性要求。优选地,对于完整性稽核是稽核数据的属性约束,对基于单个数据对象字段级别的稽核,具体方式是在设定时间内对数据进行取样,逐条校验字段是否符合主键唯一性规则要求。优选地,对于准确性稽核是对稽核目标端的当前账期的数据与历史账期数据进行比较,判断是否满足设定的波动率、阀值和平衡公式的要求,确定数据准确率。有益效果:本专利技术相比传统的数据质量稽核,实现实时数据的实时稽核,随业务发展的需要,实时战报,实时营销,实时看数等需求越来越多,在提供实时数据服务的前提下,需要保障所看到的数据具备完整性及准确性,这对数据质量提出很高要求,而本方案实现了对实时数据的实时稽核;具备数据海量稽核能力,DPI、位置信令、4G/5G话单等数据,每天达到几亿到几十个亿记录数,数据量为几T到几十个T,方案具备海量数据的稽核能力;具备异步及异库稽核能力,实现对数据异库稽核,把对生产影响降低到极可能小;同时,真对部分可信赖、稳定的数据,实现了异步稽核。具体实施方式下面对本专利技术技术方案进行详细说明,但是本专利技术的保护范围不局限于所述实施例。实施例:一种面向大数据的数据质量稽核监控方法,包括如下步骤:1、构建数据质量稽核评估模型。根据数据类型、数据质量定义,以及数据在创建和使用时所需要的规则,建立数据质量模型;基于数据质量模型,结合运营商业务及数据的特点,针对不同层级业务数据制定了不同的稽核策略和手段如下:分层稽核时,首先保证接口层数据质量是分层稽核基本原则。接口层,关注点在数据与源系统数据保持一致,包括记录数、关键业务字段等信息。(1)采用CDC增量同步方式采集的数据,不做数据稽核处理,由CDC统一保证数据质量;同时数据源侧系统提供关键数据稽核指标给数据平台;(2)采用文件方式采集数据,基于数据稽核文件、数据文件、源系统比对数据量;(3)对关键业务字段要求比较严格的比较,提供定制性程序实现采用拉链算法,比对字段一致性。(4)对关键业务字段可接受模糊性的比较,采用波动性、历史趋势等规则稽核,稽核前移,提升处理效率。整合层,关注点在整合层从接口层数据可追溯。(1)整合层保持与接口层数据一致性,采用记录数写消息表模式稽核。(2)关键业务字段比较,可采用抽样检查;(3)对重要的业务,考虑到性能问题,利用大数据平台提供定制性程序实现采用拉链算法,比对字段统计结果一致性。宽表层,关注点在宽表层从整合层数据可追溯。(1)宽表层保持与整合层数据一致性,采用记录数写消息表模式稽核。(2)关键业务字段比较,可采用抽样检查;(3)也可采用平衡公式、历史趋势、阀值等稽核;(4)对重要的业务,考虑到性能问题,利用大数据平台提供定制性程序实现采用拉链算法,比对字段统计结果一致性。指标层,关注点在指标层从宽表层数据可追溯。(1)指标层保持与宽表层数据一致性,采用记录数写消息表模式稽核。(2)关键业务字段比较,可采用抽样检查;(3)也可采用平衡公式、历史趋势、阀值等稽核;(4)对重要的业务,考虑到性能问题,利用大数据平台提供定制性程序实现采用拉链算法,比对字段统计结果一致性。根据以上分层稽核时稽核策略和手段,对接口层、整合层、本文档来自技高网...

【技术保护点】
1.一种面向大数据的数据质量稽核监控方法,其特征在于,包括如下步骤:(1)构建数据质量稽核评估模型:根据数据类型、数据质量定义,以及数据在创建和使用时所需要的规则,建立数据质量模型;基于数据质量模型,对接口层、整合层、宽表层和指标层的数据分别制定稽核标准;(2)构建质量稽核执行引擎:整合各层级数据稽核标准,将稽核标准分为一致性稽核、及时性稽核、准确性稽核和完整性稽核,为各稽核标准分别建立稽核执行引擎,通过执行引擎对各层级的数据的一致性、及时性、准确性和完整性进行稽核。

【技术特征摘要】
1.一种面向大数据的数据质量稽核监控方法,其特征在于,包括如下步骤:(1)构建数据质量稽核评估模型:根据数据类型、数据质量定义,以及数据在创建和使用时所需要的规则,建立数据质量模型;基于数据质量模型,对接口层、整合层、宽表层和指标层的数据分别制定稽核标准;(2)构建质量稽核执行引擎:整合各层级数据稽核标准,将稽核标准分为一致性稽核、及时性稽核、准确性稽核和完整性稽核,为各稽核标准分别建立稽核执行引擎,通过执行引擎对各层级的数据的一致性、及时性、准确性和完整性进行稽核。2.根据权利要求1所述的面向大数据的数据质量稽核监控方法,其特征在于,在构建数据质量稽核评估模型时,对接口层的稽核包括记录数一致性稽核、模糊性稽核、关键业务字段拉链比对和抽样稽核;接口层的记录数一致性稽核包括外系统提供稽核指标结果,结合数据平台入库情况,比对接口层内外两个系统数据一致性;以及文件入库时,结合稽核文件、数据文件、数据平台入库情况,稽核比对记录一致性;接口层的模糊性稽核是在一致性稽核后,比对历史数据、数据趋势和数据关联,设置同比、环比和平衡公式稽核;接口层的关键业务字段拉链比对是比对稽核源系统与数据平台系统数据表字段取值一致性;接口层的抽样稽核是在关键业务字段拉链比对后,比对历史数据、数据趋势和数据关联,设置同比、环比和平衡公式稽核。3.根据权利要求1所述的面向大数据的数据质量稽核监控方法,其特征在于,对于整合层的稽核包括记录数一致性稽核、抽样稽核和模糊性稽核;整合层的记录数一致性稽核是比对整合层中间表与接口表数据记录数;整合层的抽样稽核是对重点中间表抽样比对接口层与整合层数值;整合层的模糊性稽核是在记录数一致性稽核后,比对历史数据、数据趋势和数据关联,设置同比、环比和平衡公式稽核。4.根据权利要求1所述的面向大数据的数据质量稽核监控方法,其特征在于,对于宽表层的稽核包括记录数一致性稽核、抽样稽核和模糊性稽核;宽表层的记录数一致性稽核是比对宽表层中间表与整合表数据记录数;宽表层的抽样稽核是对重点中间表抽样比...

【专利技术属性】
技术研发人员:吴淼辉吴名朝
申请(专利权)人:浩鲸云计算科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1