一种用于数仓数据质量监控方法及系统技术方案

技术编号:38469079 阅读:11 留言:0更新日期:2023-08-11 14:46
本发明专利技术公开了一种用于数仓数据质量监控方法,其方法部分包括如下步骤:S1用于获取数据采集任务的步骤;S2用于对采集的数据进行表数据质量校验,并得出校验结果的步骤;S3用于将符合预设校验结果的采集数据结果进行计算,并得出数据采集计算结果的步骤;S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的步骤;S5用于将符合标准的打标数据落入数仓的步骤。本发明专利技术所提供的用于数仓数据质量监控方法及系统,使得数仓任务周期短,且无需人工介入,提高了企业的业务效果,且降低了人工成本。降低了人工成本。降低了人工成本。

【技术实现步骤摘要】
一种用于数仓数据质量监控方法及系统


[0001]本专利技术涉及计算机领域,尤其涉及一种用于数仓数据质量监控方法及系统。

技术介绍

[0002]随着互联网近些年的蓬勃发展,每个公司都在为构建一套公司内部的数据仓库而努力,数据质量校验的地位变得愈发重要,一个优秀的数据质量系统,会极大的提升数仓任务开发的效率,解决数据分析人员的痛点。
[0003]在现有数仓任务在开发中,通常只有在任务完成后,才会得知数仓任务的质量情况,而数仓任务通常是由开发人员编写的,针对大体量,结构复杂的数据,进行的一系列加工、转换,通常数仓任务运行时间会比较长,且对开发人员的代码水平有强相关,质量校验也需要等到任务运行完成后,人工评审数据是否存在问题,如果出现问题则需要人工修改后再一次执行数仓任务,该业务过程周期长,且由于需要人工接入,对做质量校验的人员的要求较高,且不同的开发任务的质量校验的结果会随着开发人员的技术水平、业务能力而参差不齐。

技术实现思路

[0004]本专利技术的目的是提供一种用于数仓数据质量监控方法及系统。
[0005]本专利技术所提供的用于数仓数据质量监控方法,包括如下步骤:
[0006]S1用于获取数据采集任务的步骤;
[0007]S2用于对采集的数据进行表数据质量校验,并得出校验结果的步骤;
[0008]S3用于将符合预设校验结果的采集数据结果进行计算,并得出数据采集计算结果的步骤;
[0009]S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的步骤;
[0010]S5用于将符合标准的打标数据落入数仓的步骤。
[0011]优选的,所述S1用于获取数据采集任务的步骤,包括:
[0012]S11用于创建数据采集任务的步骤;
[0013]S12用于通过前端,判断创建的数据采集任务是否需要质量校验,若是,则执行S2,若否,执行S5的步骤。
[0014]优选的,所述S1用于获取数据采集任务的步骤,还包括:S13用于对质量规则进行配置的步骤。
[0015]优选的,所述S2用于对采集的数据进行表数据质量校验,并得出校验结果的步骤,包括:
[0016]S21用于判断校验结果是否通过表数据质量校验,若通过,则执行S3,若不通过,则执行S13的步骤。
[0017]优选的,所述S3用于将符合预设校验结果的采集数据结果进行计算,并得出数据
采集计算结果的步骤,包括:
[0018]S31用于获取符合预设校验结果的采集数据的步骤;
[0019]S32用于调用质量规则引擎,将符合预设校验结果的采集数据结果进行计算,并得出数据采集计算结果的步骤。
[0020]优选的,所述S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的步骤,包括:
[0021]S41用于判断比对结果是否异常,若正常,则逐条将对应的采集数据打标成0,若异常,则逐条将对应的采集数据打标成1。
[0022]优选的,所述S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的步骤,还包括:
[0023]S42用于根据打标,进行异常数/总数据量百分比计算,并得出计算结果的步骤;
[0024]S43用于根据计算结果判断采集数据是否符合要求,若符合,则执行S5,若不符合,则执行S44的步骤;
[0025]S44用于根据计算结果及质量规则对采集数据进行风控等级划分的,并生成划分结果的步骤;
[0026]S45用于对划分结果进行判断,若为低风险,则继续执行S46,若为中高风险,则发送告警中心;
[0027]S46用于对符合的采集数据进行整批打标,并继续执行S5的步骤。
[0028]优选的,所述表数据质量校验,包括:
[0029]用于调用数据质量模型的步骤;
[0030]用于构建数据特征的步骤;
[0031]用于根据数据质量模型及构件数据特征进行质量分数计算,并生成质量分数的步骤;
[0032]用于判断质量分数是否满足质量模型,若是则执行S5,,若否则执行S44。
[0033]本专利技术所提供的用于数仓数据质量监控系统,包括如下模块:
[0034]S1用于获取数据采集任务的模块;
[0035]S2用于对采集的数据进行表数据质量校验,并得出校验结果的模块;
[0036]S3用于将符合预设校验结果的采集数据结果进行计算,并得出数据采集计算结果的模块;
[0037]S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的模块;
[0038]S5用于将符合标准的打标数据落入数仓的模块。
[0039]优选的,所述S1用于获取数据采集任务的模块,包括:
[0040]S11用于创建数据采集任务的子模块;
[0041]S12用于通过前端,判断创建的数据采集任务是否需要质量校验,若是,则执行S2,若否,执行S5的子模块。
[0042]优选的,所述S1用于获取数据采集任务的模块,还包括:S13用于对质量规则进行配置的子模块。优选的,所述S2用于对采集的数据进行表数据质量校验,并得出校验结果的模块,包括:
[0043]S21用于判断校验结果是否通过表数据质量校验,若通过,则执行S3,若不通过,则执行S13的子模块。
[0044]优选的,所述S3用于将符合预设校验结果的采集数据结果进行计算,并得出数据采集计算结果的模块,包括:
[0045]S31用于获取符合预设校验结果的采集数据的子模块;
[0046]S32用于调用质量规则引擎,将符合预设校验结果的采集数据结果进行计算,并得出数据采集计算结果的子模块。
[0047]优选的,所述S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的模块,包括:
[0048]S41用于判断比对结果是否异常,若正常,则逐条将对应的采集数据打标成0,若异常,则逐条将对应的采集数据打标成1的子模块。
[0049]优选的,所述S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的模块,还包括:
[0050]S42用于根据打标,进行异常数/总数据量百分比计算,并得出计算结果的子模块;
[0051]S43用于根据计算结果判断采集数据是否符合要求,若符合,则执行S5,若不符合,则执行S44的子模块;
[0052]S44用于根据计算结果及质量规则对采集数据进行风控等级划分的,并生成划分结果的子模块;
[0053]S45用于对划分结果进行判断,若为低风险,则继续执行S46,若为中高风险,则发送告警中心的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于数仓数据质量监控方法,其特征在于,包括如下步骤:S1用于获取数据采集任务的步骤;S2用于对采集的数据进行表数据质量校验,并得出校验结果的步骤;S3用于将符合预设校验结果的采集数据结果进行计算,并得出数据采集计算结果的步骤;S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的步骤;S5用于将符合标准的打标数据落入数仓的步骤。2.如权利要求1所述的用于数仓数据质量监控方法,其特征在于,所述S1用于获取数据采集任务的步骤,包括:S11用于创建数据采集任务的步骤;S12用于通过前端,判断创建的数据采集任务是否需要质量校验,若是,则执行S2,若否,执行S5的步骤。3.如权利要求2所述的用于数仓数据质量监控方法,其特征在于,所述S1用于获取数据采集任务的步骤,还包括:S13用于对质量规则进行配置的步骤。4.如权利要求3所述的用于数仓数据质量监控方法,其特征在于,所述S2用于对采集的数据进行表数据质量校验,并得出校验结果的步骤,包括:S21用于判断校验结果是否通过表数据质量校验,若通过,则执行S3,若不通过,则执行S13的步骤。5.如权利要求4所述的用于数仓数据质量监控方法,其特征在于,所述S3用于将符合预设校验结果的采集数据结果进行计算,并得出数据采集计算结果的步骤,包括:S31用于获取符合预设校验结果的采集数据的步骤;S32用于调用质量规则引擎,将符合预设校验结果的采集数据结果进行计算,并得出数据采集计算结果的步骤。6.如权利要求5所述的用于数仓数据质量监控方法,其特征在于,所述S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的步骤,包括:S41用于判断比对结果是否异常,若正常,则逐条将对应的采集数据打标成0,若异常,则逐条将对应的采集数据打标成1。7.如权利要求6所述的用于数仓数据质量监控方法,其特征在于,所述S4用于将数据采集计算结果与预设的计算结果进行比对,并根据比对结果对采集的数据进行打标,生成不同标准的打标数据的步骤,还包括:S42用于根据打标,进行异常数/总数据量百分比计算,并得出计算结果的步骤;S43用于根据计算结果判断采集数据是否符合要求,若符合,则执行S5,若不符合,则执行S44的步骤;S44用于根据计算结果及质量规则对采集数据进行风控等级划分的,并生成划分结果的步骤;S45用于对划分结果进行判断,若为低风险,则继续执行S46,若为中高风险,则发送告警中心;
S46用于对符合的采集数据进行整批打标,并继续执行S5的步骤。8.如权利要求7所述的用于数仓数据质量监控方法,其特征在于,所述表数据质量校验,包括:用于调用数据质量模型的步骤;用于构建数据特征的步骤;用于根据数据质量模型及构件数据特征进行质量分数计算,并生成质量分数的步骤;用于判断质量分数是否满足质量模型,若是则执行S5,,若否则执行S44。9.一种用于数仓数据质量监控系统,其特征在于,...

【专利技术属性】
技术研发人员:金家芳李鹏飞方志强
申请(专利权)人:上海维信荟智金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1