一种数据质量控制方法、装置以及设备制造方法及图纸

技术编号:39404979 阅读:8 留言:0更新日期:2023-11-19 15:57
本说明书实施例公开了一种数据质量控制方法、装置以及设备。方案包括:从数据表中提取字段集合;通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合;根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量。以解决需要更有助于保障数据质量的方案的问题,通过进行更细粒度的字段级布防,从而能够直接对数据的属性进行规则防护,并且从当前获取的全部字段中筛选出了更有可能影响数据质量的被消费字段,来做布防或者衡量当前布防的覆盖度,从而能够更直观地从全局掌握以及控制数据质量,因此能够更好地保障数据质量。因此能够更好地保障数据质量。因此能够更好地保障数据质量。

【技术实现步骤摘要】
一种数据质量控制方法、装置以及设备


[0001]本说明书涉及风控
,尤其涉及一种数据质量控制方法、装置以及设备。

技术介绍

[0002]在如今数据爆炸的时代,如何保障数据质量成为一个值得关注的问题。
[0003]传统的数据质量都是依据表级数据质量检查(Data Quality Check,DQC)规则来衡量,DQC规则一般是指对离线表的数据期望配置一些规则,从而对离线表的数据进行检查。但是,这种方式无法给出DQC规则需要铺到什么层度,才能尽量覆盖到真正重要的数据,也正是这个原因,目前的DQC规则无法直观评判数据质量好坏,从而不利于保障数据质量。
[0004]基于此,需要更有助于保障数据质量的方案。

技术实现思路

[0005]本说明书一个或多个实施例提供一种数据质量控制方法、装置、设备以及存储介质,用以解决如下技术问题:需要更有助于保障数据质量的方案。
[0006]为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
[0007]本说明书一个或多个实施例提供的一种数据质量控制方法,包括:
[0008]确定数据表中的字段集合;
[0009]通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合;
[0010]根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量。
[0011]本说明书一个或多个实施例提供的一种数据质量控制装置,包括:
[0012]字段集合确定模块,确定数据表中的字段集合;
[0013]消费字段确定模块,通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合;
[0014]字段布防控制模块,根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量。
[0015]本说明书一个或多个实施例提供的一种数据质量控制设备,包括:
[0016]至少一个处理器;以及,
[0017]与所述至少一个处理器通信连接的存储器;其中,
[0018]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
[0019]确定数据表中的字段集合;
[0020]通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合;
[0021]根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量。
[0022]本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机
可执行指令,所述计算机可执行指令设置为:
[0023]确定数据表中的字段集合;
[0024]通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合;
[0025]根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量。
[0026]本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:进行了更细粒度的字段级布防,从而能够直接对数据的属性进行规则防护,并且从当前获取的全部字段中筛选出了更有可能影响数据质量的被消费字段,来做布防或者衡量当前布防的覆盖度,从而能够更直观地从全局掌握以及控制数据质量,因此能够更好地保障数据质量。
附图说明
[0027]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本说明书一个或多个实施例提供的云端角度的一种数据质量控制方法的流程示意图;
[0029]图2为本说明书一个或多个实施例提供的一种应用场景下,被消费字段的确定方案的流程示意图;
[0030]图3为本说明书一个或多个实施例提供的一种应用场景下,字段及对应的字段级布防规则的类别划分示意图;
[0031]图4为本说明书一个或多个实施例提供的一种应用场景下,自适应字段布防辅助方案的流程示意图;
[0032]图5为本说明书一个或多个实施例提供的一种数据质量控制装置的结构示意图;
[0033]图6为本说明书一个或多个实施例提供的一种数据质量控制设备的结构示意图。
具体实施方式
[0034]本说明书实施例提供一种数据质量控制方法、装置、设备以及存储介质。
[0035]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0036]正如
技术介绍
中提到的,传统数据质量都是依据表级DQC规则来衡量,但是这种方式无法给出表级DQC规则需要铺到什么层度才能覆盖全,针对这个问题,本申请的方案采用了更细粒度的布防,从字段出发,在数据的重要属性上配置字段级布防规则,并且提出了字段级布防度(比如,根据字段级布防规则在指定范围内的配置覆盖率、不同风险等级的字段级布防规则的占比等参数来表示),将数据质量直接与字段级布防度挂钩,字段级布防度越
高,则说明数据的更多的重要属性都有规则防护,如此才能更好的保障数据质量。
[0037]进一步地,在实际应用中,单个数据表中的每条数据都有多个字段,而业务往往还涉及多张数据表,在这种情况下,全局总体的字段数量将较多,对于某些大中型应用而言,对应的字段数量往往是大规模(比如,成千上万乃至更多)的,如果对数据所有的字段都进行字段级布防的话,那么对于如今这么大的数据体量来说比较困难而且不利于控制成本,因此,对于大规模字段,本申请区分了优先级,申请人发现有些字段是被下游消费的,有些字段是不被消费的,因此尤其优先关注和布防被消费字段,并提出了具体的能够高效在大规模字段中筛选被消费字段的方案。
[0038]下面基于上述的总体思路,继续详细说明本申请的方案。
[0039]图1为本说明书一个或多个实施例提供的一种数据质量控制方法的流程示意图。该流程可以在应用一方的机器上执行,比如,应用的服务器、测试机、应用的所属方或运营方(通常是该应用的所属公司)所控制的其他设备等。流程中的某些输入参数或者中间结果允许人工干预调节,以帮助提高准确性。
[0040]图1中的流程包括以下步骤:
[0041]S102:确定数据表中的字段集合。
[0042]在本说明书一个或多个实施例中,步骤S102中的数据表可以是指定的一张数据表;也可以是统指的多张数据表,比如,某应用当前涉及的所有数据表。在数据表本身规模庞大的情况下,字段集合有大规模数量的字段,在这样的场本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量控制方法,包括:确定数据表中的字段集合;通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合;根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量。2.如权利要求1所述的方法,所述数据表包括一张或多张表,所述字段集合中有大规模数量的字段。3.如权利要求1所述的方法,所述从数据表中提取字段集合之前,所述方法还包括:在不区分被消费字段的情况下,通过多个不同的配置操作主体,为所述数据表中的部分字段配置字段级布防规则。4.如权利要求1所述的方法,所述通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合之后,所述方法还包括:将所述消费字段子集合中的被消费字段划分为多个类别;对于所述消费字段子集合中的至少部分被消费字段,按照所述至少部分被消费字段分别所属的所述类别,为对应的被消费字段配置对应于所述类别的字段级布防规则,以控制所述数据表的数据质量。5.如权利要求4所述的方法,所述多个类别包括以下至少一种:枚举字段类别、字符串字段类别、数值字段类别。6.如权利要求5所述的方法,所述枚举字段类别对应的字段级布防规则包括以下至少一种:非空校验规则、枚举范围校验规则、稳定性校验规则;和/或,所述字符串字段类别对应的字段级布防规则包括以下至少一种:非空校验规则、空值率校验规则、正则校验规则、其他自定义校验规则;和/或,所述数值字段类别对应的字段级布防规则包括以下至少一种:非空校验规则、数值范围校验规则、数值波动校验规则。7.如权利要求1所述的方法,所述判断所述字段集合中的字段是否被消费,具体包括:通过离线字段血缘和/或在线追踪链路,判断所述字段集合中的字段是否被消费。8.如权利要求7所述的方法,所述通过离线字段血缘和在线追踪链路,判断所述字段集合中的字段是否被消费,具体包括:判断所述数据表是否为回流表;若是,则通过在线追踪链路,判断所述字段集合中的字段是否被消费;否则,若所述数据表未作为报表使用,则通过离线字段血缘判断所述字段集合中的字段是否被消费,而若所述数据表作为报表使用,则通过在线追踪链路,判断所述字段集合中的字段是否被消费。9.如权利要求1所述的方法,所述根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量,具体包括:针对不同的字段级布防规则,分别确定所述字段级布防规则在所述被消费字段子集合中的配置覆盖率,作为第一局部覆盖率;根据所述第一局部覆盖率,控制所述数据表的数据质量。10.如权利要求9所述的方法,所述第一局部覆盖率是在所述字段级布防规则所属的字
段类别范围内确定的;所述根据所述第一局部覆盖率,控制所述数据表的数据质量,具体包括:对于单个所述字段类别对应的多个不同的字段级布防规则,根据为各所述字段级布防规则分别确定的所述第一局部覆盖率,确定所述单个所述字段类别整体对应的配置覆盖率,作为第二局部覆盖率;根据为多个不同的字段类别分别确定的所述第二局部覆盖率,确定所述字段集合整体对应的配置覆盖率,作为全局覆盖率;根据所述全局覆盖率,控制所述数据表的数据质量。11.如权利要求9或10所述的方法,所述控制所述数据表的数据质量,具体包括:展示所确定的至少一种配置覆盖率;响应于针对所述字段集合中的字段的规则配置操作,为所述字段配置字段级布防规则,以提高所述配置覆盖率。12.一种数据质量控制装置,包括:字段集合确定模块,确定数据表中的字段集合;消费字段确定模块,通过判断所述字段集合中的字段是否被消费,生成被消...

【专利技术属性】
技术研发人员:周源吴云广
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1