【技术实现步骤摘要】
一种数据质量控制方法、装置以及设备
[0001]本说明书涉及风控
,尤其涉及一种数据质量控制方法、装置以及设备。
技术介绍
[0002]在如今数据爆炸的时代,如何保障数据质量成为一个值得关注的问题。
[0003]传统的数据质量都是依据表级数据质量检查(Data Quality Check,DQC)规则来衡量,DQC规则一般是指对离线表的数据期望配置一些规则,从而对离线表的数据进行检查。但是,这种方式无法给出DQC规则需要铺到什么层度,才能尽量覆盖到真正重要的数据,也正是这个原因,目前的DQC规则无法直观评判数据质量好坏,从而不利于保障数据质量。
[0004]基于此,需要更有助于保障数据质量的方案。
技术实现思路
[0005]本说明书一个或多个实施例提供一种数据质量控制方法、装置、设备以及存储介质,用以解决如下技术问题:需要更有助于保障数据质量的方案。
[0006]为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
[0007]本说明书一个或多个实施例提供的一种数据质量控制方法,包括:
[0008]确定数据表中的字段集合;
[0009]通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合;
[0010]根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量。
[0011]本说明书一个或多个实施例提供的一种数据质量控制装置,包括:
[0012]字段集合确定模块,确定数据表中的字 ...
【技术保护点】
【技术特征摘要】
1.一种数据质量控制方法,包括:确定数据表中的字段集合;通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合;根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量。2.如权利要求1所述的方法,所述数据表包括一张或多张表,所述字段集合中有大规模数量的字段。3.如权利要求1所述的方法,所述从数据表中提取字段集合之前,所述方法还包括:在不区分被消费字段的情况下,通过多个不同的配置操作主体,为所述数据表中的部分字段配置字段级布防规则。4.如权利要求1所述的方法,所述通过判断所述字段集合中的字段是否被消费,生成被消费字段子集合之后,所述方法还包括:将所述消费字段子集合中的被消费字段划分为多个类别;对于所述消费字段子集合中的至少部分被消费字段,按照所述至少部分被消费字段分别所属的所述类别,为对应的被消费字段配置对应于所述类别的字段级布防规则,以控制所述数据表的数据质量。5.如权利要求4所述的方法,所述多个类别包括以下至少一种:枚举字段类别、字符串字段类别、数值字段类别。6.如权利要求5所述的方法,所述枚举字段类别对应的字段级布防规则包括以下至少一种:非空校验规则、枚举范围校验规则、稳定性校验规则;和/或,所述字符串字段类别对应的字段级布防规则包括以下至少一种:非空校验规则、空值率校验规则、正则校验规则、其他自定义校验规则;和/或,所述数值字段类别对应的字段级布防规则包括以下至少一种:非空校验规则、数值范围校验规则、数值波动校验规则。7.如权利要求1所述的方法,所述判断所述字段集合中的字段是否被消费,具体包括:通过离线字段血缘和/或在线追踪链路,判断所述字段集合中的字段是否被消费。8.如权利要求7所述的方法,所述通过离线字段血缘和在线追踪链路,判断所述字段集合中的字段是否被消费,具体包括:判断所述数据表是否为回流表;若是,则通过在线追踪链路,判断所述字段集合中的字段是否被消费;否则,若所述数据表未作为报表使用,则通过离线字段血缘判断所述字段集合中的字段是否被消费,而若所述数据表作为报表使用,则通过在线追踪链路,判断所述字段集合中的字段是否被消费。9.如权利要求1所述的方法,所述根据所述被消费字段子集合中的被消费字段是否已配置了字段级布防规则,控制所述数据表的数据质量,具体包括:针对不同的字段级布防规则,分别确定所述字段级布防规则在所述被消费字段子集合中的配置覆盖率,作为第一局部覆盖率;根据所述第一局部覆盖率,控制所述数据表的数据质量。10.如权利要求9所述的方法,所述第一局部覆盖率是在所述字段级布防规则所属的字
段类别范围内确定的;所述根据所述第一局部覆盖率,控制所述数据表的数据质量,具体包括:对于单个所述字段类别对应的多个不同的字段级布防规则,根据为各所述字段级布防规则分别确定的所述第一局部覆盖率,确定所述单个所述字段类别整体对应的配置覆盖率,作为第二局部覆盖率;根据为多个不同的字段类别分别确定的所述第二局部覆盖率,确定所述字段集合整体对应的配置覆盖率,作为全局覆盖率;根据所述全局覆盖率,控制所述数据表的数据质量。11.如权利要求9或10所述的方法,所述控制所述数据表的数据质量,具体包括:展示所确定的至少一种配置覆盖率;响应于针对所述字段集合中的字段的规则配置操作,为所述字段配置字段级布防规则,以提高所述配置覆盖率。12.一种数据质量控制装置,包括:字段集合确定模块,确定数据表中的字段集合;消费字段确定模块,通过判断所述字段集合中的字段是否被消费,生成被消...
【专利技术属性】
技术研发人员:周源,吴云广,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。