一种数仓表中的数据检测方法、电子设备及存储介质技术

技术编号:37150286 阅读:15 留言:0更新日期:2023-04-06 22:05
本申请公开了一种数仓表中的数据检测方法、电子设备及存储介质,本申请实施例获取待测数仓表的待测列及波动范围差阈值;以基准数仓表中的每一行数据作为比较基准,以所述待测数据仓表中的行作为单位,对所述待测数仓表的每一行中的数据进行对比,标记所述待测数仓表中的差异行,所述差异行中的数据与所述基准仓表中的行数据不相同;根据所述待测列对所述差异行进行索引,得到所述差异行中的待测列数据,与所述基准数仓表中的对应列数据进行对比,将超过所述波动范围差阈值的待测列数据所属的待测列标记为差异列;根据所述待测数仓表中的同时被标记为差异行和被标记为差异列的差异数据,获得检测结果。这样,本申请实施例提高数仓表的检测效率及检测正确率。高数仓表的检测效率及检测正确率。高数仓表的检测效率及检测正确率。

【技术实现步骤摘要】
一种数仓表中的数据检测方法、电子设备及存储介质


[0001]本申请涉及计算机数据库的处理
,特别涉及一种数仓表中的数据检测方法、电子设备及存储介质。

技术介绍

[0002]随着计算机网络的发展,各种类型业务的提供者可以依托计算机网络平台设置对应的业务系统,为客户提供不同类型的业务。在业务系统为客户提供业务过程中需要收集海量的数据,通过数仓来管理。数仓,即数据仓库,是一个面向主题,集成的,相对稳定的即反映历史变化的数据集合,用于支持业务系统的管理决策。在采用数仓管理某一业务系统的海量数据时,是将在提供业务过程中收集的海量数据填入到设置的各种类型数仓表中,供查询及提取使用。
[0003]业务系统涉及的数据为大数据,大数据具有规模性、高速性、和数据来源及形式上的多样性特点,所以在经过数据收集、生产及加工等的环节形成数仓表的过程中,会出现数据的诸如一致性及准确性等的质量问题。在这种情况下,需要对数仓表进行人工核对,从中检测得到有质量问题的数据。但是,人工核对数仓表在数据质效上很不理想,通过技术方式对数仓表进行检测变得尤为重要。
[0004]目前,在进行数仓表的检测时,可以设置数仓表检测策略后在业务系统中运行,该数仓表检测策略基于诸如结构化查询语言(SQL)或Python的扩展程序库(Pandas)等设置,将待测的数仓表与对应的基准数仓表进行一一比对,确定要检测的数仓表中的有质量问题的数据和检测正确的数据。但是,由于待测的数仓表的数量巨大且需要将表中的逐行数据进行一一比对,且在业务系统中运行数仓表检测策略时会占用资源,导致了检测数仓表的效率低下且检测错误率高的问题。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种数仓表中的数据检测方法,该方法能够提高数仓表的检测效率及检测正确率。
[0006]本专利技术实施例还提供一种数仓表中的数据检测系统,该系统能够提高数仓表的检测效率及检测正确率。
[0007]本申请实施例是这样实现的:
[0008]本申请的一个实施例中,提供一种数仓表中的数据检测方法,所述方法包括:
[0009]获取待测数仓表的待测列及波动范围差阈值;
[0010]以基准数仓表中的每一行数据作为比较基准,以所述待测数据仓表中的行作为单位,对所述待测数仓表的每一行中的数据进行对比,标记所述待测数仓表中的差异行,所述差异行中的数据与所述基准仓表中的行数据不相同;
[0011]根据所述待测列对所述差异行进行索引,得到所述差异行中的待测列数据,与所述基准数仓表中的对应列数据进行对比,将超过所述波动范围差阈值的待测列数据所属的
待测列标记为差异列;
[0012]根据所述待测数仓表中的同时被标记为差异行和被标记为差异列的差异数据,获得检测结果。
[0013]在上述方法中,所述获取待测数仓表的待测列及波动范围差阈值包括:
[0014]从客户端接收待测数仓表的待测列及波动范围差阈值,所述待测数仓表的待测列及波动范围差阈值为所述客户端通过设置的用户界面框架子系统,设置的。
[0015]在上述方法中,所述根据所述待测列对所述差异行进行索引,得到所述差异行中的待测列数据,与所述基准数仓表中的对应列数据进行对比包括:
[0016]按照所述待测数仓表的不同列,对索引得到的所述差异行中的待测列数据进行分组,得到至少一组待测列数据;
[0017]对每组待测列数据,采用设置的双层逻辑策略,与所述基准数仓表中对应的列数据进行对比,判断是否超过所述波动范围差阈值,将超过所述波动范围差阈值的待测列数据所属的待测列标记为差异列;
[0018]其中,所述双层逻辑判断为:针对每一待测列数据,先判断其位数是否在设置的位数值范围内,如果是,再进行对比,判断是否超过所述波动范围差阈值。
[0019]在上述方法中,所述获得检测结果包括:
[0020]所述差异数据,或/和所述差异数据所在的修改行标记。
[0021]在上述方法中,所述获得检测结果包括:
[0022]将所述待测数仓表中的同时被标记为差异行和被标记为差异列的差异数据,进行汇总或/和分析,获得检测结果;
[0023]其中,在所述分析之前,还包括:
[0024]对所述差异数据基于设置的数据构架进行预处理。
[0025]在上述方法中,所述获得检测结果包括:
[0026]所述待测数仓表的列差值分布信息;
[0027]所述进行分析包括:
[0028]根据所述差异数据,在所设置的列差值范围内,按照所在所述待测数仓表中的列,进行列差值分布计算,得到所述待测数仓表的列差值分布信息。
[0029]在上述方法中,所述获得检测结果包括:所述待测数仓表中的数据空值率;
[0030]所述进行分析包括:
[0031]根据所述差异数据,确定具有空值的所述差异数据数量,进行所述待测数仓表的数据空值率计算,得到所述待测数仓表中的数据空值率。
[0032]在上述方法中,所述获得检测结果后,还包括:
[0033]将所述检测结果输出给客户端,以使客户端对所述检测结果进行可视化显示。
[0034]本申请的另一实施例中提供一种电子设备,其特征在于,包括:
[0035]处理器;
[0036]存储器,存储有程序,所述程序配置为在被所述处理器执行时实现上述任一项所述的数仓表中的数据检测的方法。
[0037]本申请的再一实施例中提供一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行上述任一项所述
的数仓表中的数据检测的方法。
[0038]如上所见,本申请实施例获取待测数仓表的待测列及波动范围差阈值;以基准数仓表中的每一行数据作为比较基准,以所述待测数据仓表中的行作为单位,对所述待测数仓表的每一行中的数据进行对比,标记所述待测数仓表中的差异行,所述差异行中的数据与所述基准仓表中的行数据不相同;根据所述待测列对所述差异行进行索引,得到所述差异行中的待测列数据,与所述基准数仓表中的对应列数据进行对比,将超过所述波动范围差阈值的待测列数据所属的待测列标记为差异列;根据所述待测数仓表中的同时被标记为差异行和被标记为差异列的差异数据,获得检测结果。这样,本申请实施例在比对待测数仓表过程中,采用基于设置的待测列直接筛选的方式,对待测数仓表中的待测数据进行一次筛选,减少比对待测数据量,从而提高数仓表的检测效率及检测正确率。
附图说明
[0039]图1为将待测数仓表与基准数仓表进行逐行数据的对比过程示意图;
[0040]图2为本申请实施例提供的一种数仓表中的数据检测方法流程图;
[0041]图3为本申请实施例提供的在客户端中的数仓表检测系统结构示意图;
[0042]图4为本申请实施例提供的采用两种方式对数仓表进行检测的过程示意图;
[0043]图5为本申请实施例提供的对待测数仓表的比对结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数仓表中的数据检测方法,其特征在于,所述方法包括:获取待测数仓表的待测列及波动范围差阈值;以基准数仓表中的每一行数据作为比较基准,以所述待测数据仓表中的行作为单位,对所述待测数仓表的每一行中的数据进行对比,标记所述待测数仓表中的差异行,所述差异行中的数据与所述基准仓表中的行数据不相同;根据所述待测列对所述差异行进行索引,得到所述差异行中的待测列数据,与所述基准数仓表中的对应列数据进行对比,将超过所述波动范围差阈值的待测列数据所属的待测列标记为差异列;根据所述待测数仓表中的同时被标记为差异行和被标记为差异列的差异数据,获得检测结果。2.如权利要求1所述的方法,其特征在于,所述获取待测数仓表的待测列及波动范围差阈值包括:从客户端接收待测数仓表的待测列及波动范围差阈值,所述待测数仓表的待测列及波动范围差阈值为所述客户端通过设置的用户界面框架子系统,设置的。3.如权利要求1所述的方法,其特征在于,所述根据所述待测列对所述差异行进行索引,得到所述差异行中的待测列数据,与所述基准数仓表中的对应列数据进行对比包括:按照所述待测数仓表的不同列,对索引得到的所述差异行中的待测列数据进行分组,得到至少一组待测列数据;对每组待测列数据,采用设置的双层逻辑策略,与所述基准数仓表中对应的列数据进行对比,判断是否超过所述波动范围差阈值,将超过所述波动范围差阈值的待测列数据所属的待测列标记为差异列;其中,所述双层逻辑判断为:针对每一待测列数据,先判断其位数是否在设置的位数值范围内,如果是,再进行对比,判断是否超过所述波动范围差阈值。4...

【专利技术属性】
技术研发人员:原玉娇李丹吕思奇裴丽艳
申请(专利权)人:贝壳找房北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1