数据质量检查方法及装置制造方法及图纸

技术编号:27618206 阅读:25 留言:0更新日期:2021-03-10 10:53
本发明专利技术提供的数据质量检查方法及装置,具体可用于信息安全技术领域,在各上游数据系统的待下传数据派发至各下游业务系统的过程中,对所述过程的各个阶段执行对应的第一检查操作;然后对通过所述第一检查操作并已对应派发至各下游业务系统的数据按照对应的数据质量检查规则执行第二检查操作,进而,建立数据质量检查多重防线,同时以数据湖作为分界线采取事前、事中、事后的数据质量控制方法,可以很好提升数据湖数据质量,提升全行业务系统的数据质量,减少后续数据使用导致的问题,同时在不同阶段结合数据阶段本身的特性执行不同的检查工作,准确性高,可以有效减小后续校验加工结果的工作量。结果的工作量。结果的工作量。

【技术实现步骤摘要】
数据质量检查方法及装置


[0001]本专利技术涉及计算机领域,具体涉及数据质量检查方法及装置。

技术介绍

[0002]金融业是典型的数据种类繁多、数据量巨大、专业性强的行业。以一个中型银行为例,按业务或者功能划分,其内部应用系统一般有数百个之多,每一个应用系统的数据也是海量的。同时各个应用系统各自为政,各系统的数据难以流通及共享,存在数据信息孤岛的问题。目前大型商业银行都进行各业务系统数据入湖的方式,所有业务系统数据都全部进入一个统一的数据湖中,解决数据共享及数据信息孤岛的问题。但往往各业务系统数据质量参差不齐,数据类型千差万别,数据入湖后,存在数据质量不高,导致后续应用系统使用数据湖数据进行数据加工时,加工出来的数据结果不准确等问题,但是现有技术无法找到数据结果不准确的原因所在,因此只能在结果端以校验的形式检查加工完成的数据结果,这样处理无疑增大了后期校验的工作以及数据湖的负担。

技术实现思路

[0003]针对现有技术中的问题,本专利技术提供一种数据质量检查方法及装置。
[0004]本专利技术第一方面提供一种数据质量检查方法,包括:
[0005]在各上游数据系统的待下传数据派发至各下游业务系统的过程中,对所述过程的各个阶段执行对应的第一检查操作;所述各个阶段基于所述上游数据系统和所述下游业务系统之间的中间数据湖划分;
[0006]对通过所述第一检查操作并已对应派发至各下游业务系统的数据按照对应的数据质量检查规则执行第二检查操作。
[0007]在优选的实施例中,还包括:
[0008]对所述中间数据湖的接口文件和各上游数据系统的内部数据库存储数据表进行一致性校验。
[0009]在优选的实施例中,在各上游数据系统的待下传数据传输至中间数据湖之前,所述数据质量检查方法,还包括:
[0010]校验所述待下传数据的数据文件贴源加载的一致性。
[0011]在优选的实施例中,所述各个阶段包括:传入所述中间数据湖之前;
[0012]在传入所述中间数据湖之前执行对应的第一检查操作,包括:
[0013]对通过贴源加载校验后的元数据信息和待下传数据的数据文件进行对比,确定不符合的检查项;所述检查项包括文件记录长度、字段数、分隔符、换行符以及字段长度。
[0014]在优选的实施例中,所述各个阶段包括:传入所述中间数据湖的传入过程中;
[0015]在传入所述中间数据湖的传入过程中执行对应的第一检查操作,包括:
[0016]对所述中间数据湖中记载数据文件后更新的数据表进行增量记录数检查、增量记录数波动率的检查、首存记录数检查、存量记录数检查以及主键字段检查。
[0017]在优选的实施例中,所述各个阶段包括:传入所述中间数据湖之后并且在派发至各下游业务系统之前;
[0018]在传入所述中间数据湖之后并且在派发至各下游业务系统之前执行对应的第一检查操作,包括:
[0019]对传入所述中间数据湖之后的数据进行非空字段检查和一致性检查;
[0020]对在数据湖中共享的关键指标数据进行波动检查。
[0021]在优选的实施例中,所述对传入所述中间数据湖之后的数据进行一致性检查,包括:
[0022]对传入所述中间数据湖之后的数据进行账务类总分核对、明细与分户账核对、同种业务不同数据表记录数核对。
[0023]在优选的实施例中,还包括:
[0024]根据所述数据质量检查规则对所述中间数据湖以及所述下游业务系统的影响程度,对所述第二检查操作的检查结果进行分级,其中每个级别对应一种处理方式。
[0025]本专利技术第二方面提供一种数据质量检查装置,包括:
[0026]第一数据检查模块,在各上游数据系统的待下传数据派发至各下游业务系统的过程中,对所述过程的各个阶段执行对应的第一检查操作;所述各个阶段基于所述上游数据系统和所述下游业务系统之间的中间数据湖划分;
[0027]第二数据检查模块,对通过所述第一检查操作并已对应派发至各下游业务系统的数据按照对应的数据质量检查规则执行第二检查操作。
[0028]在优选的实施例中,还包括:
[0029]一致性校验模块,对所述中间数据湖的接口文件和各上游数据系统的内部数据库存储数据表进行一致性校验。
[0030]在优选的实施例中,还包括:
[0031]贴源加载校验模块,校验所述待下传数据的数据文件贴源加载的一致性。
[0032]在优选的实施例中,所述各个阶段包括:传入所述中间数据湖之前;
[0033]第一数据检查模块具体用于对通过贴源加载校验后的元数据信息和待下传数据的数据文件进行对比,确定不符合的检查项;所述检查项包括文件记录长度、字段数、分隔符、换行符以及字段长度。
[0034]在优选的实施例中,所述各个阶段包括:传入所述中间数据湖的传入过程中;
[0035]所述第一数据检查模块具体用于对所述中间数据湖中记载数据文件后更新的数据表进行增量记录数检查、增量记录数波动率的检查、首存记录数检查、存量记录数检查以及主键字段检查。
[0036]在优选的实施例中,所述各个阶段包括:传入所述中间数据湖之后并且在派发至各下游业务系统之前;
[0037]所述第一数据检查模块包括:
[0038]第一检查单元,对传入所述中间数据湖之后的数据进行非空字段检查和一致性检查;以及
[0039]第二检查单元,对在数据湖中共享的关键指标数据进行波动检查。
[0040]在优选的实施例中,所述第一检查单元具体用于对传入所述中间数据湖之后的数
据进行账务类总分核对、明细与分户账核对、同种业务不同数据表记录数核对。
[0041]在优选的实施例中,还包括:
[0042]分级模块,根据所述数据质量检查规则对所述中间数据湖以及所述下游业务系统的影响程度,对所述第二检查操作的检查结果进行分级,其中每个级别对应一种处理方式。
[0043]本专利技术的又一个方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的数据质量检查方法。
[0044]本专利技术的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现数据质量检查方法。
[0045]由上述技术方案可知,本专利技术提供的数据质量检查方法及装置,在各上游数据系统的待下传数据派发至各下游业务系统的过程中,对所述过程的各个阶段执行对应的第一检查操作;然后对通过所述第一检查操作并已对应派发至各下游业务系统的数据按照对应的数据质量检查规则执行第二检查操作,在本专利技术中所述各个阶段基于所述上游数据系统和所述下游业务系统之间的中间数据湖划分,进而,建立数据质量检查多重防线,同时以数据湖作为分界线采取事前、事中、事后的数据质量控制方法,可以很好提升数据湖数据质量,提升全行业务系统的数据质量,减少后续数据使用导致的问题,同时在不同阶段结合数据阶本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量检查方法,其特征在于,包括:在各上游数据系统的待下传数据派发至各下游业务系统的过程中,对所述过程的各个阶段执行对应的第一检查操作;所述各个阶段基于所述上游数据系统和所述下游业务系统之间的中间数据湖划分;对通过所述第一检查操作并已对应派发至各下游业务系统的数据按照对应的数据质量检查规则执行第二检查操作。2.根据权利要求1所述的数据质量检查方法,其特征在于,还包括:对所述中间数据湖的接口文件和各上游数据系统的内部数据库存储数据表进行一致性校验。3.根据权利要求1所述的数据质量检查方法,其特征在于,在各上游数据系统的待下传数据传输至中间数据湖之前,所述数据质量检查方法,还包括:校验所述待下传数据的数据文件贴源加载的一致性。4.根据权利要求3所述的数据质量检查方法,其特征在于,所述各个阶段包括:传入所述中间数据湖之前;在传入所述中间数据湖之前执行对应的第一检查操作,包括:对通过贴源加载校验后的元数据信息和待下传数据的数据文件进行对比,确定不符合的检查项;所述检查项包括文件记录长度、字段数、分隔符、换行符以及字段长度。5.根据权利要求1所述的数据质量检查方法,其特征在于,所述各个阶段包括:传入所述中间数据湖的传入过程中;在传入所述中间数据湖的传入过程中执行对应的第一检查操作,包括:对所述中间数据湖中记载数据文件后更新的数据表进行增量记录数检查、增量记录数波动率的检查、首存记录数检查、存量记录数检查以及主键字段检查。6.根据权利要求1所述的数据质量检查方法,其特征在于,所述各个阶段包括:传入所述中间数据湖之后并且在派发至各下游业务系统之前;在传入所述中间数据湖之后并且在派发至各下游业务系统之前执行对应的第一检查操作,包括:对传入所述中间数据湖之后的数据进行非空字段检查和一致性检查;对在数据湖中共享的关键指标数据进行波动检查。7.根据权利要求6所述的数据质量检查方法,其特征在于,所述对传入所述中间数据湖之后的数据进行一致性检查,包括:对传入所述中间数据湖之后的数据进行账务类总分核对、明细与分户账核对、同种业务不同数据表记录数核对。8.根据权利要求1所述的数据质量检查方法,其特征在于,还包括:根据所述数据质量检查规则对所述中间数据湖以及所述下游业务系统的影响程度,对所述第二检查操作的检查结果进行分级,其中每个级别对应一种处理方式。9.一种数据质量检查装置,其特征在于,包括:第一数据检查模块,在各上游数据系统的待下传数据派发至各下游业务系统的过程中,...

【专利技术属性】
技术研发人员:邓洪文镇超卞小香吴多
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1