数据差异对比方法、装置、计算机设备和计算机程序产品制造方法及图纸

技术编号:32823611 阅读:8 留言:0更新日期:2022-03-26 20:22
本申请涉及一种数据差异对比方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取源数据和目标数据;对源数据与目标数据的各条流水数据分别进行数据统计,获取源数据的第一多维数据直方图与目标数据的第二多维数据直方图,第一多维数据直方图与第二多维数据直方图的第一坐标为哈希值,第二坐标为分别对源数据与目标数据的各条流水数据分别计算得到的哈希值出现的次数;对比第一多维数据直方图和第二多维数据直方图的一致性,将第一多维数据直方图和第二多维数据直方图的一致性比较结果,作为源数据和目标数据的一致性比较结果。采用本方法大大降低了数据差异对比的工作量,从而减少了数据差异对比的对比时间。时间。时间。

【技术实现步骤摘要】
数据差异对比方法、装置、计算机设备和计算机程序产品


[0001]本申请涉及大数据数据分析
,特别是涉及一种数据差异对比方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]在日常的互联网数据管理中,时常会出现需要对多个不同信息系统产生的流水数据进行差异性比对的情况,进行差异性比对的主要目的是确定两方的数据是否完全一致,其对比结果的准确性尤为重要。
[0003]传统技术中,常用的数据差异比对方法为遍历法,即通过确定每方流水数据中的主键,对主键对应的全部信息进行对比,确定主键信息是否完全一致,从而判断每方流水数据是否存在差异,使用此方法对数据进行对比,需要基于基准数据对自身数据进行逐笔遍历。
[0004]随着互联网、移动互联网的发展,流水数据的不断剧增成为了大数据时代的显著特征。使用传统方法对流水数据差异性进行比对,随着数据的逐渐增加,对数据进行对比的过程更加繁琐,每多增加一方需要对比的数据,对比的工作量就会大大增加,对比时间也呈翻倍增长。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够使得数据对比过程更加简便、快速的数据差异对比方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种数据差异对比方法。所述方法包括:
[0007]获取源数据和目标数据;
[0008]对所述源数据的各条流水数据进行数据统计,获取所述源数据的第一多维数据直方图,所述第一多维数据直方图的第一坐标为哈希值,第二坐标为对所述源数据的各条流水数据分别计算得到的哈希值出现的次数;
[0009]对所述目标数据的各条流水数据进行数据统计,获得所述目标数据的第二多维数据直方图,所述第二多维数据直方图的第一坐标为哈希值,第二坐标为对所述目标数据的各条流水数据分别计算得到的哈希值出现的次数;
[0010]对比所述第一多维数据直方图和所述第二多维数据直方图的一致性,将所述第一多维数据直方图和所述第二多维数据直方图的一致性比较结果,作为所述源数据和所述目标数据的一致性比较结果。
[0011]在其中一个实施例中,所述对所述源数据的各条流水数据进行数据统计,获取所述源数据的第一多维数据直方图,包括:获取所述源数据中的各条流水数据的哈希值;对所述源数据中的各条流水数据的哈希值进行统计,生成所述第一多维数据直方图;
[0012]所述对所述目标数据的各条流水数据进行数据统计,获取所述目标数据的第二多维数据直方图,包括:获取所述目标数据中的各条流水数据的哈希值;对所述目标数据中的
各条流水数据的哈希值进行统计,生成所述第二多维数据直方图。
[0013]在其中一个实施例中,所述获取所述源数据中的各条流水数据的哈希值包括:对所述源数据的各条流水数据分别进行哈希计算,得到所述源数据的各条流水数据的哈希值;
[0014]所述获取所述目标数据中的各条流水数据的哈希值包括:对所述目标数据的各条流水数据分别进行哈希计算,得到所述目标数据的各条流水数据的哈希值。
[0015]在其中一个实施例中,所述对所述源数据的各流水数据分别进行哈希计算,得到所述源数据的各条流水数据的哈希值,包括:提取所述源数据的各条流水数据中的指定字段的数据内容;对所述源数据的各条流水数据中的指定字段的数据内容进行哈希计算,得到所述源数据的各条流水数据的哈希值;
[0016]所述对所述目标数据的各流水数据分别进行哈希计算,得到所述目标数据的各条流水数据的哈希值,包括:提取所述目标数据的各条流水数据中的指定字段的数据内容;对所述目标数据的各条流水数据中的指定字段的数据内容进行哈希计算,得到所述目标数据的各条流水数据的哈希值。
[0017]在其中一个实施例中,所述对所述源数据的各流水数据分别进行哈希计算,得到所述源数据的各条流水数据的哈希值,还包括:对所述源数据的各条流水数据进行数据切分,获得数据分块,各数据分块包含的流水数据不同;分别对各所述数据分块包含的流水数据进行哈希计算,得到所述源数据的各条流水数据的哈希值;
[0018]所述对所述目标数据的各流水数据分别进行哈希计算,得到所述目标数据的各条流水数据的哈希值,还包括:对所述目标数据的各条流水数据进行数据切分,获得数据分块,各数据分块包含的流水数据不同;分别对各所述数据分块包含的流水数据进行哈希计算,得到所述目标数据的各条流水数据的哈希值。
[0019]在其中一个实施例中,所述获取所述源数据中的各条流水数据中的哈希值,包括:查找所述源数据中的各条流水数据中的哈希值,所述流水数据中记录有所述源数据的各条流水数据的哈希值,或者存储有所述源数据的各条流水数据与流水数据的哈希值的对应关系;
[0020]所述获取所述目标数据中的各条流水数据中的哈希值,包括:查找所述目标数据中的各条流水数据中的哈希值,所述流水数据中记录有所述目标数据的各条所述流水数据的哈希值,或者存储有所述目标数据的各条流水数据与流水数据的哈希值的对应关系。
[0021]在其中一个实施例中,所述第一多维数据直方图的第二坐标,包括采用至少两个哈希函数对所述源数据的各条流水数据分别计算得到的各所述哈希函数对应的哈希值的出现次数;
[0022]所述第二多维数据直方图的第二坐标,包括采用至少两个哈希函数对所述目标数据的各条流水数据分别计算得到的各所述哈希函数对应的哈希值的出现次数;
[0023]所述第一多维数据直方图、所述第二多维数据直方图还包括第三坐标,所述第一多维数据直方图的第三坐标为生成所述源数据的各条流水数据的哈希值对应的哈希函数类型;所述第二多维数据直方图的第三坐标为生成所述目标数据的各条流水数据的哈希值对应的哈希函数类型。
[0024]在其中一个实施例中,所述方法还包括:
[0025]若所述一致性比较结果为不一致,确定所述第一多维数据直方图和所述第二多维数据直方图的差异直方图,并根据所述差异直方图确定存在差异的差异哈希值;
[0026]根据所述哈希值,在所述源数据中定位到对应的流水数据。
[0027]第二方面,本申请还提供了一种数据差异对比装置。所述装置包括:
[0028]数据获取模块,用于获取源数据和目标数据;
[0029]源数据统计分析模块,用于对所述源数据的各条流水数据进行数据统计,获取所述源数据的第一多维数据直方图,所述第一多维数据直方图的第一坐标为哈希值,第二坐标为对所述源数据的各条流水数据分别计算得到的哈希值出现的次数;
[0030]目标数据统计分析模块,用于对所述目标数据的各条流水数据进行数据统计,获得所述目标数据的第二多维数据直方图,所述第二多维数据直方图的第一坐标为哈希值,第二坐标为对所述目标数据的各条流水数据分别计算得到的哈希值出现的次数;
[0031]比较结果获取模块,用于对比所述第一多维数据直方图和所述第二多维数据直方图的一致性,将所述第一多维数据直方图和所述第二多维数据直方图的一致本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据差异对比方法,其特征在于,所述方法包括:获取源数据和目标数据;对所述源数据的各条流水数据进行数据统计,获取所述源数据的第一多维数据直方图,所述第一多维数据直方图的第一坐标为哈希值,第二坐标为对所述源数据的各条流水数据分别计算得到的哈希值出现的次数;对所述目标数据的各条流水数据进行数据统计,获得所述目标数据的第二多维数据直方图,所述第二多维数据直方图的第一坐标为哈希值,第二坐标为对所述目标数据的各条流水数据分别计算得到的哈希值出现的次数;对比所述第一多维数据直方图和所述第二多维数据直方图的一致性,将所述第一多维数据直方图和所述第二多维数据直方图的一致性比较结果,作为所述源数据和所述目标数据的一致性比较结果。2.根据权利要求1所述的方法,其特征在于:所述对所述源数据的各条流水数据进行数据统计,获取所述源数据的第一多维数据直方图,包括:获取所述源数据中的各条流水数据的哈希值;对所述源数据中的各条流水数据的哈希值进行统计,生成所述第一多维数据直方图;所述对所述目标数据的各条流水数据进行数据统计,获取所述目标数据的第二多维数据直方图,包括:获取所述目标数据中的各条流水数据的哈希值;对所述目标数据中的各条流水数据的哈希值进行统计,生成所述第二多维数据直方图。3.根据权利要求2所述的方法,其特征在于:所述获取所述源数据中的各条流水数据的哈希值包括:对所述源数据的各条流水数据分别进行哈希计算,得到所述源数据的各条流水数据的哈希值;所述获取所述目标数据中的各条流水数据的哈希值包括:对所述目标数据的各条流水数据分别进行哈希计算,得到所述目标数据的各条流水数据的哈希值。4.根据权利要求3所述的方法,其特征在于:所述对所述源数据的各流水数据分别进行哈希计算,得到所述源数据的各条流水数据的哈希值,包括:提取所述源数据的各条流水数据中的指定字段的数据内容;对所述源数据的各条流水数据中的指定字段的数据内容进行哈希计算,得到所述源数据的各条流水数据的哈希值;所述对所述目标数据的各流水数据分别进行哈希计算,得到所述目标数据的各条流水数据的哈希值,包括:提取所述目标数据的各条流水数据中的指定字段的数据内容;对所述目标数据的各条流水数据中的指定字段的数据内容进行哈希计算,得到所述目标数据的各条流水数据的哈希值。5.根据权利要求3所述的方法,其特征在于:所述对所述源数据的各流水数据分别进行哈希计算,得到所述源数据的各条流水数据的哈希值,还包括:对所述源数据的各条流水数据进行数据切分,获得数据分块,各数据分块包含的流水数据不同;分别对各所述数据分块包含的流水数据进行哈希计算,得到所述源数据的各条流水数据的哈希值;所述对所述目标数据的各流水数据分别进行哈希计算,得到所述目标数据的各条流水数据的哈希值,还包括:对所述目标数据的各条流水数据进行数据切分,获得数据分块,各
数据分块包含的流水数据不同;分别对各所述数据分块包含的流水数据进行哈希计算,得到所述目标数据的各条流水数据的哈希值。6.根据权利要求2所述的方法,其特征在于:所述获取所述源数据中的各条流水数据中的哈希值,包括:查找所述源数据中的各条流水数据中的哈希值,所述流水数据中记录有所述源数据的各条流水数据的哈希值,或者存储有所述源数据的各条流水数据与流水数据的哈希值的对应关系;所述获取所述目标数据中的各条流水数据中的哈希值,包括:查找所述目标数据中的各条流水数据中的哈希值,所述流水数据中记录有所述目标数据的各条所述流水数据的哈希值,或者存储有所述目标数据的各条流水数据与流水数据的哈希值的对应关系。7.根据权利要求1所述的方法,其特征在于:所述第一多维数据直方图的第二坐标,包括采用至少两个哈希函数对所述源数据的各条流水数据分别计算得到的各所述哈希函数对应的哈希值的出现次数;所述第二多维数据直方图的第二坐标,包括采用至少两个哈希函数对所述目标数据的各条流水数据分别计算得到的各所述哈希函数对应的哈希值的出现次数;所述第一多维数据直方图、所述第二多维数据直方图还包括第三坐标,所述第一多维数据直方图的第三坐标为生成所述源数据的各条流水数据的哈希值对应的哈希函数类型;所述第二多维数据直方图的第三坐标为生成所述目标数据的各条流水数据的哈希值对应的哈希函数类型。8.根据权利要求6所述的方法,其特征在于,所述方法还包括:若所述一致性比较结果为不一致,确定所述第一多维数据直方图和所述第二多维数据直方图的差异直方图,并根据所述差异直方图确定存在差异的差异哈希值;根据所述哈希值,在所述源数据中定位到对应的流水数据。9.一种数据差异对比装置,其特征在于,所述装置包括:数据获取模块,用于获取源数据和目标数据;源数据统计分析模块,用于对所述源数据的各条流水数据进行数据统计...

【专利技术属性】
技术研发人员:邱文超罗恕人揭育柱梁艳姬李观钊付小丽尹智蒙龙达
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1