一种数据比对方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33392909 阅读:18 留言:0更新日期:2022-05-11 23:11
本申请实施例提供一种数据比对方法、装置、电子设备和存储介质,方法包括:将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表;基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括多个字段对应的比对配置信息;基于第一比对配置信息集合,生成第一数据比对任务;基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。通过本申请实施例提供的一种数据比对方法,可以批量生成比对任务,从而提高比对效率,准确地更正数据错误。更正数据错误。更正数据错误。

【技术实现步骤摘要】
一种数据比对方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数据比对方法、装置、系统及存储介质。

技术介绍

[0002]随着大数据时代的到来,数据呈爆发式增长,越来越多的业务需要借助大数据能力进行数据分析,其中包括对数据的比对。无论是数据仓库任务上线前的测试环节中,数据的迁移过程中,还是数据仓库优化的场景下,都需要将数据之间进行比对。
[0003]现有的数据比对方法,无法将不同系统下的数据直接比对;并且,在大批量的数据需要比对的时候,都是逐个根据不同的表及字段,分别写对应的比对任务,再执行比对任务将差异结果存储到对应表中,这种方法需要逐个开发比对任务,不仅效率低,而且错误率高,针对特定的字段、特定的比对规则缺少快速有效的方法。

技术实现思路

[0004]针对现有技术存在的缺陷,本公开实施例提供一种数据比对方法、装置、系统及存储介质,可以批量生成比对任务,从而提高比对效率,准确地更正数据错误。
[0005]本申请实施例提供一种数据比对方法,应用于数据仓库平台,方法包括:将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表;其中,第二迁移数据表由第一迁移数据表迁移得到,第一迁移数据表和第二迁移数据表存储在不同的数据库中;基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括多个字段对应的比对配置信息;基于第一比对配置信息集合,生成第一数据比对任务;基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。
[0006]具体地,第一同步数据表的信息包括第一同步数据表中的字段的信息。基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合,包括:若第一同步数据表中的字段存在于预设比对数据库中,则确定字段为比对字段;基于比对字段,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括每个比对字段对应的比对配置信息。
[0007]具体地,数据仓库平台为基于Hadoop的Hive平台。
[0008]具体地,在基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果之后,方法包括:若第一数据比对结果包括比对不一致信息,则重启数据仓库的同步链路;将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第三同步数据表和第四同步数据表;基于第三同步数据表的信息,从预设比对数据库中获取第二比对配置信息集合;基于第二比对配置信息集合,生成第二数据比对任务;基于第二数据比对任务,对第三同步数据表和第四同步数据表进行比对,得到第二数据比对结果。
[0009]具体地,在基于第二数据比对任务,对第三同步数据表和第四同步数据表进行比
对,得到第二数据比对结果之后,方法还包括:若第二数据比对结果包括比对不一致信息,基于第二数据比对结果,生成数据表补丁;发送数据更新请求至第二迁移数据表对应的数据库,数据更新请求包括数据表补丁,数据更新请求用于指示数据库基于数据表补丁更新第二迁移数据表。
[0010]相应地,本申请实施例提供一种数据比对装置,装置包括:第一迁移模块,用于将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第一同步数据表和第二同步数据表;其中,第二迁移数据表由第一迁移数据表迁移得到,第一迁移数据表和第二迁移数据表存储在不同的数据库中;第一获取模块,用于基于第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括多个字段对应的比对配置信息;第一生成模块,用于基于第一比对配置信息集合,生成第一数据比对任务;第一比对模块,用于基于第一数据比对任务对第一同步数据表和第二同步数据表进行比对,得到第一数据比对结果。
[0011]具体地,第一同步数据表的信息包括第一同步数据表中的字段的信息。第一获取模块还用于:若第一同步数据表中的字段存在于预设比对数据库中,则确定字段为比对字段;基于比对字段,从预设比对数据库中获取第一比对配置信息集合;第一比对配置信息集合包括每个比对字段对应的比对配置信息。
[0012]具体地,数据仓库平台为基于Hadoop的Hive平台。
[0013]具体地,装置还包括:重启模块,用于若第一数据比对结果包括比对不一致信息,则重启数据仓库的同步链路;第二迁移模块,用于将第一迁移数据表和第二迁移数据表同步至数据仓库平台,得到第三同步数据表和第四同步数据表;第二获取模块,用于基于第三同步数据表的信息,从预设比对数据库中获取第二比对配置信息集合;第二生成模块,用于基于第二比对配置信息集合,生成第二数据比对任务;第二比对模块,用于基于第二数据比对任务,对第三同步数据表和第四同步数据表进行比对,得到第二数据比对结果。
[0014]具体地,装置还包括:更新模块,用于若第二数据比对结果包括比对不一致信息,基于第二数据比对结果,生成数据表补丁;发送数据更新请求至第二迁移数据表对应的数据库,数据更新请求包括数据表补丁,数据更新请求用于指示数据库基于数据表补丁更新第二迁移数据表。
[0015]相应地,本公开实施例提供一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据比对方法。
[0016]相应地,本公开实施例提供一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据比对方法。
[0017]本申请实施例具有如下有益效果:
[0018](1)通过利用预设比对数据库,根据数据的不同字段自动化地生成不同的比对任务,从而无需单个开发比对任务,实现高效、自动化的数据比对;
[0019](2)在数据表迁移完毕后自动执行数据比对方法,对迁移前后的数据表进行比对和更正,可以保证迁移数据的准确性;
[0020](3)通过对主表和副表的关联字段进行比对,并基于比对不一致信息更新副表,可
以避免数据处理过程中由于主副表关联数据不一致导致的错误;
[0021](4)通过采用二次同步、二次比对,避免同步链路故障对比对结果造成的影响,从而提高比对以及校正数据的准确度。
附图说明
[0022]为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0023]图1是本申请实施例所提供的一种数据比对方法的应用场景示意图;
[0024]图2是本申请实施例所提供的一种数据比对方法的第一流程示意图;
[0025]图3是本申请实施例所提供的一种数据比对方法的第二流程示意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据比对方法,其特征在于,应用于数据仓库平台,所述方法包括:将第一迁移数据表和第二迁移数据表同步至所述数据仓库平台,得到第一同步数据表和第二同步数据表;其中,所述第二迁移数据表由所述第一迁移数据表迁移得到,所述第一迁移数据表和所述第二迁移数据表存储在不同的数据库中;基于所述第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合;所述第一比对配置信息集合包括多个字段对应的比对配置信息;基于所述第一比对配置信息集合,生成第一数据比对任务;基于所述第一数据比对任务对所述第一同步数据表和所述第二同步数据表进行比对,得到第一数据比对结果。2.根据权利要求1所述的数据比对方法,其特征在于,所述第一同步数据表的信息包括所述第一同步数据表中的字段的信息,所述基于所述第一同步数据表的信息,从预设比对数据库中获取第一比对配置信息集合,包括:若所述第一同步数据表中的字段存在于所述预设比对数据库中,则确定所述字段为比对字段;基于所述比对字段,从所述预设比对数据库中获取第一比对配置信息集合;所述第一比对配置信息集合包括每个所述比对字段对应的比对配置信息。3.根据权利要求1所述的数据比对方法,其特征在于,所述数据仓库平台为基于Hadoop的Hive平台。4.根据权利要求1所述的数据比对方法,其特征在于,在所述基于所述第一数据比对任务对所述第一同步数据表和所述第二同步数据表进行比对,得到第一数据比对结果之后,所述方法包括:若所述第一数据比对结果包括比对不一致信息,则重启所述数据仓库的同步链路;将所述第一迁移数据表和所述第二迁移数据表同步至所述数据仓库平台,得到第三同步数据表和第四同步数据表;基于所述第三同步数据表的信息,从所述预设比对数据库中获取第二比对配置信息集合;基于所述第二比对配置信息集合,生成第二数据比对任务;基于所述第二数据比对任务,对所述第三同步数据表和所述第四同步数据表进行比对,得到第二数据比对结果。5.根据权利要求4所述的数据比对方法,其特征在于,在所述基于所述第二数据比对任务,对所述第三同步数据表和所述第四同步数据表进行比对,得到第二数据比对结果之后,所述方法还包括:若所述第二数据比对结果包括所述比对不一致信息,基于所述第二数据比对结果,生成数据表补丁;发送数据更新请求至所述第二迁移数据表对应的数据库,所述数据更新请求包括所述数据表补丁,所述数据更新请求用于指示所述数据库基于所述数据表补丁更新所述第二迁移数据...

【专利技术属性】
技术研发人员:江建明甘红伟
申请(专利权)人:连连杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1