基于MPP数据库的自助式实时数据比对方法及系统技术方案

技术编号:37332078 阅读:25 留言:0更新日期:2023-04-21 23:09
本发明专利技术涉及数据处理技术领域,特别涉及一种基于MPP数据库的自助式实时数据比对方法及系统,通过构建用户比对需求中源数据和目标数据的比对参数,并将源数据和比对参数进行缓存,所述比对参数包含比对基准字段和比对信息项;将源数据加载至大规模并行处理架构MPP数据库,在大规模并行处理架构MPP数据库中利用比对参数来获取源数据和目标数据比对结果并输出。本发明专利技术利用分布式MPP数据库代替传统大数据数据库组件,在MPP数据库中能够大大提高数据比对处理速度,达到对业务大数据的近实时数据比对;让业务人员自助式无需任何代码或者SQL能力就可以通过操作Web交互界面页面快速得到待处理数据比对结果,大大降低技术门槛,便于实施应用。便于实施应用。便于实施应用。

【技术实现步骤摘要】
基于MPP数据库的自助式实时数据比对方法及系统


[0001]本专利技术涉及数据处理
,特别涉及一种基于MPP数据库的自助式实时数据比对方法及系统。

技术介绍

[0002]随着计算机技术的发展,不但互联网中的数据呈爆发式增长,如今,很多大型业务系统中的数据,同样也较以前产生了大幅增长。而且不单是数据量的增长,随着微服务架构的流行,在一个大型系统中,可能有众多数据源,并且这些数据源又可能由多个异构数据源,如一个系统中含有MySQL/PostgresSQL数据库、Excel文件等不同数据源来存储业务数据。在一些业务场景还有数据分析需求中,经常需要对这些系统中管理的数据进行数据比对,甚至需要接收业务外部的数据和系统中的数据进行碰撞。
[0003]目前,异构数据数据比对常用技术有:1、通过数据同步工具至大数据平台如HDFS,利用大数据仓库对SQL的支持,如Hive、SparkSQL,用SQL对数据进行比对计算,参加图2所示。由于大数据组件的特性,数据计算任务调度比较重和相对的耗时,如果需要比对的数据需要进行加工计算,一般需要调度离线任务进行预计算,时效性会打折。并且不会SQL的业务人员也无法使用。2、通过脚本方式将需要比对数据查询出来预载进内存进行比对计算,参见图3所示。这个方式的脚本可以是由技术人员编写一个Python+Pandas的脚本,也可以是利用可视化工具如Kettle生成的脚本,总之不能直接通过一条SQL实现比对,也无法直接由业务人员操作。对于新增的数据源和外部数据、不能复用已有脚本,导致脚本管理困难。这种常用处理方式需要每次查询比对目标的全部数据,然后再在脚本运行的单机内存中进行比对计算。当数据量较大时往往出现内存溢出导致比对失败。因此,亟需一种自助式准实时的数据比对方案来满足业务人员使用。

技术实现思路

[0004]为此,本专利技术提供一种基于MPP数据库的自助式实时数据比对方法及系统,能够解决外部数据与大数据碰撞比对时的时效性及用户比对数据技术门槛要求等问题,便于实施。
[0005]按照本专利技术所提供的设计方案,提供一种基于MPP数据库的自助式实时数据比对方法,包含:
[0006]构建用户比对需求中源数据和目标数据的比对参数,并将源数据和比对参数进行缓存,所述比对参数包含比对基准字段和比对信息项;
[0007]将源数据加载至大规模并行处理架构MPP数据库,在大规模并行处理架构MPP数据库中利用比对参数对源数据和目标数据进行比对并输出,其中,目标数据在变动数据捕获后通过数据加工过程被加载至大规模并行处理架构MPP数据库。
[0008]作为本专利技术基于MPP数据库的自助式实时数据比对方法,进一步地,构建用户比对需求中源数据和目标数据的比对参数,并将源数据和比对参数进行缓存,包含:
[0009]首先,依据用户在用户交互界面选择的字段和信息项来生成用于待比对源数据和目标数据比对的比对参数;
[0010]然后,将用户上传的源数据上传至对象存储组件服务中进行中转存储,并利用任务消息队列存储当前待比对任务的比对参数。
[0011]作为本专利技术基于MPP数据库的自助式实时数据比对方法,进一步地,将用户上传的源数据上传至对象存储组件服务中进行中转存储时,通过调用对象存储服务OSS接口将用户上传的源数据上传至对象存储组件服务,并获取对象存储组件服务中源数据的ID信息。
[0012]作为本专利技术基于MPP数据库的自助式实时数据比对方法,进一步地,将源数据加载至大规模并行处理架构MPP数据库,同时经过CDC实时处理加载入MPP数据库的目标数据,在大规模并行处理架构MPP数据库中利用比对参数来获取源数据和目标数据比对结果并输出,包含:
[0013]首先,业务数据经过CDC实时加工处理后加载至大规模并行处理架构MPP数据库中成为目标数据,待比对任务随时使用,这一动作无论是否有比对需求发生都是时刻进行着的;
[0014]接着,获取比对任务源数据和比对任务配置信息并加载到脚本机器内存中,并依据配置信息中的比对基准字段将源数据和目标数据项转嵌入大规模并行处理架构MPP数据库SQL语句,利用SQL查询子句与其他表单进行关联;
[0015]接着,依据大规模并行处理架构MPP数据库中数据表和比对信息项的映射关系,将比对信息项映射到表单子句中;将比对信息项和比对信息项对应的查询条件嵌入SQL语句并生成表单对应的子查询;
[0016]然后,将所有表单的子查询及大规模并行处理架构MPP数据库转嵌入的源数据和目标数据项进行主键关联来生成最终SQL查询语句;
[0017]最后,利用大规模并行处理架构MPP数据库执行最终SQL查询语句来返回源数据和目标数据比对结果并输出。
[0018]作为本专利技术基于MPP数据库的自助式实时数据比对方法,进一步地,依据比对基准字段将源数据和目标数据转嵌入大规模并行处理架构MPP数据库SQL语句,包含:
[0019]判断源数据和目标数据的数据量是否小于预设阈值上限,若小于预设阈值上限,则通过比对基准字段将源数据和目标数据转嵌入大规模并行处理架构MPP数据库并生成转嵌入SQL语句,将所有数据的转嵌入SQL语句合并组合为SQL语句的子查询,若高于预设阈值上限,将源数据进行分批次转嵌入至大规模并行处理架构MPP数据库,并在每个批次中分配数据ID,直至通过比对基准字段将全部源数据嵌入大规模并行处理架构MPP数据库。
[0020]作为本专利技术基于MPP数据库的自助式实时数据比对方法,进一步地,利用大规模并行处理架构MPP数据库执行最终SQL查询语句来返回源数据和目标数据比对结果并输出,包含:
[0021]首先,利用大规模并行处理架构MPP数据库执行最终SQL查询语句并获取查询的数据结果;
[0022]然后,将查询的数据结果和源数据及目标数据项通过基准字段进行拼接,生成用于输出的源数据和目标数据比对数据。
[0023]作为本专利技术基于MPP数据库的自助式实时数据比对方法,进一步地,构建用户比对
需求中源数据和目标数据的比对参数之前,还包含:判断目标数据是否为新捕获的数据源,若是新捕获的数据源,则对该新数据源进行配置,将新捕获的数据源进行预处理后写入大规模并行处理架构MPP数据库,并生成用于构建比对参数中比对基准字段和比对信息项的候选选项。
[0024]进一步地,本专利技术还提供一种基于MPP数据库的自助式实时数据比对系统,包含:比对配置模块和比对输出模块,其中,
[0025]比对配置模块,用于构建用户比对需求中源数据和目标数据的比对参数,并将源数据和比对参数进行缓存,所述比对参数包含比对基准字段和比对信息项;
[0026]比对输出模块,用于将源数据加载至大规模并行处理架构MPP数据库,在大规模并行处理架构MPP数据库中利用比对参数对源数据和目标数据进行比对并输出,其中,目标数据在变动数据捕获后通过数据加工过程被加载至大规模并行处理架构MPP数据库。
[0027]本专利技术的有益效果:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MPP数据库的自助式实时数据比对方法,其特征在于,包含:构建用户比对需求中源数据和目标数据的比对参数,并将源数据和比对参数进行缓存,所述比对参数包含比对基准字段和比对信息项;将源数据加载至大规模并行处理架构MPP数据库,在大规模并行处理架构MPP数据库中利用比对参数对源数据和目标数据进行比对并输出,其中,目标数据在变动数据捕获后通过数据加工过程被加载至大规模并行处理架构MPP数据库。2.根据权利要求1所述的基于MPP数据库的自助式实时数据比对方法,其特征在于,构建用户比对需求中源数据和目标数据的比对参数,并将源数据和比对参数进行缓存,包含:首先,依据用户在用户交互界面选择的字段和信息项来生成用于待比对源数据和目标数据比对的比对参数;然后,将用户上传的源数据上传至对象存储组件服务中进行中转存储,并利用任务消息队列存储当前待比对任务的比对参数。3.根据权利要求2所述的基于MPP数据库的自助式实时数据比对方法,其特征在于,将用户上传的源数据上传至对象存储组件服务中进行中转存储时,通过调用对象存储服务OSS接口将用户上传的源数据上传至对象存储组件服务,并获取对象存储组件服务中源数据的ID信息。4.根据权利要求1所述的基于MPP数据库的自助式实时数据比对方法,其特征在于,将源数据加载至大规模并行处理架构MPP数据库,在大规模并行处理架构MPP数据库中利用比对参数来获取源数据和目标数据比对结果并输出,包含:首先,业务数据经过变动数据捕获和实时加工处理后作为目标数据被加载至大规模并行处理架构MPP数据库中,并将比对任务源数据加载到脚本机器内存中,依据比对基准字段将源数据和目标数据项转嵌入大规模并行处理架构MPP数据库SQL语句,利用SQL查询子句与其他表单进行关联;接着,依据大规模并行处理架构MPP数据库中数据表和比对信息项的映射关系,将比对信息项映射到表单子句中;将比对信息项和比对信息项对应的查询条件嵌入SQL语句并生成表单对应的子查询;然后,将所有表单的子查询及大规模并行处理架构MPP数据库转嵌入的源数据和目标数据进行主键关联来生成最终SQL查询语句;最后,利用大规模并行处理架构MPP数据库执行最终SQL查询语句来返回源数据和目标数据比对结果并输出。5.根据权利要求4所述的基于MPP数据库的自助式实时数据比对方法,其特征在于,依据比对基准字段将源数据和目标数据转嵌入大规模并行处理架构...

【专利技术属性】
技术研发人员:张帆董珊王正文叶艳郝亮王超然
申请(专利权)人:数字郑州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1