一种基于大数据引擎计算的数据同步方法技术

技术编号:38988672 阅读:5 留言:0更新日期:2023-10-07 10:19
本发明专利技术涉及一种基于大数据引擎计算的数据同步方法,通过创建虚拟节点,作为控制节点的指定任务开始;通过创建数据同步节点,从源数据库中抽取待同步的数据并传输到大数据平台上并按照分区规则进行划分,从而保证目标数据仓库与源数据库中的数据完全一致;通过创建ODPS节点,对待同步的数据进行清洗、转换和格式化处理,使其适配目标数据仓库的存储格式和结构;通过创建数据同步节点,将预处理后的数据传输到目标数据仓库中并按照分区规则进行存储和归档。通过构建运维中心,保证目标数据仓库中的数据与源数据库中的数据完全一致。本方法数据处理速度快、容量大、效率高、准确性高、可扩展性好,能够满足当今大规模数据分析和应用的需求。和应用的需求。和应用的需求。

【技术实现步骤摘要】
一种基于大数据引擎计算的数据同步方法


[0001]本专利技术涉及大数据
,尤其涉及一种基于大数据引擎计算的数据同步方法。

技术介绍

[0002]传统的数据同步方式主要包括基于ETL(Extract

Transform

Load)工具和手动编写脚本的方法,这些方法存在以下缺点和不足:处理数据量有限:传统的数据同步方式一般是单节点处理,处理速度慢,处理数据量有限。处理效率低下:传统的数据同步方式需要大量手动操作,需要人工干预和调整,耗时费力,效率低下。容易出错:传统的数据同步方式需要编写复杂的脚本进行数据转换和处理,容易出现错误,对数据准确性造成影响。难以扩展:传统的数据同步方式架构复杂、硬件成本高,难以扩展和升级,对系统性能和可用性带来影响。

技术实现思路

[0003]为克服现有技术中存在的不足,本专利技术提供一种基于大数据引擎计算的数据同步方法,通过高效稳定的数据采集、智能的数据分区、灵活可扩展的数据预处理、快速安全可靠的数据传输、实时可视化的数据同步监控,突破了传统数据同步方式的局限性,具有数据处理速度快、容量大、效率高、准确性高、可扩展性好等优点,能够满足当今大规模数据分析和应用的需求。
[0004]本专利技术解决上述技术问题的技术方案如下:一种基于大数据引擎计算的数据同步方法,利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据,针对多维度的数据进行连表及处理,最终同步到用户需要的数据库中,包括:S1创建虚拟节点,作为控制节点的指定任务开始,设置调度时间进行自动触发;S2创建数据同步节点,采用基于时间戳的同步算法,利用dataworks大数据治理平台将mysql数据库中的数据同步到maxcompute中,将单节点的海量数量同步到分布式集群数据仓库;所述基于时间戳的同步算法,是指为每个数据源创建时间戳,并将其存储在云端对应的分区上;当数据发生变化时,将新的时间戳与其关联;数据源之间同步时,会比较它们各自的时间戳,并在此基础上进行同步;如果其中一个数据源的时间戳比另一个数据源的时间戳更近,则将前者的数据同步到后者;通过上述高效、稳定的数据采集方式,能够从源数据库中抽取待同步的数据,并将其传输到大数据平台上;通过上述智能数据分区方式,能够根据数据特征和分析需求,将数据按照分区规则进行划分,以便于后续的并行计算和处理;通过上述自动化、高精度的数据校验和修正方式,能够保证目标数据仓库中的数据与源数据库中的数据完全一致,避免数据同步过程中出现的问题和异常情况。
[0005]S3在阿里云开放数据处理服务平台创建ODPS节点,针对同步过来的数据进行清洗
加工处理,采用基于分布式同步算法,将数据处理任务分布到多台计算机上进行同步,将得到的规整数据存储在数据仓库的二级仓库,将加工好的数据存储在数据仓库的三级仓库;所述基于分布式同步算法,其核心是归并思想加自定义排序,包括:S3.1针对海量订单数据,将订单分区管理,按照完成时间进行归档操作,每天的订单存储在对应的天的分区里;S3.2将每条订单记录在同步的时候进行清洗,每条数据的格式为{uid,bill_no},其中uid为人员编号、bill_no为订单号;S3.3将当天的分区内的数据进行汇总,得到对应的{uid,List<bill_no>},存储到Map<uid,订单个数>中;通过上述灵活、可扩展的数据预处理方式,能够对待同步的数据进行清洗、转换和格式化处理,使其能够适配目标数据仓库的存储格式和结构。
[0006]S3.4将不同的分区数据并行的两两组合进行合并处理,针对同一个uid,订单数量进行累加,得到新的Map<uid,订单个数>;S3.5递归执行4步骤,得到最后的Map<uid,订单个数>;S3.6根据订单个数排序,得到最终的人员成交订单排行榜汇总数据;此方法可以快速地将不同业务维度下的数据,根据某一标准,快速地汇总出对应的排名数据,可以大大提高数据同步的速度,还可以利用集群的计算能力处理大量数据;通过上述灵活、可扩展的数据预处理方式,能够对待同步的数据进行清洗、转换和格式化处理,使其能够适配目标数据仓库的存储格式和结构;S4创建数据同步节点,利用dataworks大数据治理平台将数仓中的数据同步到需要存储的存储空间;通过上述快速、安全、可靠的数据传输方式,能够将预处理后的数据传输到目标数据仓库中,并按照分区规则进行存储和归档。通过上述快速、安全、可靠的数据传输方式,能够将预处理后的数据传输到目标数据仓库中,并按照分区规则进行存储和归档。
[0007]S5构建运维中心,针对调度节点的跟踪与监控,及时掌握数据同步的执行结果及执行效率;通过上述自动化、高精度的数据校验和修正方式,能够保证目标数据仓库中的数据与源数据库中的数据完全一致,避免数据同步过程中出现的问题和异常情况。
[0008]进一步的,S2中所述创建数据同步节点,支持重跑策略及支持增量同步策略;所述重跑策略,指任务的幂等性,数据支持覆盖写,无论跑几次,数据的结果都保持一致;所述增量同步策略,指指根据业务创建的时间戳,每天同步获取新增的数据,保证同步的效率。
[0009]进一步的,S3.3中所述存储到Map<uid,订单个数>,包括以下步骤:S3.3.1做插入操作时,首次初始化一定内存的容器,对于每个 hash值首次插入,做一个标识,标识为首次直接插入,无需进行循环操作,提高执行的效率;非首次插入时,直接进入 S3.3.2;S3.3.2如果已经初始化,则判断插入的数据的hash位置对应的节点是否为空,如果为空,则通过死循环操作进行插入,避免在插入的时候被其他请求完成插入;S3.3.3如果该节点不为空,再判断容器是否在扩容中,如果在扩容,则帮助其扩容;S3.3.4如果没有扩容,则进行最后一步,先加锁,然后找到hash值相同的那个节点,即hash冲突节点,循环判断这个节点上的链表,决定做覆盖操作还是插入操作;S3.3.5循环结束,插入完毕。
[0010]进一步的,S4中所述存储空间,包括:Object Storage Service对象存储,elaticserach分布式搜索引擎,redis远程字典服务,AnalyticDB MySQL云原生数据库。
[0011]本专利技术的有益效果是:1.高效性,该方法采用大数据引擎计算,可以并行处理大量数据,实现高效的数据同步和传输,从而提高数据处理速度和效率。
[0012]2.精准性,该方法采用自动化的数据校验和修正方式,可以保证目标数据仓库中的数据与源数据库中的数据完全一致,避免数据同步过程中出现的问题和异常情况,从而提高数据同步的准确性。
[0013]3.灵活性,该方法采用智能的数据分区方式和灵活可扩展的数据预处理方式,可以根据具体业务需求进行扩展和定制,从而满足不同场景的数据同步需求。
[0014]4.实时性,该方法支持实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据引擎计算的数据同步方法,利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据,针对多维度的数据进行连表及处理,最终同步到用户需要的数据库中;其特征在于,包括以下步骤:S1创建虚拟节点,作为控制节点的指定任务开始,设置调度时间进行自动触发;S2创建数据同步节点,采用基于时间戳的同步算法,利用dataworks大数据治理平台将mysql数据库中的数据同步到maxcompute中,将单节点的海量数量同步到分布式集群数据仓库;所述基于时间戳的同步算法,是指为每个数据源创建时间戳,并将其存储在云端对应的分区上;当数据发生变化时,将新的时间戳与其关联;数据源之间同步时,会比较它们各自的时间戳,并在此基础上进行同步;如果其中一个数据源的时间戳比另一个数据源的时间戳更近,则将前者的数据同步到后者;S3在阿里云开放数据处理服务平台创建ODPS节点,针对同步过来的数据进行清洗加工处理,采用基于分布式同步算法,将数据处理任务分布到多台计算机上进行同步,将得到的规整数据存储在数据仓库的二级仓库,将加工好的数据存储在数据仓库的三级仓库;所述基于分布式同步算法,其核心是归并思想加自定义排序,包括:S3.1针对海量订单数据,将订单分区管理,按照完成时间进行归档操作,每天的订单存储在对应的天的分区里;S3.2将每条订单记录在同步的时候进行清洗,每条数据的格式为{uid,bill_no},其中uid为人员编号、bill_no为订单号;S3.3将当天的分区内的数据进行汇总,得到对应的{uid,List<bill_no>},存储到Map<uid,订单个数>中;S3.4将不同的分区数据并行的两两组合进行合并处理,针对同一个uid,订单数量进行累加,得到新的Map<uid,订单个数>;S3.5递归执行4步骤,得到最后的Map<uid,订单个数>;S3.6根据订单个数排序,得到最终的人...

【专利技术属性】
技术研发人员:全传晓魏建华章松杨李方祥孙奕为
申请(专利权)人:深度山东数字科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1