一种基于大数据引擎计算的数据同步方法技术

技术编号：38988672 阅读：5 留言：0更新日期：2023-10-07 10:19

本发明专利技术涉及一种基于大数据引擎计算的数据同步方法，通过创建虚拟节点，作为控制节点的指定任务开始；通过创建数据同步节点，从源数据库中抽取待同步的数据并传输到大数据平台上并按照分区规则进行划分，从而保证目标数据仓库与源数据库中的数据完全一致；通过创建ODPS节点，对待同步的数据进行清洗、转换和格式化处理，使其适配目标数据仓库的存储格式和结构；通过创建数据同步节点，将预处理后的数据传输到目标数据仓库中并按照分区规则进行存储和归档。通过构建运维中心，保证目标数据仓库中的数据与源数据库中的数据完全一致。本方法数据处理速度快、容量大、效率高、准确性高、可扩展性好，能够满足当今大规模数据分析和应用的需求。和应用的需求。和应用的需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据引擎计算的数据同步方法

[0001]本专利技术涉及大数据
，尤其涉及一种基于大数据引擎计算的数据同步方法。

技术介绍

[0002]传统的数据同步方式主要包括基于ETL（Extract
‑
Transform
‑
Load）工具和手动编写脚本的方法，这些方法存在以下缺点和不足：处理数据量有限：传统的数据同步方式一般是单节点处理，处理速度慢，处理数据量有限。处理效率低下：传统的数据同步方式需要大量手动操作，需要人工干预和调整，耗时费力，效率低下。容易出错：传统的数据同步方式需要编写复杂的脚本进行数据转换和处理，容易出现错误，对数据准确性造成影响。难以扩展：传统的数据同步方式架构复杂、硬件成本高，难以扩展和升级，对系统性能和可用性带来影响。

技术实现思路

[0003]为克服现有技术中存在的不足，本专利技术提供一种基于大数据引擎计算的数据同步方法，通过高效稳定的数据采集、智能的数据分区、灵活可扩展的数据预处理、快速安全可靠的数据传输、实时可视化的数据同步监控，突破了传统数据同步方式的局限性，具有数据处理速度快、容量大、效率高、准确性高、可扩展性好等优点，能够满足当今大规模数据分析和应用的需求。
[0004]本专利技术解决上述技术问题的技术方案如下：一种基于大数据引擎计算的数据同步方法，利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据，针对多维度的数据进行连表及处理，最终同步到用户需要的数据库中，包括：S1创建虚拟节点，作为控制节点的...

【技术保护点】

【技术特征摘要】
1.一种基于大数据引擎计算的数据同步方法，利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据，针对多维度的数据进行连表及处理，最终同步到用户需要的数据库中；其特征在于，包括以下步骤：S1创建虚拟节点，作为控制节点的指定任务开始，设置调度时间进行自动触发；S2创建数据同步节点，采用基于时间戳的同步算法，利用dataworks大数据治理平台将mysql数据库中的数据同步到maxcompute中，将单节点的海量数量同步到分布式集群数据仓库；所述基于时间戳的同步算法，是指为每个数据源创建时间戳，并将其存储在云端对应的分区上；当数据发生变化时，将新的时间戳与其关联；数据源之间同步时，会比较它们各自的时间戳，并在此基础上进行同步；如果其中一个数据源的时间戳比另一个数据源的时间戳更近，则将前者的数据同步到后者；S3在阿里云开放数据处理服务平台创建ODPS节点，针对同步过来的数据进行清洗加工处理，采用基于分布式同步算法，将数据处理任务分布到多台计算机上进行同步，将得到的规整数据存储在数据仓库的二级仓库，将加工好的数据存储在数据仓库的三级仓库；所述基于分布式同步算法，其核心是归并思想加自定义排序，包括：S3.1针对海量订单数据，将订单分区管理，按照完成时间进行归档操作，每天的订单存储在对应的天的分区里；S3.2将每条订单记录在同步的时候进行清洗，每条数据的格式为｛uid，bill_no｝，其中uid为人员编号、bill_no为订单号；S3.3将当天的分区内的数据进行汇总，得到对应的｛uid,List<bill_no>｝，存储到Map<uid，订单个数>中；S3.4将不同的分区数据并行的两两组合进行合并处理，针对同一个uid，订单数量进行累加，得到新的Map<uid，订单个数>；S3.5递归执行4步骤，得到最后的Map<uid，订单个数>；S3.6根据订单个数排序，得到最终的人...

【专利技术属性】
技术研发人员：全传晓，魏建华，章松杨，李方祥，孙奕为，
申请(专利权)人：深度山东数字科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人