批量数据同步方法、系统及电子设备技术方案

技术编号：28837581 阅读：24 留言：0更新日期：2021-06-11 23:35

本公开涉及一种批量数据同步方法、系统、电子设备及计算机可读介质。该方法包括：大数据分布式流数据流引擎将待同步数据存储到分布式文件系统的第一预设位置；异构数据源离线同步框架将所述待同步数据的历史数据存储到所述分布式文件系统的第二预设位置；数据仓库工具将所述待同步数据按照预设规则分区存储；在预设时间将所述分区存储的待同步数据进行批量合并以实现所述待同步数据的批量同步。本公开涉及的批量数据同步方法、系统、电子设备及计算机可读介质，能够解决现有技术中存在的批量数据同步的时效性差的问题，快速准确的进行批量数据的同步，不会增加网络负担。

全部详细技术资料下载

【技术实现步骤摘要】
批量数据同步方法、系统及电子设备
本公开涉及计算机信息处理领域，具体而言，涉及一种批量数据同步方法、系统、电子设备及计算机可读介质。
技术介绍
数据库操作往往会成为一个系统的瓶颈所在，而且一般的系统“读”的压力远远大于“写”，可以通过实现数据库的读写分离来提高系统的性能。通过设置主从数据库实现读写分离，主数据库负责“写操作”，从数据库负责“读操作”，根据压力情况，从数据库可以部署多个提高“读”的速度，借此来提高系统总体的性能。要实现读写分离，就要解决主从数据库数据同步的问题,在主数据库写入数据后要保证从数据库的数据也要更新。Sqoop即SQL-to-Hadoop，是连接传统关系型数据库和Hadoop的桥梁，用于把关系型数据库的数据导入到Hadoop系统(如HDFSHBase和Hive)中；也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop利用MapReduce加快数据传输速度，并且采用批处理方式进行数据传输。但是，在通过Sqoop进行数据同步的过程中，需要消耗SQL注入安全检测工具中大量的指访问控...

【技术保护点】
1.一种批量数据同步方法，其特征在于，包括：/n大数据分布式流数据流引擎将待同步数据存储到分布式文件系统的第一预设位置；/n异构数据源离线同步框架将所述待同步数据的历史数据存储到所述分布式文件系统的第二预设位置；/n数据仓库工具将所述待同步数据按照预设规则分区存储；/n在预设时间将所述分区存储的待同步数据进行批量合并以实现所述待同步数据的批量同步。/n

【技术特征摘要】
1.一种批量数据同步方法，其特征在于，包括：
大数据分布式流数据流引擎将待同步数据存储到分布式文件系统的第一预设位置；
异构数据源离线同步框架将所述待同步数据的历史数据存储到所述分布式文件系统的第二预设位置；
数据仓库工具将所述待同步数据按照预设规则分区存储；
在预设时间将所述分区存储的待同步数据进行批量合并以实现所述待同步数据的批量同步。

2.如权利要求1所述的方法，其特征在于，还包括：
分布式发布订阅消息系统获取业务相关数据。

3.如权利要求1-2中任一所述的方法，其特征在于，大数据分布式流数据流引擎将待同步数据存储到分布式文件系统的第一预设位置之前，包括：
所述大数据分布式流数据流引擎通过消费方式获取所述业务相关数据；
基于所述业务相关数据获取所述待同步数据。

4.如权利要求1-3中任一所述的方法，其特征在于，大数据分布式流数据流引擎将待同步数据存储到分布式文件系统的第一预设位置，包括：
大数据分布式流数据流引擎获取任务元数据的配置信息；
基于所述任务元数据的业务属性对所述待同步的表进行解析；
将解析后的所述待同步的表存储到分布式文件系统的第一预设位置。

5.如权利要求1-4中任一所述的方法，其特征在于，将解析后的所述待同步的表存储到分布式文件系统的第一预设位置，包括：
将所述待同步的表进行sink解析以生成所述待同步数据；
将所述待同步的表存储到HadoopDis...

【专利技术属性】
技术研发人员：闫宇新，袁孝锋，
申请(专利权)人：北京淇瑀信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人