数据同步方法及系统技术方案

技术编号:34101606 阅读:54 留言:0更新日期:2022-07-11 23:34
本申请实施例提供了一种数据同步方法,包括:通过第一流处理框架Flink的flink

【技术实现步骤摘要】
数据同步方法及系统


[0001]本申请实施例涉及数据处理
,尤其涉及一种数据同步方法及系统。

技术介绍

[0002]随着大数据时代的到来,传统的数据存储和分析工具(典型代表MySQL技术体系)已经很难满足企业分析业务需求了。但是,传统的数据存储和分析工具也有着大数据领域工具不具备的特性,比如,使用范围的广泛性,保持数据的一致性(事务处理),数据更新高效性等等。因此,为了满足分析业务需求,一般都需要将传统数据存储系统中的数据同步至大数据存储平台中进行数据分析。
[0003]现有技术中,一般采用Datax(阿里巴巴集团内被广泛使用的离线数据同步工具/平台)来实现数据同步。然而,专利技术人发现,Datax同步方式对传统数据库来说是属于慢查询,不能满足日益增加的时效性需求,仅能支持天/小时同步,无法支持到分钟级数据可见粒度。

技术实现思路

[0004]本申请实施例的目的是提供一种数据同步方法及系统,可以解决现有技术中的采用Datax同步方式不能支持到分钟级数据可见粒度的同步。
[0005]本申请实施例的一个方面提供了一种数据同步方法,包括:
[0006]通过第一流处理框架Flink的flink

cdc

connectors组件消费传统数据存储系统中的多张数据表中的全量数据和增量变更数据;
[0007]通过flink

cdc

connectors组件将消费到的每一张数据表中的全量数据和增量变更数据写入至消息系统Kafka中的一个主题Topic中;
[0008]通过第二流处理框架Flink从所述消息系统Kafka中消费数据,并将从每一个主题Topic中消费出的数据写入至大数据存储平台中的一个数据表中。
[0009]可选地,所述传统数据存储系统为关系型数据库管理系统MySQL,所述大数据存储平台为数据湖HUDI。
[0010]可选地,所述传统数据存储系统包括多个待同步的MySQL,所述通过第一流处理框架Flink的flink

cdc

connectors组件消费传统数据存储系统中的多张数据表中的全量数据和增量变更数据包括:
[0011]通过flink

cdc

connectors组件创建多个flink cdc任务,其中,flink cdc任务的数量与待同步的MySQL的数量相同;
[0012]通过多个flink cdc任务分别消费多个MySQL中的多张数据表中的全量数据和增量变更数据。
[0013]可选地,所述通过第一流处理框架Flink的flink

cdc

connectors组件消费传统数据存储系统中的多张数据表中的全量数据和增量变更数据包括:
[0014]通过第一流处理框架Flink获取配置信息,所述配置信息包括所述flink

cdc

connectors组件消费的多张数据表的名称;
[0015]flink

cdc

connectors组件根据所述配置信息消费传统数据存储系统中的多张数据表中的全量数据和增量变更数据。
[0016]可选地,所述通过flink

cdc

connectors组件将消费到的每一张数据表中的全量数据和增量变更数据写入至消息系统Kafka中的一个主题Topic中包括:
[0017]flink

cdc

connectors组件在消费到的每一张数据表中的全量数据和增量变更数据时,为消费到的每一条数据添加一个版本字段;
[0018]通过flink

cdc

connectors组件将添加有版本字段的数据写入至消息系统Kafka中的一个主题Topic中。
[0019]可选地,所述通过flink

cdc

connectors组件将添加有版本字段的数据写入至消息系统Kafka中的一个主题Topic中包括:
[0020]通过flink

cdc

connectors组件将添加有版本字段的数据转换为具有预设格式的二进制数据,并将所述二进制数据封装成row类型的数据写入至消息系统Kafka中的一个主题Topic中。
[0021]可选地,所述传统数据存储系统采用分库分表的方式存储数据时,所述通过flink

cdc

connectors组件将消费到的每一张数据表中的全量数据和增量变更数据写入至消息系统Kafka中的一个主题Topic中包括:
[0022]flink

cdc

connectors组件将消费到的多个数据库中属于同一张数据表的全量数据和增量变更数据写入至消息系统Kafka中的同一个主题Topic中。
[0023]可选地,所述通过flink

cdc

connectors组件将消费到的每一张数据表中的全量数据和增量变更数据写入至消息系统Kafka中的一个主题Topic中包括:
[0024]flink

cdc

connectors组件从预设的connectors组件中获取用户预先配置的数据路由规则,所述数据路由规则用于确定每一张数据表写入的主题Topic;
[0025]flink

cdc

connectors组件根据所述数据路由规则将消费到的每一张数据表中的全量数据和增量变更数据写入消息系统Kafka中的与数据表相对应的主题Topic中。
[0026]可选地,所述通过第二流处理框架Flink从所述消息系统Kafka中消费数据,并将从每一个主题Topic中消费出的数据写入至大数据存储平台中的一个数据表中包括:
[0027]通过第二流处理框架Flink创建多个Flink任务,其中,Flink任务的数量与Kafka中的主题Topic的数量相同;
[0028]通过多个Flink任务分别从所述消息系统Kafka中的多个主题Topic消费数据;
[0029]通过每一个Flink任务将消费出的数据写入至大数据存储平台中的与所述每一个Flink任务对应的数据表中。
[0030]可选地,所述通过第二流处理框架Flink从所述消息系统Kafka中消费数据,并将从每一个主题Topic中消费出的数据写入至大数据存储平台中的一个数据表中的步骤之前,还包括:
[0031]通过预设的大数据管理平台下发的数据字段变更消息给所述第二流处理框架Flink,并通过所述大数据管理平台对大数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据同步方法,其特征在于,所述方法包括:通过第一流处理框架Flink的flink

cdc

connectors组件消费传统数据存储系统中的多张数据表中的全量数据和增量变更数据;通过flink

cdc

connectors组件将消费到的每一张数据表中的全量数据和增量变更数据写入至消息系统Kafka中的一个主题Topic中;通过第二流处理框架Flink从所述消息系统Kafka中消费数据,并将从每一个主题Topic中消费出的数据写入至大数据存储平台中的一个数据表中。2.根据权利要求1所述的数据同步方法,其特征在于,所述传统数据存储系统为关系型数据库管理系统MySQL,所述大数据存储平台为数据湖HUDI。3.根据权利要求2所述的数据同步方法,其特征在于,所述传统数据存储系统包括多个待同步的MySQL,所述通过第一流处理框架Flink的flink

cdc

connectors组件消费传统数据存储系统中的多张数据表中的全量数据和增量变更数据包括:通过flink

cdc

connectors组件创建多个flink cdc任务,其中,flink cdc任务的数量与待同步的MySQL的数量相同;通过多个flink cdc任务分别消费多个MySQL中的多张数据表中的全量数据和增量变更数据。4.根据权利要求1所述的数据同步方法,其特征在于,所述通过第一流处理框架Flink的flink

cdc

connectors组件消费传统数据存储系统中的多张数据表中的全量数据和增量变更数据包括:通过第一流处理框架Flink获取配置信息,所述配置信息包括所述flink

cdc

connectors组件消费的多张数据表的名称;flink

cdc

connectors组件根据所述配置信息消费传统数据存储系统中的多张数据表中的全量数据和增量变更数据。5.根据权利要求1所述的数据同步方法,其特征在于,所述通过flink

cdc

connectors组件将消费到的每一张数据表中的全量数据和增量变更数据写入至消息系统Kafka中的一个主题Topic中包括:flink

cdc

connectors组件在消费到的每一张数据表中的全量数据和增量变更数据时,为消费到的每一条数据添加一个版本字段;通过flink

cdc

connectors组件将添加有版本字段的数据写入至消息系统Kafka中的一个主题Topic中。6.根据权利要求5所述的数据处理方法,其特征在于,所述通过flink

cdc

connectors组件将添加有版本字段的数据写入至消息系统Kafka中的一个主题Topic中包括:通过flink

cdc

connectors组件将添加有版本字段的数据转换为具有预设格式的二进制数据,并将所述二进制数据封装成row类型的数据写入至消息系统Kafka中的一个主题Topic中。7.根据权利要求1所述的数据同步方法,其特征在于,所述传统数据存储系统采用分库分表的方式存储数据时,所述通过flink

cdc

connectors组件将消费到的每一张数据表中的全量数据和增量变更数据写入至消息系统Kafka中的一个主题T...

【专利技术属性】
技术研发人员:周晖栋郑志升肖宇王翔宇罗勇
申请(专利权)人:上海幻电信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1