数据同步方法、系统及计算机可读介质技术方案

技术编号：32833632 阅读：13 留言：0更新日期：2022-03-26 20:50

本发明专利技术提供一种数据同步方法、系统及计算机可读介质。方法包括：在全量数据同步阶段，通过第一计算框架对应的第一流式计算程序从第一数据库中抽取数据，形成第一数据存储消息队列；在全量数据同步阶段完成后的增量数据同步阶段，通过第一流式计算程序确定增量数据同步的数据起始点，从数据起始点开始抽取数据，形成第二数据存储消息队列；通过第二流式计算程序从第一数据存储消息队列或第二数据存储消息队列中抽取数据；对从第一数据存储消息队列或第二数据存储消息队列中抽取的数据进行数据筛选和格式转换操作，形成处理后数据；将处理后数据存储至第二数据库。本发明专利技术增量同步和全量同步在同一个程序进行，减少了维护成本。减少了维护成本。减少了维护成本。

全部详细技术资料下载

【技术实现步骤摘要】
数据同步方法、系统及计算机可读介质

[0001]本专利技术主要涉及数据处理领域，尤其涉及一种数据同步方法、系统及计算机可读介质。

技术介绍

[0002]当一个数据需要存储多份时，会出现一致性问题，所以就需要进行同步。同步分为两种：全量同步和增量同步。全量同步是指定时或周期性把全部数据存储到目标系统中。增量同步是在全量同步的基础上，抓取某个时刻或者检查点以后的差异数据同步到目标系统中。决定增量同步触发同步过程的时刻或者检查点称为更新点。
[0003]当前常用的同步方法是在增量同步阶段通过Spark来同步，而增量同步阶段则是通过canal读取MySQL数据库的Binlog日志来同步。两者之间是分开执行的，在全量同步完成之后，增量同步阶段无法确定Binlog的更新点，进而需要一个单独的canal client来维护日志，增加了维护成本。同时canal也需要搭建集群，增加了开发成本。而且canal在语义上也无法保证数据能够不丢失。
[0004]因此，亟需一种低维护成本和开发成本的数据同步方法、系统及计算机可读介质。

技术实现思路

[0005]本专利技术要解决的技术问题是提供一种数据同步方法、系统及计算机可读介质，解决数据同步方法维护成本和开发成本高的问题。
[0006]为解决上述技术问题，本专利技术提供了一种数据同步方法。包括以下步骤：在全量数据同步阶段，通过第一计算框架对应的第一流式计算程序从第一数据库中抽取数据，形成第一数据存储消息队列；在全量数据同步阶段完成后的增量数据同步阶段，...

【技术保护点】

【技术特征摘要】
1.一种数据同步方法，包括以下步骤：在全量数据同步阶段，通过第一计算框架对应的第一流式计算程序从第一数据库中抽取数据，形成第一数据存储消息队列；在全量数据同步阶段完成后的增量数据同步阶段，通过所述第一计算框架对应的第一流式计算程序确定增量数据同步的数据起始点，从所述数据起始点开始抽取数据，形成第二数据存储消息队列；在所述全量数据同步阶段和所述增量数据同步阶段，通过第一计算框架对应的第二流式计算程序从所述第一数据存储消息队列或第二数据存储消息队列中抽取数据；对从所述第一数据存储消息队列或第二数据存储消息队列中抽取的数据进行数据筛选和格式转换操作，形成处理后数据；将所述处理后数据存储至第二数据库。2.根据权利要求1所述的数据同步方法，其特征在于，还包括：对通过第一计算框架对应的第一流式计算程序从第一数据库中抽取数据的操作时间进行监测，得到操作延时数值；将所述操作延时数值与设定的第一阈值比较，得到判断结果；基于所述判断结果确定是否请求新的运行资源，用于所述抽取数据操作。3.根据权利要求2所述的数据同步方法，其特征在于，对通过第一计算框架对应的第一流式计算程序从第一数据库中抽取数据的操作时间进行监测，得到操作延时数值包括：以设定的第一时间间隔为单位，获取所述抽取操作对应的数据条...

【专利技术属性】
技术研发人员：王仕凯，陈诚，戴橙，
申请(专利权)人：浙江太美医疗科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人