一种用于大数据实时计算及同步方法、系统、介质及设备技术方案

技术编号:37459813 阅读:35 留言:0更新日期:2023-05-06 09:32
本申请涉及一种用于大数据实时计算及同步方法、系统、介质及设备,该用于大数据实时计算及同步方法包括:在Flink框架内获取远端数据库;根据预置的切分算法,将远端数据库划分为多个快照区域;将多个快照区域分发给多个读取器,并控制多个读取器读取对应的快照区域;将多个读取器读取的数据根据主键进行合并,并将合并后的数据存入本地数据库以得到与远端数据库相同的本地数据库,主键为远端数据库中数据源表的每一行标识。采用本申请,通过并行读取的方式读取快照区域,具有提高数据库数据变更的效率的效果。变更的效率的效果。变更的效率的效果。

【技术实现步骤摘要】
一种用于大数据实时计算及同步方法、系统、介质及设备


[0001]本申请涉及大数据
,尤其是涉及一种用于大数据实时计算及同步方法、系统、介质及设备。

技术介绍

[0002]随着互联网技术的不断发展与网民数量的不断增加,使得网络中存在了大量重要的数据信息,由于数据库可以高效且条理分明地存储数据,所以人们通常使用数据库来更加迅速和方便地管理数据。在使用数据库过程中,为保持数据信息的一致性,需要同步实现数据库的数据变更。
[0003]现有技术中,可以采用DataX以及Canal对数据库的万亿级的数据表进行实时同步,但是DataX不支持增量同步,Canal不支持全量同步,并且DataX和Canal为单机架构。
[0004]针对上述中的相关技术,在大数据场景下容易面临性能瓶颈的问题,用户不能通过增加资源去提升作业速度,在需要同步实现数据库的数据变更情况下,读取时间在小时甚至天级别,导致数据库数据变更效率低。

技术实现思路

[0005]为了提高数据库数据变更的效率,本申请提供一种用于大数据实时计算及同步方法。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于大数据实时计算及同步方法,其特征在于,包括以下步骤:在Flink框架内获取远端数据库;根据预置的切分算法,将所述远端数据库划分为多个快照区域;将所述多个快照区域分发给多个读取器,并控制所述多个读取器读取对应的快照区域;将所述多个读取器读取的数据根据主键进行合并,并将合并后的数据存入本地数据库以得到与所述远端数据库相同的本地数据库,所述主键为所述远端数据库中数据源表的每一行标识。2.根据权利要求1所述的一种用于大数据实时计算及同步方法,其特征在于,在将所述多个快照区域分发给多个读取器中,包括以下步骤:将所述划分后的快照区域根据快照区域的多个主键的最大值按照由小到大的顺序进行排序;将相邻的快照区域分为一组以得到若干组快照区域,所述若干组的每一组内的快照区域数量均为预设数量;将同一组的快照区域分发至一个读取器中,使得多个读取器读取对应的快照区域。3.根据权利要求1所述的一种用于大数据实时计算及同步方法,其特征在于,在控制所述多个读取器读取对应的快照区域中,包括以下步骤:控制读取器读取所述快照区域的数据;将读取的所述快照区域的数据发送至缓存。4.根据权利要求3所述的一种用于大数据实时计算及同步方法,其特征在于,在将所述快照区域的数据发送至缓存之后,还包括以下步骤:获取远端数据库的日志,所述日志包括日志主键以及所述日志主键对应的数据变更信息,所述日志主键与所述快照区域的主键对应;根据所述日志主键以及所述日志主键对应的数据变更信息,更改缓存的数据。5.根据权利要求3所述的一种用于大数据实时计算及同步方法,其特征在于,在将所述多个读取器读取的数据根据主键进行合并中...

【专利技术属性】
技术研发人员:王敏超
申请(专利权)人:深圳市领星网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1