跨分布式数据库的集群复制数据的方法、装置和电子设备制造方法及图纸

技术编号:27581610 阅读:28 留言:0更新日期:2021-03-09 22:36
本说明书一个或多个实施例提供一种跨分布式数据库的集群复制数据的方法、装置和电子设备;所述方法包括:在MapReduce程序中加载数据库集群中创建的属于两个不同时间快照,使用所述程序中的映射函数,以数据中列的行键作为唯一标识的方式,对两个快照中包含的所有数据进行读取,并将具备相同行键的数据由映射函数传至归约函数中;由归约函数对所述数据是否为新增数据进行判定;其中判定逻辑为,首先判断数据的条数,再对多于1条的数据进行时间戳的判断;在判定出新增数据后,所述程序将新增数据生成为HFile文件,并采取BulkLoad的方式,将其批量写入指定服务器的另一集群中。本方案实现快速简单地复制快照中的增量数据。现快速简单地复制快照中的增量数据。现快速简单地复制快照中的增量数据。

【技术实现步骤摘要】
跨分布式数据库的集群复制数据的方法、装置和电子设备


[0001]本说明书一个或多个实施例涉及
,尤其涉及一种跨分布式数据库的集群复制数据的方法、装置和电子设备。

技术介绍

[0002]在现有技术中,针对HBase的快找数据更新,而进行的跨集群快照数据的复制迁移方案,一般采取将快照的全部数据进行整体复制,并将赋值的整体数据全部导入到另一集群中,由于实际生产中快照的数据量大,往往会导致复制数据的时间长,导入数据的时间也相应地耗时久,另一个突出的缺点,在于快照整体数据进行导入期间,会导致HBase数据库短时不可用,需要等待快照数据导入完毕,这使得需要每日进行数据复制导入的更新操作,消耗额外的时间以及人员的成本。
[0003]基于此,需要一种能够实现在快照数据更新时,将更新的数据快速迁移至制定集群,而不影响HBase使用的方案。

技术实现思路

[0004]有鉴于此,本说明书一个或多个实施例的目的在于提出一种跨分布式数据库的集群复制数据的方法、装置和电子设备,以解决更新的快照数据迁移时间久,影响HBase使用的问题。
...

【技术保护点】

【技术特征摘要】
1.一种跨分布式数据库的集群复制数据的方法,其特征在于,包括:在所述分布式数据库的第一集群中创建指定表的第一快照和第二快照,第一快照表示所述指定表在第一时刻的元数据信息集合;第二快照表示所述指定表在第二时刻的元数据信息集合;对比所述第一快照与所述第二快照,以得到增量数据;基于所述增量数据生成所述分布式数据库的预定格式的数据文件;将所述预定格式的数据文件批量写入所述分布式数据库的第二集群中。2.根据权利要求1所述的方法,其特征在于,所述分布式数据库包括HBase数据库,所述预定格式的数据文件为HFile文件。3.根据权利要求2所述的方法,其特征在于,所述对比所述第一快照与所述第二快照,以得到增量数据,包括:采用MapReduce程序,将所述第一快照与所述第二快照中具有相同行键的数据读取到一个归约函数中;确定该归约函数中有一条数据还是有两条数据;若确定该归约函数中有一条数据,则确定这条数据为所述增量数据;若确定该归约函数中有两条数据,则确定这两条数据的相应列中的值是否一致,若确定这两条数据至少有一列中的值不一致,则确定这两条数据中时间戳大的数据为所述增量数据。4.根据权利要求2或3所述的方法,其特征在于,所述将所述预定格式的数据文件批量写入所述分布式数据库的第二集群中包括:以BulkLoad方式,利用区域服务器将所述HFile文件移动到相应的区域目录下。5.一种跨分布式数据库的集群复制数据的装置,其特征在于,包括:创建模块,被配置为:在所述分布式数据库的第一集群中创建指定表的第一快照和第二快照,第一快照表示所述指定表在第一时刻的元数据信息集合;第二快照表示所述...

【专利技术属性】
技术研发人员:马德民范铮曹飞曲明钰赵星光陆智卿赵振邦
申请(专利权)人:中国人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1