【技术实现步骤摘要】
Hbase数据备份/恢复系统、方法、装置及电子设备
本申请涉及数据管理
,具体涉及Hbase数据备份系统、方法及装置,Hbase数据恢复系统、方法及装置,Hbase数据管理系统,数据备份系统,数据恢复系统,以及电子设备。
技术介绍
数据可靠性是业务系统的生命线,是分布式存储系统的核心价值之一。为了确保数据的高可靠性,需要对数据进行备份及恢复等处理。如图1所示,其为一种典型的HBase数据备份方案,其备份过程包含两个环节:全量备份和增量备份。全量备份利用HBase自身的snapshot机制,对某一个时间点数据进行一次快照,然后根据这个快照将全量数据复制到目标存储。增量备份的原理是将HBase的日志进行备份,在固定的周期上启动分布式计算模型(MapReduce,MR)作业将上一周期后新产生的日志数据进行同步。然而,在实现本专利技术过程中,专利技术人发现该技术方案至少存在如下问题:1)由于要依赖HBase的snapshot功能,而被snapshot的文件在全量复制期间是不能够被回收的,加上全量备份的时间通常比 ...
【技术保护点】
1.一种Hbase数据备份系统,其特征在于,包括:/n数据备份管理装置和多个数据备份任务执行装置;/n所述数据备份管理装置,用于针对源端Hbase数据库的待备份数据表,生成所述数据表相关的至少一个区域分别对应的全量备份任务;根据任务分配算法,将所述全量备份任务分发至各个所述数据备份任务执行装置;/n所述数据备份任务执行装置,用于执行所述全量备份任务;所述执行所述全量备份任务包括:获取所述区域对应的HFile文件列表,作为变化前文件列表;将所述变化前文件列表中的HFile文件复制到目标端分布式文件系统;以及,在执行所述全量备份任务时,若所述HFile文件不存在,则重新获取所述 ...
【技术特征摘要】
1.一种Hbase数据备份系统,其特征在于,包括:
数据备份管理装置和多个数据备份任务执行装置;
所述数据备份管理装置,用于针对源端Hbase数据库的待备份数据表,生成所述数据表相关的至少一个区域分别对应的全量备份任务;根据任务分配算法,将所述全量备份任务分发至各个所述数据备份任务执行装置;
所述数据备份任务执行装置,用于执行所述全量备份任务;所述执行所述全量备份任务包括:获取所述区域对应的HFile文件列表,作为变化前文件列表;将所述变化前文件列表中的HFile文件复制到目标端分布式文件系统;以及,在执行所述全量备份任务时,若所述HFile文件不存在,则重新获取所述区域对应的HFile文件列表,作为变化后文件列表,并将所述变化后文件列表中的HFile文件复制到所述目标端分布式文件系统。
2.根据权利要求1所述的系统,其特征在于,
所述数据备份任务执行装置,还用于在执行所述全量备份任务时,若所述变化前文件列表中的HFile文件不存在、且所述区域不存在,则通知所述数据备份管理装置区域不存在;
所述数据备份管理装置,还用于根据区域不存在的通知,获取变化后的分区,并生成所述变化后的分区对应的所述全量备份任务。
3.根据权利要求1所述的系统,其特征在于,
所述数据备份管理装置,还用于根据预设的日志文件扫描周期,扫描所述源端Hbase数据库的HLog文件;针对扫描得到的未对应增量备份任务的HLog文件,生成所述HLog文件对应的增量备份任务;根据任务分配算法,将所述增量备份任务分发至各个所述数据备份任务执行装置;
所述数据备份任务执行装置,还用于执行所述增量备份任务;所述执行所述增量备份任务包括:将所述HLog文件的数据复制到所述目标端分布式文件系统。
4.根据权利要求3所述的系统,其特征在于,
所述数据备份任务执行装置,还用于在执行所述增量备份任务时,记录所述增量备份任务的已同步数据的位置信息。
5.根据权利要求3所述的系统,其特征在于,
所述数据备份任务执行装置,还用于在执行所述增量备份任务时,获取所述HLog文件的文件状态;所述文件状态包括写入或关闭;根据所述文件状态,标记将所述增量备份任务的任务状态。
6.根据权利要求3所述的方法,其特征在于,
所述数据备份管理装置,还用于当扫描所述源端Hbase数据库的HLog文件时,若确定任务状态是已完成的所述增量备份任务对应的HLog文件不存在,则清除所述增量备份任务。
7.根据权利要求1所述的方法,其特征在于,还包括:
分布式的配置管理服务装置,用于管理所述全量备份任务;
所述数据备份任务执行装置,具体用于通过配置管理锁获取所述全量备份任务的执行许可。
8.根据权利要求3所述的方法,其特征在于,还包括:
分布式的配置管理服务装置,用于管理所述增量备份任务;
所述数据备份任务执行装置,具体用于通过配置管理锁获取所述增量备份任务的执行许可。
9.一种Hbase数据恢复系统,其特征在于,包括:
数据恢复管理装置和多个数据恢复任务执行装置;
所述数据恢复管理装置,用于从目标端分布式文件系统中确定源端Hbase数据库中待恢复数据表在恢复时间点对应的备份数据文件;生成与各个所述备份数据文件分别对应的数据恢复任务;根据任务分配算法,将所述数据恢复任务分发至各个所述数据恢复任务执行装置;
所述数据恢复任务执行装置,用于执行所述数据恢复任务;所述执行所述数据恢复任务包括:在执行所述数据恢复任务时,若备份数据文件是HFile文件,则将所述HFile文件复制到所述源端Hbase数据库,并在所述源端Hbase数据库中加载所述HFile文件。
10.根据权利要求9所述的系统,其特征在于,
所述数据恢复任务执行装置,还用于若备份数据文件是HLog文件,则通过所述源端Hbase数据库的客户端应用程序接口将所述HLog文件的数据写入所述源端Hbase数据库。
11.根据权利要求9所述的系统,其特征在于,还包括:
分布式的配置管理服务装置,用于管理所述数据恢复任务;
所述数据恢复任务执行装置,还用于通过所述分布式的配置管理服务装置提供的配置管理锁获取所述数据恢复任务的执行许可。
12.一种Hbase数据管理系统,其特征在于,包括:
根据上述权利要求1-8任一项的Hbase数据备份系统;以及,根据上述权利要求9-11任一项的Hbase数据恢复系统。
13.根据权利要求12所述的系统,其特征在于,所述Hbase数据备份系统包括的数据备份管理装置和所述Hbase数据恢复系统包括的数据恢复管理装置部署在第一服务器中,所述Hbase数据备份系统包括的数据备份任务执行装置和所述Hbase数据恢复系统包括的数据备份任务执行装置部署在第二服务器中。
14.一种Hbase数据备份方法,其特征在于,包括:
针对源端Hbase数据库中待备份的数据表,生成所述数据表相关的至少一个区域分别对应的全量备份任务;
执行所述全量备份任务;所述执行所述全量备份任务包括:获取所述区域对应的HFile文件列表,作为变化前文件列表;将所述变化前文件列表中的HFile文件复制到目标端分布式文件系统;
在执行所述全量备份任务时,若所述HFile文件不存在,则重新获取所述区域对应的HFile文件列表,作为变化后文件列表,并将所述变化后文件列表中的HFile文件复制到所述目标端分布式文件系统。
15.根据权利要求1所述的方法,其特征在于,还包括:
在执行所述全量备份任务时,若所述变化前文件列表中的文件不存在、且所述区域不存在,则通过分区范围重新扫描元数据表,获取变化后的分区,并生成所述变化后的分区对应的所述全量备份任务。
16.根据权利要求1所述的方法,其特征在于,还包括:
根据预设的日志文件扫描周期,扫描所述源端Hbase数据库的HLog文件;
针对扫描得到的未对应增量备份任务的HLog文件,生成所述HLog文件对应的增量备份任务;
执行所述增量备份任务;所述执行所述增量备份任务包括:将所述HLog文件的数据复制到所述目标端分布式文件系统。
17.根据权利要求16所述的系统,其特征在于,还包括:
在执行所述增量备份任务时,记录所述增量备份任务的已同步数据的位置信息。
18.根据权利要求16所述的系统,其特征在于,还包括:
在执行所述增量备份任务时,获取所述HLog文件的文件状态;所述文件状态包括写入或关闭;根据所述文件状态,标记将所述增量备份任务的任务状态。
19.根据权利要求16所述的方法,其特征在于,还包括:
当扫描所述源端Hbase数据库的日志文件时,若确定任务状态是已完成的所述增量备份任务对应的HLog文件不存在,则清除所述增量备份任务。
20.一种Hbase数据恢复方法,其...
【专利技术属性】
技术研发人员:孟庆义,梁俊飞,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。