一种面向大数据的云容灾备份方法技术

技术编号:12093701 阅读:188 留言:0更新日期:2015-09-23 11:39
本发明专利技术公开的一种面向大数据的云容灾备份方法,包含以下步骤:建立文件块哈希指纹和快照指针实现对文件不同版本的压缩存储备份,同时将文件块指纹传输给私有云存储系统;私有云建立文件块指纹索引数据库,通过MapReduce任务比对哈希指纹来对传输块进行初步去重,对数据块进行细粒度的基于内容的再次分块哈希,通过另一个MapReduce子任务计算数据块的相似度矩阵和块指针分布,统计数据块的访问热度,并将指纹索引数据库与热数据缓存在存储前段,将冷数据以及归档备份数据集中存储并建立版本快照,定时备份在公有云存储系统。本发明专利技术的方法,通过缓存指纹库和热数据解决了传统容灾备份中的数据去重技术实时性较差等问题。

【技术实现步骤摘要】

本专利技术涉及数据备份领域,特别涉及。
技术介绍
以往的数据保护方案都是基于单机设备的数据去重,而数据存储备份网络的发展趋势是大规模的分布式存储网络,多台存储和数据处理设备通过高速通讯线路连接协同提供云存储和高可用服务。海量异构数据的容灾备份通常使用分布式云存储网络,一个备份集以数据块形式分散存储到不同设备,这样好处是可以分担每台设备的负载,提高数据的容错能力,但是可能会有相同的数据块重复存储到不同设备,在云存储网络内堆积大量冗余数据,浪费成倍以上的存储空间,增加巨大的经济开支。分布式云存储网络存在多台存储设备,在接入网络节点部署分布式数据去重系统,集中管理分布式网络中所有设备的重复数据删除工作。本专利研发的容灾备份平台的分布式数据去重功能,不会直接在业务系统所在网络进行,而是部署在云存储网络的二级存储层的VTUNAS或磁盘阵列等设备。随着大数据时代的到来,当前企业数据中心管理的数据量已从TB级上升到PB甚至EB级,数据构成越来越复杂,不仅包括常规的关系型结构化数据,也包括半结构或无结构数据。面对日趋复杂的庞大数据集,对备份数据的容量和实时性都有更高的要求。以往的一些如SHA、MD5等重复数据删除技术,对备份数据块进行哈希码序列划分,以进行新旧哈希码对比来找出冗余数据,效率不低,但存在些问题,当存储容量不断增大时,数据块产生的哈希码列表太大,会给内存、系统带来较大的负荷,而且可能产生哈希冲突,会导致有用数据被丢弃(概率较低)。存储系统通常将数据块哈希指纹存储在指纹数据库用以快速查重和检索,但对于实时性要求较高的在线系统来说,检索会受到存储系统吞吐量瓶颈以及存储介质的I/o性能的限制。目前对于指纹数据库的去重备份方法通常是使用数据库DUMP命令将数据库备份为数据库差异文件,然后对备份的数据库差异文件进行安全性检查,再将其上传到云存储资源池。在资源池内对备份的数据库文件进行重复数据删除,但随着数据库文件的增长,这种差分删除方法也会造成系统性能瓶颈。另一方面利用客户端压缩存储分解存储服务器的高负载问题通常为客户端对输入文件运行重复数据删除程序,用以生成切分数据块与相应的指纹特征值;客户端向派发服务器发送具有指纹特征值的查询要求;派发服务器纪录切分数据块的储存位置;派发服务器根据指纹特征值将查询要求转发至相应的重复数据处理装置;重复数据处理装置判断指纹特征值是否已经存在;若不存在该笔指纹特征值,则重复数据处理装置根据新的指纹特征值将新的切分数据块存储至存储服务端,但此类操作通常加重了客户端的负载。在实践中表明大数据存储系统中数据具有不同的访问热度,通常热数据的访问量和更新率远远超过了一些时间较久的冷数据,在区分数据热度时不可避免要面对大量的数据块的分割和重组,而存储介质的I/O性能和存储网络的带宽通常限制了大数据存储系统的吞吐率。目前的容灾备份体系通常以私有云上的HDFS为平台,用MapReduce任务实现数据分块和结合了基于内容识别的重复数据删除技术,或者直接将数据存储在公有云,依赖公有云的去重技术和多副本异地容灾策略等,这些方法仅适合离线存储备份服务,通常不能满足现在的实时系统需求。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供。本专利技术的目的通过以下的技术方案实现:,包含以下顺序的步骤:客户端通过建立文件块哈希指纹和快照指针实现对文件不同版本的压缩存储备份,同时客户端将文件块指纹传输给私有云存储系统;私有云建立文件块指纹索引数据库,通过MapReduce任务比对哈希指纹来对传输块进行初步去重,对数据块进行细粒度的基于内容的再次分块哈希,通过另一个MapReduce子任务计算数据块的相似度矩阵和块指针分布,由HDFS统计数据块的访问热度,并将指纹索引数据库与热数据缓存在存储前段,将冷数据以及归档备份数据集中存储并建立版本快照,定时备份在公有云存储系统实现异地容灾。所述的面向大数据的云容灾备份方法,具体包含以下步骤:S1.建立文件存储系统客户端,客户端按照基于内容的分块算法对文件进行分块,对每个数据块生成指纹信息,通过建立数据块快照对文件进行本地压缩存储备份并传输至私有云存储系统;S2.以控制与传输分离的数据传输方式建立基于HDFS的私有云存储系统,在快速存储介质SSD上创建分布式数据块指纹数据库索引层和块数据缓存层;S3.通过对数据块指纹的并行检索和相似度计算来实现重复数据删除,运行两个以流水技术相互叠加的MapReduce任务,其中,第一个MapReduce任务实现对数据块指纹的快速索引,在索引未命中时,启动第二个MapReduce任务对数据块进行基于内容识别的相似度计算,生成指纹相似度矩阵和块指针分布进一步增强重复数据删除技术;S4.在私有云平台上建立基于内容识别的数据分块和统计,在分类基础上对用户访问进行统计,将访问频率较高的数据重组和缓存,重新生成指纹和指针分布,对访问频率较低的数据进行压缩和归档;S5.建立基于公有云的异地容灾策略,对冷数据的定时归档和对热数据的按计划定时备份,所述冷数据为访问频率较低的数据,热数据为访问频率较高的数据。所述的客户端以非对称加密技术对客户端数据加密存储,将私钥存储在服务端的密钥数据库,同时建立基于密文的检索系统。这样做的目的是对客户端实行数据保密技术增强安全性,而建立基于密文的检索系统是为了增强检索效率。所述的客户端对文件进行本地压缩备份,是以MD5压缩技术生成数据块摘要,以库文件的形式提供一组与POSIX和WebDAV规范兼容的接口,模拟出各种已知的应用协议(如WebDAV,CIFS,NFS等),客户端通过操作系统的统一接口来透明地访问私有云的存储空间。所述的定时备份具体为:通过将加密之后的私有云存储逻辑卷定时上传到公有云中做备份来实现每周一次或每日一次的数据归档。对于冷数据来说,由于数据未被更改或极少被更改,在公有云内的去重技术支持下,归档将迅速完成,只会影响文件版本快照和少量的变更。对于热数据来说,借助公有云的备份不宜太频繁,大约每周对热数据进行一次公有云备份。当然可以选择其他策略,如设定优先级策略,将数据按照优先级来进行公有云备份。本专利技术与现有技术相比,具有如下优点和有益效果:(I)与传统的私有云数据备份系统相比,本体系下的私有云去重备份层级不但提供了重复数据删除及基于内容的Hash指纹识别,而且通过缓存排序等组织方式让企业的热数据的访问更加有效率。(2)本体系借助公有云的异地容灾策略在数据加密的基础之上,同时密钥分离保管的方式,降低了传统意义上的公有云容灾面临的数据泄露的风险,并通过加密数据检索来提高访问加密数据的效率。(3)本体系的三级结构进一步增强了企业数据的可靠性,在私有云内部备份系统异常时,仍可以通过公有云恢复企业数据。(4)本专利技术中的三级容灾备份体系,通过缓存指纹库和热数据解决了传统容灾备份中的数据去重技术实时性较差等问题,将传统的容灾备份流程拆分为客户端压缩存储和私有云去重备份两部分,缓解了存储服务器负载过高的问题,在公有云存储系统上增强了异地容灾功能,同时也节省了容灾成本。【附图说明】图1为的流程图;图2为图1所述方法的客户端备份流程图;图3为图1所述方法的私有75:去重备份流程图;图4为图1所述方法的公有本文档来自技高网
...
一种面向大数据的云容灾备份方法

【技术保护点】
一种面向大数据的云容灾备份方法,其特征在于,包含以下顺序的步骤:客户端通过建立文件块哈希指纹和快照指针实现对文件不同版本的压缩存储备份,同时客户端将文件块指纹传输给私有云存储系统;私有云建立文件块指纹索引数据库,通过MapReduce任务比对哈希指纹来对传输块进行初步去重,对数据块进行细粒度的基于内容的再次分块哈希,通过另一个MapReduce子任务计算数据块的相似度矩阵和块指针分布,由HDFS统计数据块的访问热度,并将指纹索引数据库与热数据缓存在存储前段,将冷数据以及归档备份数据集中存储并建立版本快照,定时备份在公有云存储系统实现异地容灾。

【技术特征摘要】

【专利技术属性】
技术研发人员:林伟伟张子龙钟坯平
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1