一种面向大数据的云容灾备份方法技术

技术编号：12093701 阅读：188 留言：0更新日期：2015-09-23 11:39

本发明专利技术公开的一种面向大数据的云容灾备份方法，包含以下步骤：建立文件块哈希指纹和快照指针实现对文件不同版本的压缩存储备份，同时将文件块指纹传输给私有云存储系统；私有云建立文件块指纹索引数据库，通过MapReduce任务比对哈希指纹来对传输块进行初步去重，对数据块进行细粒度的基于内容的再次分块哈希，通过另一个MapReduce子任务计算数据块的相似度矩阵和块指针分布，统计数据块的访问热度，并将指纹索引数据库与热数据缓存在存储前段，将冷数据以及归档备份数据集中存储并建立版本快照，定时备份在公有云存储系统。本发明专利技术的方法，通过缓存指纹库和热数据解决了传统容灾备份中的数据去重技术实时性较差等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据备份领域，特别涉及。
技术介绍
以往的数据保护方案都是基于单机设备的数据去重，而数据存储备份网络的发展趋势是大规模的分布式存储网络，多台存储和数据处理设备通过高速通讯线路连接协同提供云存储和高可用服务。海量异构数据的容灾备份通常使用分布式云存储网络，一个备份集以数据块形式分散存储到不同设备，这样好处是可以分担每台设备的负载，提高数据的容错能力，但是可能会有相同的数据块重复存储到不同设备，在云存储网络内堆积大量冗余数据，浪费成倍以上的存储空间，增加巨大的经济开支。分布式云存储网络存在多台存储设备，在接入网络节点部署分布式数据去重系统，集中管理分布式网络中所有设备的重复数据删除工作。本专利研发的容灾备份平台的分布式数据去重功能，不会直接在业务系统所在网络进行，而是部署在云存储网络的二级存储层的VTUNAS或磁盘阵列等设备。随着大数据时代的到来，当前企业数据中心管理的数据量已从TB级上升到PB甚至EB级，数据构成越来越复杂，不仅包括常规的关系型结构化数据，也包括半结构或无结构数据。面对日趋复杂的庞大数据集，对备份数据的容量和实时性都有更高的要求。以往的一些如SHA、MD5等重复数据删除技术，对备份数据块进行哈希码序列划分，以进行新旧哈希码对比来找出冗余数据，效率不低，但存在些问题，当存储容量不断增大时，数据块产生的哈希码列表太大，会给内存、系统带来较大的负荷，而且可能产生哈希冲突，会导致有用数据被丢弃(概率较低)。存储系统通常将数据块哈希指纹存储在指纹数据库用以快速查重和检索，但对于实时性要求较高的在线系统来说，检索会受到存储系统吞吐...
一种面向大数据的云容灾备份方法

【技术保护点】
一种面向大数据的云容灾备份方法，其特征在于，包含以下顺序的步骤：客户端通过建立文件块哈希指纹和快照指针实现对文件不同版本的压缩存储备份，同时客户端将文件块指纹传输给私有云存储系统；私有云建立文件块指纹索引数据库，通过MapReduce任务比对哈希指纹来对传输块进行初步去重，对数据块进行细粒度的基于内容的再次分块哈希，通过另一个MapReduce子任务计算数据块的相似度矩阵和块指针分布，由HDFS统计数据块的访问热度，并将指纹索引数据库与热数据缓存在存储前段，将冷数据以及归档备份数据集中存储并建立版本快照，定时备份在公有云存储系统实现异地容灾。

【技术特征摘要】

【专利技术属性】
技术研发人员：林伟伟，张子龙，钟坯平，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人