一种基于多层排重的虚机快照备份方法和系统技术方案

技术编号:9694602 阅读:146 留言:0更新日期:2014-02-21 00:48
提供一种基于多层排重的虚机快照备份方法和系统。该方法包括:将虚机快照划分为多个子数据块,将每个子数据块划分为多个数据片段;对所述虚机快照进行多层排重,以排除所述虚机快照中会导致重复备份的数据;以及存储经多层排重处理后剩余的虚机快照数据。

【技术实现步骤摘要】
一种基于多层排重的虚机快照备份方法和系统
本专利技术涉及计算机领域,尤其涉及一种基于多层排重的虚机快照备份方法和系统。
技术介绍
目前,一般的虚机系统都为用户提供系统快照服务,即对虚机磁盘镜像进行全量快照备份。虚机快照备份系统是虚机系统的子系统,它管理着PB级别的虚机用户的全部历史数据。因此,提高快照备份系统的存储效率,对于降低用户的虚机使用成本,提高集群的存储使用效率,有着非常重要的影响。为了能够实时、大规模地处理用户的备份数据请求,同时又能够高效地排除掉冗余的数据,虚机快照备份系统需至少满足三个条件:很高的数据处理速度,例如可以在每天夜间的三小时内处理完上万个虚机的备份;很好的排重效果,可以消除绝大多数的冗余数据(例如消除70%以上的冗余数据);较低的资源占用,虚机快照备份系统作为整个虚机系统的子系统,不能与用户的虚机系统中的其他重要模块争抢过多资源,否则会影响到用户对虚机的使用体验。对虚机快照备份进行排重的技术方案例如有如下:一种技术方案是亚马逊(Amazon)的云计算平台中的EBS快照存储方案,详见(http://aws.amazon.com/ebs/)。该方案将每块虚机磁盘划分成4MB大小的定长分块,并追踪用户使用中对每个分块的改动信息。如果一个分块在备份时被认定为自上次备份快照以来未作改动,则不备份这块数据;另一种技术方案是专业存储技术提供商如EMC的备份排重存储服务器,可以将备份数据按照内容特征切割成变长大小的数据分块,并根据哈希校验比对来侦测出重复的数据。亚马逊的技术方案完全针对单个虚机的数据修改记录来判断哪些数据需要备份,其弱点在于:首先,即使分块中的数据只被修改了一个字节,整块数据也要被备份一次。其次,对于不同用户备份相同数据的情况,例如操作系统和各种常用软件,由于用户行为的不同导致其数据所在的磁盘位置不可能统一,该方法完全无法侦测到这一类的重复数据。EMC的技术方案虽然可以根据数据内容特征来在全局范围排除重复的备份数据,但是其专用存储服务器的价格极其昂贵,且无法应对虚机集群这样PB级别的备份需求。这类方案跟以廉价和海量数据为特征的云计算平台是无法兼容的。
技术实现思路
本专利技术的主要目的在于提供一种基于多层排重的虚机快照备份方法,包括:将虚机快照划分为多个子数据块,将每个子数据块划分为多个数据片段;对所述虚机快照进行多层排重,以排除所述虚机快照中会导致重复备份的数据;以及存储经多层排重处理后剩余的虚机快照数据。根据本专利技术的实施例,在该方法中,对所述虚机快照进行多层排重包括:对所述虚机快照进行子数据块排重、数据片段排重和公用数据集排重,其中,所述公用数据集中存储备份存储文件系统中重复率高于预定阈值的数据片段。根据本专利技术的实施例,在该方法中,所述子数据块排重包括:判断所述多个子数据块自上次备份以来是否改变;排除被确定为未改变的子数据块;保留被确定为已改变的子数据块。根据本专利技术的实施例,在该方法中,所述数据片段排重包括:判断经所述子数据块排重后剩余的所述已改变的子数据块中的多个数据片段自上次备份以来是否改变;排除被确定为未改变的数据片段;保留被确定为已改变的数据片段。根据本专利技术的实施例,在该方法中,所述公用数据集排重包括:将经所述数据片段排重后剩余的所述已改变的数据片段的数据特征与所述公用数据集中数据的数据特征进行比较,判断所述已改变的数据片段是否存在于所述公用数据集中,排除被确定存在于所述公用数据集中的数据片段。。根据本专利技术的实施例,将每个子数据块划分为多个数据片段的步骤包括:基于数据内容特征,将每个子数据块切割成多个变长的数据片段。。根据本专利技术的实施例,所述虚机快照包括子数据块的数据指纹、大小和数据指针;所述子数据块包括数据片段的数据指纹、大小和数据指针。根据本专利技术的实施例,该方法还可以包括:对备份存储文件系统进行定期扫描,根据数据存储中的数据重复特征,抽取重复率高于特定阈值的数据并将其存入所述公用数据集。根据本专利技术的实施例,该方法还可以包括:对于经由所述多层排重所排除的数据,在虚机快照备份中直接引用虚机前一快照中的对应数据的索引。根据本专利技术的实施例,该方法还可以包括:执行快照回滚,其包括:从备份存储文件系统中按照虚机待回滚的快照的索引读出子数据块的索引,按照子数据块的索引读出数据片段,将读出的数据片段组装成子数据块,将组装成的子数据块组装成待回滚的快照,其中,通过结合当前虚机镜像文件的修改信息和待回滚快照的索引信息,确定当前虚机镜像文件和待回滚快照中的共有数据,所述共有数据不用从备份存储文件系统中读取。根据本专利技术的实施例,该方法还可以包括:执行快照删除,其包括:将虚机待删除的快照索引的删除信息写入日志,当日志中的删除信息量超过预定阈值时,扫描虚机的备份数据以找出一定时间内没有被引用的子数据块和数据片段并将它们删除在本专利技术的另一方面中,提供一种基于多层排重的虚机快照备份系统,包括:快照划分模块,用于将虚机快照划分为多个子数据块,将每个子数据块划分为多个数据片段;快照多层排重模块,用于对所述虚机快照进行多层排重以排除所述虚机快照中会导致重复备份的数据;以及快照备份存储模块,用于存储经多层排重处理后剩余的快照数据。根据本专利技术的实施例,在所述系统中,所述快照多层排重模块还包括:子数据块排重模块,数据片段排重模块和公用数据集排重模块,其中,所述公用数据集中存储着备份存储文件系统中重复率高于预定阈值的数据片段。根据本专利技术的实施例,该系统还可以包括:扫描模块、快照回滚模块和快照删除模块。与现有技术相比,根据本专利技术的技术方案,利用多层排重技术,可以针对大规模数据存储中数据片段的重复次数所具有的分布特征,来快速、有效地排除某些数据的重复备份,以达到用最少的资源来最大化排重的效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的虚机快照备份的方法的多层排重操作示意图。图2是根据本专利技术实施例的基于多层排重的虚机快照备份方法的流程图。图3是根据本专利技术实施例的基于多层排重的虚机快照备份系统的框图。图4是根据本专利技术实施例的图3的系统中快照多层排重模块的框图。具体实施方式本专利技术的主要思想在于,将虚机快照划分为多个子数据块,将每个子数据块划分为多个数据片段;对所述虚机快照进行多层排重,所述多层排重操作包括:对所述虚机快照依次进行子数据块排重、数据片段排重和公用数据集排重,以排除所述虚机快照中会导致重复备份的数据,其中,所述公用数据集中存储着备份存储文件系统中重复率高于预定阈值的数据片段;以及存储经多层排重处理后剩余的虚机快照数据。为使本专利技术的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本专利技术作进一步地详细说明。根据本专利技术的实施例,提供了一种基于多层排重的虚机快照备份方法和系统。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。图1是根据本专利技术实施例的虚机快照备份的方法的多层排重示意图。如图所示,根据本专利技术实施例的虚机快照备份的方法,首先将虚机快照分成多个子数据块,准备进行多层排重。在操作层面上,多层排重分成三个层次,在每一个层次利用特定的信息来排除掉绝大本文档来自技高网
...
一种基于多层排重的虚机快照备份方法和系统

【技术保护点】
一种基于多层排重的虚机快照备份方法,包括:将虚机快照划分为多个子数据块,将每个子数据块划分为多个数据片段;对所述虚机快照进行多层排重,以排除所述虚机快照中会导致重复备份的数据;以及存储经多层排重处理后剩余的虚机快照数据。

【技术特征摘要】
1.一种基于多层排重的虚机快照备份方法,包括:将虚机快照划分为多个子数据块,将每个子数据块划分为多个数据片段;对所述虚机快照进行多层排重,以排除所述虚机快照中会导致重复备份的数据;以及存储经多层排重处理后剩余的虚机快照数据;其中,对所述虚机快照进行多层排重包括:对所述虚机快照划分成的子数据块进行子数据块排重、对子数据块划分成的数据片段进行数据片段排重,所述数据片段排重包括:判断经所述子数据块排重后剩余的子数据块中的多个数据片段自上次备份以来是否改变;排除被确定为未改变的数据片段;保留被确定为已改变的数据片段。2.根据权利要求1所述的方法,其中,对所述虚机快照进行多层排重还包括:公用数据集排重,其中,所述公用数据集中存储备份存储文件系统中重复率高于预定阈值的数据片段。3.根据权利要求1所述的方法,其中,所述子数据块排重包括:判断所述多个子数据块自上次备份以来是否改变;排除被确定为未改变的子数据块;保留被确定为已改变的子数据块。4.根据权利要求2所述的方法,其中,所述公用数据集排重包括:将经所述数据片段排重后剩余的所述已改变的数据片段的数据特征与所述公用数据集中数据的数据特征进行比较,判断所述已改变的数据片段是否存在于所述公用数据集中,排除被确定存在于所述公用数据集中的数据片段。5.根据权利要求1-4任一项所述的方法,其中,将每个子数据块划分为多个数据片段的步骤包括:基于数据内容特征,将每个子数据块切割成多个变长的数据片段。6.根据权利要求1-4任一项所述的方法,其中,所述虚机快照包括子数据块的数据指纹、大小和数据指针;所述子数据块包括数据片段的数据指纹、大小和数据指针。7.根据权利要求2或4所述的方法,还包括:对备份存储文件系统进行定期扫描,根据数据存储中的数据重复特征,抽取重复率高于特定阈值的数据并将其存入所述公用数据集。8.根据权利要求1-4任一项所述的方法,还包括:对于经由所述多层排重所排除的数据,在虚机快照备份中直接引用虚机前一快照中的对应数据的索引。9.根据权利要求1-4任一项所述的方法,还包括:执行快照回滚,其包括:从备份存储文件系统中按照虚机待回滚的快照的索引读出子数据块的索引,按照子数据块的索引读出数据片段,将读出的数据片段组装成子数据块,将组装成的子数据块组装成待回滚的快照,其中,通过结合当前虚机镜像文件的修改信息和待回滚快照的索引信息,确定当前虚机镜像文件和待回滚快照中的共有数据,所述共有数据不用从备份存储文件系统中读取。10.根据权利要求1-4任一项所述的方法,还包括:执行快照删除,其包括:将虚机待删除的...

【专利技术属性】
技术研发人员:张为唐洪蒋灏曾月李小刚
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1