【技术实现步骤摘要】
一种基于多层排重的虚机快照备份方法和系统
本专利技术涉及计算机领域,尤其涉及一种基于多层排重的虚机快照备份方法和系统。
技术介绍
目前,一般的虚机系统都为用户提供系统快照服务,即对虚机磁盘镜像进行全量快照备份。虚机快照备份系统是虚机系统的子系统,它管理着PB级别的虚机用户的全部历史数据。因此,提高快照备份系统的存储效率,对于降低用户的虚机使用成本,提高集群的存储使用效率,有着非常重要的影响。为了能够实时、大规模地处理用户的备份数据请求,同时又能够高效地排除掉冗余的数据,虚机快照备份系统需至少满足三个条件:很高的数据处理速度,例如可以在每天夜间的三小时内处理完上万个虚机的备份;很好的排重效果,可以消除绝大多数的冗余数据(例如消除70%以上的冗余数据);较低的资源占用,虚机快照备份系统作为整个虚机系统的子系统,不能与用户的虚机系统中的其他重要模块争抢过多资源,否则会影响到用户对虚机的使用体验。对虚机快照备份进行排重的技术方案例如有如下:一种技术方案是亚马逊(Amazon)的云计算平台中的EBS快照存储方案,详见(http://aws.amazon.com/ebs/)。该方案将每块虚机磁盘划分成4MB大小的定长分块,并追踪用户使用中对每个分块的改动信息。如果一个分块在备份时被认定为自上次备份快照以来未作改动,则不备份这块数据;另一种技术方案是专业存储技术提供商如EMC的备份排重存储服务器,可以将备份数据按照内容特征切割成变长大小的数据分块,并根据哈希校验比对来侦测出重复的数据。亚马逊的技术方案完全针对单个虚机的数据修改记录来判断哪些数据需要备份,其弱点在于:首先 ...
【技术保护点】
一种基于多层排重的虚机快照备份方法,包括:将虚机快照划分为多个子数据块,将每个子数据块划分为多个数据片段;对所述虚机快照进行多层排重,以排除所述虚机快照中会导致重复备份的数据;以及存储经多层排重处理后剩余的虚机快照数据。
【技术特征摘要】
1.一种基于多层排重的虚机快照备份方法,包括:将虚机快照划分为多个子数据块,将每个子数据块划分为多个数据片段;对所述虚机快照进行多层排重,以排除所述虚机快照中会导致重复备份的数据;以及存储经多层排重处理后剩余的虚机快照数据;其中,对所述虚机快照进行多层排重包括:对所述虚机快照划分成的子数据块进行子数据块排重、对子数据块划分成的数据片段进行数据片段排重,所述数据片段排重包括:判断经所述子数据块排重后剩余的子数据块中的多个数据片段自上次备份以来是否改变;排除被确定为未改变的数据片段;保留被确定为已改变的数据片段。2.根据权利要求1所述的方法,其中,对所述虚机快照进行多层排重还包括:公用数据集排重,其中,所述公用数据集中存储备份存储文件系统中重复率高于预定阈值的数据片段。3.根据权利要求1所述的方法,其中,所述子数据块排重包括:判断所述多个子数据块自上次备份以来是否改变;排除被确定为未改变的子数据块;保留被确定为已改变的子数据块。4.根据权利要求2所述的方法,其中,所述公用数据集排重包括:将经所述数据片段排重后剩余的所述已改变的数据片段的数据特征与所述公用数据集中数据的数据特征进行比较,判断所述已改变的数据片段是否存在于所述公用数据集中,排除被确定存在于所述公用数据集中的数据片段。5.根据权利要求1-4任一项所述的方法,其中,将每个子数据块划分为多个数据片段的步骤包括:基于数据内容特征,将每个子数据块切割成多个变长的数据片段。6.根据权利要求1-4任一项所述的方法,其中,所述虚机快照包括子数据块的数据指纹、大小和数据指针;所述子数据块包括数据片段的数据指纹、大小和数据指针。7.根据权利要求2或4所述的方法,还包括:对备份存储文件系统进行定期扫描,根据数据存储中的数据重复特征,抽取重复率高于特定阈值的数据并将其存入所述公用数据集。8.根据权利要求1-4任一项所述的方法,还包括:对于经由所述多层排重所排除的数据,在虚机快照备份中直接引用虚机前一快照中的对应数据的索引。9.根据权利要求1-4任一项所述的方法,还包括:执行快照回滚,其包括:从备份存储文件系统中按照虚机待回滚的快照的索引读出子数据块的索引,按照子数据块的索引读出数据片段,将读出的数据片段组装成子数据块,将组装成的子数据块组装成待回滚的快照,其中,通过结合当前虚机镜像文件的修改信息和待回滚快照的索引信息,确定当前虚机镜像文件和待回滚快照中的共有数据,所述共有数据不用从备份存储文件系统中读取。10.根据权利要求1-4任一项所述的方法,还包括:执行快照删除,其包括:将虚机待删除的...
【专利技术属性】
技术研发人员:张为,唐洪,蒋灏,曾月,李小刚,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。