去重存储系统内的合成备份技术方案

技术编号:8983320 阅读:136 留言:0更新日期:2013-08-01 02:04
一种去重存储系统使得新输入数据能够与已构建的合成备份的数据去重,并且出于该目的而基于合成备份所引用的数据的已有摘要针对正在构建的合成备份计算去重摘要。对于正在构建的合成备份的多个输入数据分段中的每个输入数据分段,从索引中检索输入数据分段所引用的存储数据分段的多个去重摘要。每个输入数据分段被划分为多个固定大小的数据子分段中的每一个。执行产生数据子分段的去重摘要的计算,其中该计算基于输入数据子分段引用的多个存储数据子分段的所检索的去重摘要。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及计算机,更特别地,涉及在计算存储环境中促成(facilitate)去重存储系统内的合成备份
技术介绍
数据去重是指减少和/或消除冗余数据。在数据去重处理中,数据的重复拷贝被减少或消除,分别留下最小数量的冗余拷贝或者单个数据拷贝。使用去重处理提供了各种好处,诸如所要求的存储容量的减小以及网络带宽的减小。由于这些和其它好处,去重在近年来已经成为了计算存储系统中非常重要的
提供去重功能的挑战包括多个方面,诸如在一般大型存储仓库中有效找出重复的数据模式,以及以高效的去重存储方式存储数据模式
技术实现思路
在备份环境中,完整备份(full backup)包含所备份的整个数据集合。增量备份(incremental backup)仅包含从最近一次备份的时间起修改了的数据集合部分(通常以文件为分辨率),最近一次备份可以是完整备份或增量备份。差异备份仅包含从最近一次完整备份起修改了的数据集合部分。增量备份和差异备份的优势在于,由于它们比完整备份包含更少的数据,所以它们在存储和处理时间方面效率更高。为了将所备份的数据集合完全恢复至特定时间点,通常恢复该时间之前的完整备份,然后直到该时间点的所有后续增量备份以它们的时间顺序被恢复。使用差异备份进行类似的处理,然而在该情况下,在恢复了完整备份之后,一般仅应恢复一个差异备份。明显地,这样的恢复操作是耗时的,并且比恢复单个备份更为复杂。为了降低上述恢复处理的复杂度,引入了合成备份的概念。合成备份由使用如下处理的备份应用构建,该处理中来自完整备份及其后续增量备份(直到特定时间点)的数据被合并到合成备份中。所创建的合成备份实际上是对应于该时间点的完整备份。这样的备份被称作“合成”,这是因为它不是由从源读取数据并将其存储为备份的常规备份处理所创建的,而是由已存在的备份的数据用于构建合成备份的“合成”处理所创建的。恢复合成备份就像恢复完整备份一样简单,并且比恢复之前所述的增量备份或差异备份的处理更快地执行。合成备份的其他优势在于,相对于创建在数据方面相同的完整备份而言,更快地创建合成备份。由于效率的优势以及合成备份所提供的其它特性,所以期望将合成备份功能与相关架构整合到去重存储系统中。因此,提供了各种实施例以用于促成在去重存储系统中构造合成备份。仅作为示例,在一实施例中,去重存储系统从备份应用接收描述源和目标数据分段的紧凑元数据指令的序列,去重存储系统基于该序列,通过将对已有备份的数据的引用添加至为正在构建的合成备份创建的元数据结构中,来有效构建合成备份。仅作为示例,在另外的实施例中,去重存储系统使新输入数据能够与已构建的合成备份的数据去重,并且出于该目的而基于合成备份所引用数据的已有摘要(digest)计算用于正构建的合成备份的去重摘要。对于正构建的合成备份的多个输入数据分段中的每个输入数据分段,从索引检索输入数据分段所引用的、所存储的数据分段的多个去重摘要。每个输入数据分段被划分为多个固定大小数据子分段中的每个,并且多个输入数据子分段中的每个可引用多个所存储的数据子分段。对于多个输入数据子分段中的每个,执行计算,产生用于输入数据子分段的去重摘要,其中该计算基于输入数据子分段所引用的多个存储数据子分段的所检索的去重摘要。多个子分段去重摘要被整合以生成每个输入数据分段的去重摘要。每个输入数据分段的去重摘要形成合成备份的去重摘要。除了以上示例性方法实施例之外,还提供了其它的示例性系统和计算机产品实施例并且提供相关优点。附图说明现在将参考附图以示例方式描述本专利技术的实施例,附图中:图1示出示例性合成备份架构;图2示出合成 备份的示例性构造流程;图3示出数据模式中的示例性引用方式;图4示出在去重存储系统中使用的构建合成备份的示例性方法;图5示出示例性去重处理;图6示出示例性最大和移位数据块;图7示出输入数据分段的k和m区分特性的示例性计算;图8示出示例性区分特性(DC)和存储标识符(SI)索引;图9不出输入子分段与所存储子分段的不例性映射;图1OA和IOB共同示出用于计算合成备份中的数据分段的区分特性的示例性方法;以及图11示出可在其中实施所示实施例的各方面的包括处理器设备的去重系统的示例性部分。具体实施例方式图1示出示例性合成备份架构10。如所示,架构10跨时间线12实施。在最早时间点生成完整备份14。从此时起,如所示,在后续间段执行增量备份16、18和20。如所示以及随后将进一步描述的那样,完整备份14以及增量备份16、18和20中的每个可被合并到合成备份22中。合成备份诸如合成备份22的构建通常包括从已有备份14、16、18和20复制数据到合成备份22中。复制可由备份应用进行,从源备份读取数据分段并且将这些数据分段写入目标合成备份中;或者更有效地由存储系统利用备份应用提供的标识源和目标数据分段的信息来进行复制。随后,图2在合成备份的示例性构建流程30中示出这两种情形。在第一种情形中,如前所述,备份应用32通过与存储服务器36进行通信而从源备份读取数据分段并将这些数据分段写入目标合成备份中,存储服务器36与存储设备40进行通信,如所示的那样。在第二种情形中,也如前所述,与存储设备42进行通信的存储服务器38使用从备份应用34获取的识别源和目标数据分段的元数据信息在合成备份的构建中复制数据,亦如所示。所示实施例的机制提供了去重存储系统内合成备份的有效构造。去重存储系统通常被设计为关于已有数据的分段来高效地表达新输入数据的分段。输入数据被处理以找出存储中的匹配分段,其然后在存储新数据的处理中被引用(而不是存储数据本身)。仅未匹配的数据分段作为实际数据被写入到存储。引用可针对存储为实际数据(没有引用)的物理数据模式,或针对物理和逻辑数据模式,其中后者本身是对物理和逻辑模式的引用集合。所示的用于有效构造合成备份的实施例的第一方面是备份应用可以向去重存储系统发出紧凑元数据指令的序列,而不是使用数据复制操作构建合成备份,其中每个指令指定现有(源)备份的数据分段及其在被构造的(目标)合成备份中的指定位置。所示实施例提供这些指令在去重存储系统内用于构造合成备份的有效处理。在所示实施例之一中,在去重存储系统内,有效地处理每个这样的指令,使得与指令所引用的数据分段相关联的元数据得以被检索,并且基于该信息创建对已有备份数据分段的引用,并将其添加至所构造的合成备份的元数据。另外,备份应用发出的输入指令可以由存储系统进行优化以提高处理效率。一个示例是合并引用相邻的源数据分段的指令以改善该处理中存储访问的效率。利用该方法,使用引用操作而以高度有效的处理构造合成备份,该引用操作是通常去重存储系统本来就支持的内部快速元数据操作。所示实施例的机制还使得新输入数据能够与合成备份的数据去重。这可以通过计算合成备份的数据的摘要而实现,该摘要用于在去重处理期间搜索存储中的相似数据分段,并且将该摘要插入到去重促成索引中,该索引在这里被称作摘要索引。当新输入数据被处理时,计算输入数据的摘要并在摘要索引中搜索它。如果在索引中找到匹配摘要(均指向存储中的相似数据分段),则使用附加处理来精炼(refine)和识别存储中的准确匹配数据分段。以这种方式,合成备份的数据可以稍后在去重处理内与新输入数据匹配。另外本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:L·阿罗诺维奇Y·托福M·海尔什
申请(专利权)人:国际商业机器公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1