当前位置: 首页 > 专利查询>数据域公司专利>正文

播种复制制造技术

技术编号:4554102 阅读:179 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种播种复制方法。选择存储在重复删除的存储系统上要被复制的一个或多个而非所有文件。确定由所选择的一个或多个而非所有文件所涉及的一个或多个段。创建用于指示至少所述一个或多个段要被复制的数据结构。如果至少部分地基于所述数据结构的指示指示了存储在所述重复删除存储系统上的候选段要被复制,则复制所述候选段。

【技术实现步骤摘要】
【国外来华专利技术】播种复制 本申请要求于2007年4月19日提交的、题目为SEEDINGREPLICATION(播种复制) 的美国临时专利申请号60/925, 624(代理人文案号DD0MP022+)的优先权,为了所有目的在 此将其引入以供参考。
技术介绍
副本系统(r印lica system)存储与源系统(originating system)相同的数据或 相同的数据的一部分。副本系统可以被用于当在源系统中的数据损坏或丢失时恢复数据。 为了高效存储,副本系统和源系统都可以是重复删除系统(deduplicating system),在该 重复删除系统中,进入数据被分成段,并且如果该段已经存储在该系统中,则存储对该已存 储段的引用,而不是再次存储该段。重复删除典型地在该系统存储数据所需要的空间量上 导致了相当大的(例如,10X)减少。 当首先开始从一个系统到另一个的复制时,如果副本是存储与源系统相同的数据 的全部,那么任务是明确的从头至尾传输所有的数据。由于仅使得文件重建能够实现的引 用和被重复删除的段需要被发送,所以对于重复删除系统来说这是高效的。然而,如果副本 是只存储起源者系统(originator system)上数据的一部分,那么所存储的段中的哪些需 要被发送给副本就不是显而易见的。 一种简单的解决方案是匆匆查阅针对要被存储在副本 上的那部分数据的段的引用列表,并且询问副本系统涉及的段是否已经被存储。如果该段 还未存储到副本系统上,于是该段才会被传送。然而,对于列表中的每个引用而言这需要来 回流量(traffic),以及对于段的每个引用而言这需要由副本系统来检查。通过重复删除, 可能有比实际数据段多很多倍的这样的引用。能够在不产生流量和检查段的每个引用的情 况下,对存储在重复删除的系统中的部分数据进行种子复制会是有益的。 当将存储在一个重复删除的系统上的部分数据一次性拷贝到第二重复删除的系 统上时存在相似的情形。正被拷贝的那部分数据所引用的所有段都需要被发送到该第二系 统。然而,如上所述,检查每个引用以看看相应的段是否要被发送到第二系统,对于需要检 查的每个引用引用而言这会在这两个系统之间产生相当大的流量。能够在不产生流量和检 查段的每个引用的情况下将存储在重复删除的系统上的部分数据进行拷贝会是有益的。附图说明 在以下的详细说明和附图中公开了本专利技术的各种实施例。 图1是图示用于播种复制的系统的实施例的框图。 图2A是图示一部分数据流或数据块的实施例的框图。 图2B是图示对一部分数据流或数据块进行分段的实施例的框图。 图3是图示文件引用的实施例的框图。 图4A是图示数据结构的实施例的框图。 图4B是图示数据结构的实施例的框图。 图4C是图示数据结构的实施例的框图。 图5是图示用于播种复制的过程的实施例的流程图。 图6是图示用于确定引用的段的过程的实施例的流程图。 图7A是图示用于向数据结构中进行添加的过程的实施例的流程图。 图7B是图示用于向数据结构中进行添加的过程的实施例的流程图。 图7C是图示用于向数据结构中进行添加的过程的实施例的流程图。 图8A是图示用于对段进行复制的过程的实施例的流程图。 图8B是图示用于对段进行复制的过程的实施例的流程图。具体实施例方式本专利技术能够以众多种方式予以实现,包括实现为过程、设备、系统、物质的组成、诸 如计算机可读存储介质之类的计算机可读介质或者计算机网络,其中程序指令在光或通信 链路上被发送。在此说明书中,这些实现方式,或者本专利技术可以采取的任何其他形式,可以 被称为技术。诸如处理器或存储器之类的被描述为配置成执行任务的元件,包括在给定时 间临时被配置为执行该任务的通用元件或者被制造成执行该任务的特定元件这两者。总的 来说,在本专利技术的范围之内,可以改变所公开的过程中步骤的次序。 下面连同图示本专利技术原理的附图提供了对本专利技术的一个或多个实施例的详细描 述。本专利技术是结合这样的实施例予以描述的,但不限于任何实施例。本专利技术的范围仅由权 利要求限定且本专利技术包括众多可替换例、修改和等价物。为了提供对本专利技术的透彻理解,在 下面的描述中阐述了众多特定细节。提供这些细节是出于举例的目的,并且本专利技术在没有 这些特定细节中的一些或者全部的情况下可以根据权利要求予以实践。为清楚起见,对在 本专利技术有关
中已知的技术资料未进行详细的描述,以便本专利技术不会被不必要地混 淆。 公开了播种复制。在重复删除的系统中,针对源系统上共享公共段池的数据的一 部分的播种复制,要求确定使得这部分数据的重建得以实现的所引用的段。可以生成包含 关于被引用段的信息的列表或数据结构。对于起源者系统上所存储的唯一段而言,可以使 用该列表或数据结构对每个进行检查以看看是否该段已经被该部分数据引用。如果该段已 经被引用,则将该段发送到副本系统。这允许源系统和副本系统之间来回的通信被减少到 段级而不是引用级。再者,就数据结构来说,对存储器的高效使用是可能的,这是因为向量 (vector)大大小于唯一的被引用段的列表。另外,在未与该副本系统进行任何通信的情况 下在起源者系统上生成该列表或数据结构,从而节省了起源者系统和副本系统之间的通信 带宽。 在一些实施例中,多个文件将涉及相同的存储段,这是因为在这些不同的文件中 的段的内容是相同的。这与在相同系统中存储了相同文件的多个版本的情况(例如,当在 一个系统上存储了系统的多个快照时)形成对比,其中该相同文件的多个版本中的每一个 涉及相同段。文件可以实现文件系统中的文件、逻辑块设备、虚拟磁带盒、数据库表,或者数 据存储系统可以存储的任何其它种类的数据对象或这样的数据对象的一部分。 图1是图示用于播种复制的系统的实施例的框图。在所示的实例中,存储系统100 为图1中由客户端112和客户端108所表示的客户端存储数据。客户端除本地存储器外还 可以具有本地存储设备。例如,客户端108具有存储110,而客户端112不具有本地存储设备。存储系统100或者使用内部存储设备102或者使用附连的外部存储设备104来存储数 据。 存储系统100经由网络106与客户端通信。网络106包括下述中的一个或多个 局域网、广域网、有线网络、无线网络、因特网、光纤网络,或能够实现通信的任何其他适当 网络。存储系统100也经由网络106与副本系统120通信。副本系统120包含内部存储设 备122,并连接到外部存储设备124。 副本系统120存储在存储系统100上所存储的数据的全部或者一部分。最初,存 储系统100上所存储的数据的全部或一部分通过经由网络106发送适当的数据而被复制到 副本系统120上。在最初的播种之后,副本系统120通过从存储系统100发送新的数据而 被更新。更新可以是持续的,,当数据量超过一定大小时,或在其他适当的时间时,定期一阵 (in bursts)发送。就数据拷贝来说,最初的播种完成了该任务并且没有后续更新。 在各种实施例中,存储设备102,104,122和124包括单个存储设备、多个存储设 备、诸如图书馆系统或者网络附连的存储系统之类的用于存储的系统或者任何其它适当的 存储设备或者系统,所述单个存储设备诸如硬盘、磁带机、半导体存储器,所述多个存储设 备诸如冗余阵列系统(例如独立磁盘冗本文档来自技高网
...

【技术保护点】
一种播种复制的方法,包括:    选择存储在重复删除的存储系统上要复制的一个或多个而非所有文件;    确定由所选择的一个或多个而非所有文件所涉及的一个或多个段;    创建被用于指示至少所述一个或多个段是要被复制的数据结构;以及    如果至少部分地基于所述数据结构的指示指示了存储在所述重复删除存储系统上的候选段是要复制的,则复制所述候选段。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:RH帕特森
申请(专利权)人:数据域公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1