选择用于取消重复数据的存储制造技术

技术编号:12882412 阅读:123 留言:0更新日期:2016-02-17 15:07
一种技术包括将与对象的块相关联的多个散列传送到对象在其上被分布的多个存储中的至少一些存储;以及响应于该传送,接收指示关联块的分布的响应。该技术包括至少部分地基于该响应来选择存储中的一个,并且向所选择的存储传送与对象相关联的取消重复的数据。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】
技术介绍
如果数据被损坏、被覆写、经受病毒攻击等,则为了将网络上的数据(例如,包含在一个或多个文件中的数据)恢复成先前状态的目的,典型的计算机网络可以具有备份和恢复系统。备份和恢复系统典型地包括大容量存储设备,诸如磁带驱动器和/或硬盘驱动器;并且该系统可以包括物理和/或虚拟可移除存储设备。例如,备份和恢复系统可以将备份数据存储在磁带上,并且在将备份数据转移到给定磁带之后,磁带可以从其带驱动器移除并且被存储在安全位置,诸如防火保险柜中。备份和恢复系统可以替代地是基于虚拟带库的系统,其模拟并且替代物理磁带驱动器系统。以该方式,通过基于虚拟带库的系统,虚拟磁带盒代替磁带来存储备份数据。【附图说明】图1是根据示例性实现的计算机网络的示意图。图2是根据示例性实现的数据存储系统的图示。图3和图4是根据示例性实现的由图2的数据存储系统使用以选择用于接收取消重复数据的组成员的竞价过程的图示。图5是根据示例性实现的在多个组成员上的合作对象的存储分布的图示。图6是描绘根据示例性实现的用于存储组成员的集群上的合作对象的技术的流程图。图7、图8A和图SB是描绘根据示例性实现的用于选择用于取消重复数据的存储的组成员的技术的流程图。图9是描绘根据示例性实现的用于检索和报告部分合作对象数据的技术的流程图。图10是用于图示根据示例性实现的从组成员中检索合作对象数据的表。图11是描绘根据示例性实现的用于在组成员当中分布主对象清单的技术的流程图。图12是根据示例性实现的主对象清单的分布的图示。图13是根据示例性实现的取消重复数据的组成员控制的复制的图示。图14是根据示例性实现的非混合复制过程的图示。【具体实施方式】参考图1,示例性计算机网络100可以包括备份和恢复系统,该备份和恢复系统包括在各个服务器110 (服务器110-1、110-2…110Q,在图1中示作示例)上执行的备份应用132和附属客户端应用134。以该方式,备份应用132时常识别要在网络100的备份存储设备上备份的针对附属客户端应用134的数据。该数据进而根据本文称为“对象”的数据容器被划分。存储在备份存储上的给定对象逐个备份会话地被创建、删除和修改。如本文公开的,在其本文讨论的许多功能当中,客户端应用134被构建为识别对象数据中的改变;选择存储有更新的数据的存储;并且将更新的数据传送到所选择的存储。例如,“存储”可以是独立的计算机系统或同一计算机系统上的独立存储子系统。对于图1的具体示例,在各个节点150 (P个节点150-1、150-2...150P,在图1中示作示例)上形成存储,节点150经由网络连接140 (根据具体实现,局域网(LAN)连接、基于因特网的连接、广域网(WAN)连接、这样连接的组合等)耦合到服务器110。如本文公开的,给定对象作为“合作对象”被存储在存储的集群或群组上。由于合作的性质而导致“存储”在本文中也被称为“组成员170”。以该方式,根据示例性实现,给定“合作对象”的每个组成员170存储用于该对象的“取消重复数据”,其中,该取消重复数据是从初始数据集合以及表示初始存储的数据中的改变的数据形成的。这样,可以针对给定的合作对象从组成员170中检索取消重复数据以“重新混合”或重建该对象。通常,服务器110是由实际硬件120和实际机器可执行指令或“软件” 130组成的物理机。在这方面,给定服务器110可以包括这样的硬件120作为一个或多个中央处理单元(CPU)122、存储器124、网络接口 126等。通常,存储器124是非瞬时存储器,诸如磁存储装置、光存储装置、从半导体器件形成的存储装置等。存储器124可以本地存储用于服务器110的数据,并且存储在由CPU (多个)122执行时使得CPU (多个)提供机器可执行指令130中的一个或多个组件的指令。如图1所示,机器可执行指令130包括备份应用132和客户端应用134、以及创建、修改和删除对象的其他可能的其他应用。给定的组成员170可以在处理节点150上形成,该处理节点150也是由实际硬件158和实际机器可执行指令159组成的实际物理机。硬件158可以包括例如一个或多个中央处理单元(CPU)160、网络接口和存储器162。存储器162是非瞬时存储器,并且根据具体实现可以是基于磁存储的存储器、基于光存储的存储器、基于半导体存储的存储器等。节点150可以包括机器可执行指令159,机器可执行指令159包括例如组成员客户端应用168。因此,根据示例性实现,存在于可能多个节点150上的组成员170的集群或群组可以形成用于给定合作对象的存储装置。此外,虽然本文中描述为存在于单独的节点150上,但是根据其他实现,给定的合作对象可以被存储在独立的组成员上,其中两个或更多个组成员位于同一节点150上。因此,可以想到在所附权利要求的范围内的许多实现。结合图1参考图2,根据示例性实现,合作对象208可以向给定客户端应用134呈现为单个逻辑对象,但是在组成员170的群组或集群上分布用于对象208的数据。该合作对象的逻辑呈现向应用提供单个存储池,其横跨集群内的其他独立存储池。根据一些实现,客户端应用134不在本地存储关于给定合作对象的内容的任何信息。这允许多个客户端应用134并且因此多个备份应用132来同时访问同一合作对象,并且还避免创建在特定客户端应用134和所存储的数据之间的相关性。如本文进一步公开的,为了简化与现有备份应用的集成,每个组成员170可以知道给定合作对象的其他组成员170,并且可以向客户端应用134指令其位置。这允许备份应用132连接到组成员170中的任何一个,并且还允许客户端应用134静默地开放与所有组成员170的连接。这可以有助于避免暴露复杂配置,并且允许在备份应用132内的合作对象的管理,其可以例如通过单个端点拓扑来设计。因为给定的合作对象涉及多个独立操作的组成员170,所以根据一些实现,客户端应用134将来自多个组成员170的信息合并成被传送到附属备份应用132的有意义的信息。以该方式,根据一些实现,给定的组成员170可以存储独立的列表、数据作业记录、复制作业记录等,给定的客户端应用134可以将其合并成用于备份应用132的有意义的信息。对于在列表中返回的许多字段,客户端应用134提供来自组成员存储的所有返回值的汇总,例如存储的用户数据量。对于其他字段,例如,客户端应用134将独立状态“集中”成总体状态,诸如最严重的状态(多个)。当客户端应用134执行跨组成员170中的每一个的列表操作时,不保证在列表中的条目的绝对顺序。例如,可以实际上同时创建两个合作对象,并且对于给定的组成员170,可以首先存储对象一,而在另一给定其他组成员170上,可能已经首先创建了对象二。为了向备份应用132提供单个稳定列表的目的,使用通用标识,并且使用列表操作来在查找关联记录的合理时间窗口内在存储装置中进行搜索。通过具有运行搜索的基于时间的窗口,可以避免下述情况,其中,每当成员170查找条目时就搜索整个数据库,这在特定情况下甚至可能不存在。例如,时间窗口可以是大约5分钟范围的时间窗口,但是该窗口可以根据具体配置和/或实现而变化。如图2所示,虽然给定的分布式合作对象208可以在多个组成员170当中被分布,本文档来自技高网...

【技术保护点】
一种方法,包括:将与对象的块相关联的多个散列传送到所述对象在其上被分布的多个存储中的至少一些存储;响应于所述传送,接收指示关联块的分布的响应;至少部分地基于所述响应来选择所述存储中的一个;以及向所选择的存储传送与所述对象相关联的取消重复的数据。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:A托德PT坎布尔WK永K钱德拉塞哈兰D苏埃尔
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1