当前位置: 首页 > 专利查询>谷歌公司专利>正文

用于复制内容可寻址存储集群的异步分布式去重制造技术

技术编号:7168710 阅读:347 留言:0更新日期:2012-04-11 18:40
一种方法由分布式数据复制系统中的设备组中的设备执行。该方法包括将对象的索引存储在分布式数据复制系统中,所述索引在对象由分布式数据复制系统中的多个设备本地存储时被复制。该方法还包括进行对索引的至少一部分的扫描,以及基于对索引的扫描来识别对象中的至少一个的冗余复制品。该方法进一步包括对冗余复制品进行去重,以及对索引进行更新以反映冗余复制品的状态。

【技术实现步骤摘要】
【国外来华专利技术】用于复制内容可寻址存储集群的异步分布式去重
技术介绍
企业计算局面经历了存储体系结构的根本性转变,因为中央服务体系结构已经让位于分布式存储集群。随着企业寻求增加存储效率的方式,从商品计算机构建的存储集群可以以与庞大盘阵列相比的成本的一小部分,为新的数据密集型应用提供高性能、可用性和可伸缩性。为了开启存储集群的全部潜力,跨多个地理位置复制数据,从而增加可用性, 并且减少距客户端的网络距离。数据去重(de-duplication)可以识别重复的对象,并且通过移除副本来减少所需的存储空间。结果,数据去重对于存储业变得日益重要,并且正由会包含许多副本的大型系统的需求推动。
技术实现思路
根据一个实施方式,一种方法可以由分布式数据复制系统中的设备组中的设备执行。该方法可以包括将对象的索引存储在分布式数据复制系统中,所述索引是在对象的复制品由分布式数据复制系统中的多个设备本地存储时被复制。该方法还可以包括进行对索引的至少一部分的扫描,以及基于对索引的扫描来识别对象中的至少一个的冗余复制品。 该方法可以进一步包括通过将去重记录写入索引的一部分来对冗余复制品进行去重。根据另一个实施方式,分布式数据复制系统中的设备组中的设备可以包括用于将对象的索引存储在分布式数据复制系统中的装置;用于将改变写入索引以指定对象中的一个的复制品的状态的装置;用于将对索引的改变复制到分布式数据复制系统中的多个设备的装置;用于进行对索引的至少一部分的扫描的装置;用于基于对索引的扫描来识别对象中的一个的冗余复制品的装置;以及用于对冗余复制品进行去重的装置。根据又一个实施方式,一种系统可以包括存储器,其用来存储指令、对象的数据存储以及数据存储中的对象的索引;以及处理器。处理器可以执行存储器中的指令来识别数据存储中的对象的状态,所述状态与对象是否具有复制品以及删除请求是否与对象相关联有关;基于对象的状态将去重指定记录写入索引;将具有去重指定记录的索引复制到一个或多个设备;以及从一个或多个设备中的一个接收与对象相关联的其它去重指定记录, 其中去重指定记录和其它去重指定记录为对对象的一个或多个复制品的删除提供基础。根据又一个实施方式,一种由一个或多个设备执行的方法可以包括将对象的索引存储在分布式数据复制系统内的多个设备中,以及在本地存储对象时遍及分布式数据复制系统复制索引,其中每一个设备对索引的特定子集内的对象的去重负责;进行对索引的子集中的每一个的扫描以基于扫描来识别冗余复制品;对冗余进行去重;以及自动将对象从带有具有正在进行的删除请求的复制品的设备拷贝到带有先前已被去重的复制品的设备。根据进一步实施方式,一种计算机可读存储器可以包括计算机可执行的指令。该计算机可读存储器可以包括用来进行对分布式数据复制系统中的对象的索引的一部分的扫描的一个或多个指令;用来基于对索引的一部分的扫描来识别对象中的一个的冗余复制品的一个或多个指令;用来对冗余复制品进行去重的一个或多个指令。 附图说明合并入并且构成本说明书的一部分的附示了在此描述的一个或多个实施例, 并且与描述一起说明了这些实施例。在附图中图1是在其中可以实现在此描述的系统和方法的示例性网络的图;图2是图1的文件系统的示例性配置的图;图3是图1的存储集群的示例性组件的图;图4是图1的示例性存储集群的功能框图;图5是可以在分布式多主站数据复制系统的索引内使用的示例性记录结构的图;图6A-6B是用于管理客户端发起的上载/删除操作的示例性过程的流程图;图7是用于在分布式多主站数据复制系统中执行去重的示例性过程的流程图;图8是用于管理删除请求的示例性过程的流程图;图9是用于移除重复复制品的示例性过程的流程图;图10是用于在分布式多主站数据复制系统中优化带宽消耗以及减少时延的示例性过程的流程图;以及图11是根据在此描述的一个实施方式图示了示例性全局索引的一部分的图。 具体实施例方式下面的详细描述参考附图。在不同附图中的相同参考数字可以识别相同或相似元素。并且,下面的详细描述不限制本专利技术。在此描述的系统和/或方法可以为复制的存储集群提供异步分布式去重算法,其为不可变对象提供可用性、活性以及一致性保证。在此描述的实施方式可以使用分布式多主站数据复制系统的基础复制层来在不同的存储集群之间复制内容可寻址索引(在此也被称为“全局索引”)。全局索引的每一个对象可以具有唯一内容句柄(例如,哈希值或数字签名)。在此描述的实施方式中,对冗余复制品的移除过程可以保持至少一个复制品存活。示例性网络配置图1是在其中可以实现在此描述的系统和方法的示例性系统100的图。系统100 可以包括经由网络130连接的客户端110-1至110-N(统称为客户端110,以及分别称为客户端110)以及存储集群120-1至120-M(统称为存储集群120,以及分别称为存储集群 120)。存储集群120可以形成文件系统140 (如图1中虚线所示)。网络130可以包括一个或多个网络,诸如局域网(LAN)、广域网(WAN)、电话网络 (例如,公共交换电话网络(PSTN))、内联网、因特网、相似或相异网络、或网络的组合。客户端110和存储集群120可以经由有线和/或无线连接连接到网络130。客户端110可以包括一种或多种类型的设备,诸如个人计算机、无线电话、个人数字助理(PDA)、膝上型计算机或另一种类型的通信设备、和/或运行于这些设备中的一个上的线程或进程。在一个实施方式中,客户端110包括或被联接到应用,在所述应用代表下客户端110与存储集群120通信以读取或修改(例如,写)文件数据。存储集群120可以包括一个或多个服务器设备、或其它类型的计算或通信设备,6其可以以在此描述的方式存储、处理、搜索和/或提供信息。在一个实施方式中,存储集群 120可以包括能够为文件维护大型、随机读/写访问数据存储的一个或多个服务器(例如, 计算机系统和/或应用)。如果发生改变,则存储集群120的数据存储可以允许索引系统快速更新索引的部分。存储集群120的数据存储可以包括一个或多个表(例如,可以包括每统一资源定位符(URL) —行的文档表、由URL之外的值作为键的辅助表等)。在一个示例中,存储集群120可以被包括在用于管理结构化数据(例如,文档的随机存取存储集群) 的分布式存储系统(例如,如在第七届OSDI论文集(2006年11月)、第205-218页、Chang 等人白勺“Bigtable Distributed Storage System for Structured Data(Bigtable 于结构化数据的分布式存储系统)”中阐述的"Bigtable")中,所述结构化数据可以被设计为缩放到非常大的大小(例如,跨数千服务器的千兆兆字节的数据)。尽管在图1中未示出,但是系统100可以包括多种其它组件,诸如一个或多个专用客户服务器或集线器。客户服务器例如可以存储来自一个或多个存储集群120的数据存储的只读副本以供客户端110访问。集线器例如可以存储来自一个或多个存储集群120的数据存储的只读副本以分发到一个或多个客户服务器。示例性存储集群配置图2是文件系统140的示例性配置的图。如图2中所示,文件系统140可以包括存储集群120-1、120-2、120-3以及120-4。在一个本文档来自技高网...

【技术保护点】
1.一种由分布式数据复制系统中的多个设备中的设备执行的方法,所述方法包括:将对象的索引存储在所述分布式数据复制系统中,所述索引是在所述对象的复制品由所述分布式数据复制系统中的所述多个设备本地存储时被复制的;进行对所述索引的至少一部分的扫描;基于对所述索引的所述扫描来识别所述对象中的至少一个的冗余复制品;以及通过将去重记录写入所述索引的一部分来对所述冗余复制品进行去重。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:贾·达图阿什维利
申请(专利权)人:谷歌公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1