存储系统技术方案

技术编号:8687895 阅读:187 留言:0更新日期:2013-05-09 07:43
存储系统包括数据存储控制单元,该数据存储控制单元以分布式的方式在多个存储设备中存储通过分割存储目标数据而生成的块数据的多个单元,并且执行重复存储消除。该数据存储控制单元在该多个存储设备中的特定存储设备中存储通过分割该存储目标数据而生成的、该存储目标数据的块数据的多个连续单元,在该特定存储设备中彼此关联地存储基于该块数据的数据内容的特征数据和表示该块数据在该特定存储设备中的存储位置的存储位置信息以作为存储位置指定表,并且彼此关联地存储用于标识该特定存储设备的存储设备标识信息和被存储在该特定存储设备中的该块数据的该特征数据以作为存储设备指定表。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及存储系统,并且具体而言涉及具有重复存储消除功能的存储系统。
技术介绍
辅助存储系统的去重(deduplication)目前已在研究和商用应用中引起广泛关注。通过识别数据中相同的块并且仅存储这种块的单个副本,去重使得存储容量要求显著降低。以前的结果已经显示在备份数据中存在明显重复。这并不奇怪,因为相同系统的后续备份通常非常相似。去重存储系统在多个维度上不同。一些系统仅对相同的文件进行去重,而其他系统将文件分割成更小的块并且对这些块进行去重。本专利技术将关注块级别的去重,因为备份应用典型地对来自被备份到大型tar类的档案文件中的文件系统的单独的文件进行聚合。在文件级别上的去重将不会提供多少空间减少。块可以具有固定的或可变的尺寸,其中典型地由内容定义的组块产生尺寸可变的块。显示出使用内容定义的尺寸可变的块显著提高了去重效率。大部分系统消除相同的块,而一些系统仅需要块存储是类似的,并且有效地存储差异。虽然这可以提高去重效率,但是其需要从盘读取以前的块,这使得难以传递高的写吞吐量。本专利技术因此将关注本文中的相同的块的去重。(去重存储的概述)典型地通过由备份应用创建的长数据流提供备份存储系统。这些流典型地是档案文件或虚拟磁带图像。数据流被分割成块,并且针对每个块计算安全哈希(例如SHA-1)。然后将这些哈希值与以前存储在系统中的块的哈希值进行比较。由于极不可能找到安全哈希函数的哈希冲突,所以具有相同哈希值的块可以假设是相同的(所谓的通过哈希比较)。因此,如果找到具有相同哈希的块,则认为该块是重复的并且不存储该块。构成该数据流的全部块的标识符被存储并且可用于重构读取的原始数据流。引用列表非专利文献NPL I:DUBNICKI, C.,GRYZ, L.,HELDT, L.,KACZMARCZYK, Μ.,KILIAN, ff.,STRZELCZAK, P., SZCZEPKOWSKI, J., UNGUREANU, C., AND WELNICKI, Μ., HYDRAstor:a Scalable Secondary Storage。在 7th USENIX Conference on File and StorageTechnologyies(San Francisco, California, USA, February 2009)。NPL 2:ZHU, B.,LI, K.,AND PATTERSON, H.,Avoiding the disk bottleneck inthe data domain deduplication file system。在FAST’OS:the 6th USENIX Conferenceon File and Storage Technologyies (Berkeley, CA, USA,2008), USENIX Association,pp.1-14。NPL 3:BIRK, Y., Random raids with selective exploitation of redundancyfor high performance video servers,671—681。NPL 4:UNGUREANU, C.,ARANYA, A.,GOKHALE, S.,RAGO, S.,ATKIN, B.,BOHRA, A.,DUBNICKI, C., AND CALKOffSKI, G., Hydrafs:A high-throughput file system for thehydrastor content addressable storage system。在 FAST’ 10:Proceedings of the8th USENIX Conference on File and Storage Technologies(Berkeley, CA, USA, 2010),USENIX Association, pp.225-239。NPL 5:DUBNICKI, C.,UNGUREANU, C.,AND KILIAN, ff.,FPN:A DistributedHash Table for Commercial Applications。 在 Proceedings of the ThirteenthInternational Symposium on High-Performance Distributed Computing(HPDC-132004)(Honolulu, Hawaii, June 2004),pp.120-128。NPL 6:BEN-OR, M., Another advantage of free choice(extended abstract):Completely asynchronous agreement protocols。 在 PODCJ 83:Proceedings of thesecond annual ACM symposium on Principles of distributed computing(New York,NY,USA,1983),ACM,pp.27-30。NPL 7:LAMPORT, L., The part-time parIlamentACM Trans.Comput.Syst.16,2(1998),133-169。
技术实现思路
技术问题(基于盘的去重的性能挑战)为了实现大规模去重存储系统,必须克服一些重大的性能挑战。大型系统存储太多的块,因而它们的哈希不适应主存储器。使用哈希的简单的盘上索引将由于进行索引查找而导致性能非常差,索引查找实际上是随机读取。一些系统通过临时存储全部输入块并且离线完成去重来解决该问题。由于预先已知全部新块,所以可以按照哈希次序重新排列哈希查找,并且可以成批地有效地执行查找。但是,离线去重需要用于临时块存储的大的、高性能的暂存区域。另一方面,内嵌(inline)去重系统可以避免将重复的块写在一起,从而在典型的重复性高的情况下提供更高的写性倉泛。大部分系统(如NPL I中公开的系统)通过依靠流局域性观察来解决该问题一典型而言,连续备份中的重复块按照在与来自原始备份的那些块相同的顺序出现。通过保留备份流的局域性,可以有效地预取许多重复块的哈希。通过使用存储器中的布隆过滤器,或者通过接受近似重复以便以一些重复可能性换取更好的性能,可以有效地识别非重复的块。另一个问题在于由于流分段而导致流读取性能降低。由于重复块被存储在与最新写入的块不同的位置中,所以看起来大的顺序读取被内在地分解成多个较短的读取。在进行精确去重的系统中,如果两个流被存储在该系统中,其中一个流是另一个流的随机置换,则该问题是固有的,这些流中的至少一个流将必须发出少量的、随机读取。实际上,允许有效去重的相同流局域性观察使得该最坏情况不可能发生。但是,随着分段典型地随着系统的年龄增长,应该注意内部局域性不要进一步被差的数据放置减少。(可缩放全局去重)如NPL 2中描述的集中化系统例如在系统尺寸方面具有有限的可缩放性。可以建立多个独立的系统以对容量进行缩放,但是这阻碍了它们之间的去重,并且通过向孤立的存储岛安装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.09.30 US 61/388,2621.一种存储系统,包括: 数据存储控制单元,所述数据存储控制单元以分布式的方式在多个存储设备中存储通过分割存储目标数据而生成的块数据的多个单元,并且当试图在存储设备中存储具有与已被存储在存储设备中的存储目标数据的数据内容相同的数据内容的另一条存储目标数据时,通过参考已被存储在所述存储设备中的所述存储目标数据作为所述另一条存储目标数据来执行重复存储消除,其中 所述数据存储控制单元在所述多个存储设备中的特定存储设备中存储通过分割所述存储目标数据而生成的所述存储目标数据的块数据的多个连续单元,在所述特定存储设备中彼此关联地存储基于所述块数据的数据内容的特征数据和表示所述块数据在所述特定存储设备中的存储位置的存储位置信息,以作为存储位置指定表,并且彼此关联地存储用于标识所述特定存储设备的存储设备标识信息和被存储在所述特定存储设备中的所述块数据的所述特征数据,以作为存储设备指定表。2.根据权利要求1所述的存储系统,其中 所述数据存储控制单元基于通过分割新近将要存储的存储目标数据而生成的块数据的所述特征数据来参考所述存储设备指定表,以便指定存储包括所述块数据的所述特征数据的所述存储位置指定表的所述特定存储设备,并且从所述特定存储设备读出所述存储位置指定表。3.根据权利要求2所述的存储系统,其中 所述数据存储控制单元基于从所述特定存储设备读出的所述存储位置指定表,来确定通过分割新近将要存储的所述存储目标数据而生成的所述块数据是否已被存储在所述存储设备中。4.根据权利要求3所述的存储系统,其中 如果通过分割新近将要存储的所述存储目标数据而生成的所述块数据的所述特征数据不存在于从所述特定存储设备读出的所述存储位置指定表中,则所述数据存储控制单元通过基于通过分割新近将要存储的所述存储目标数据而生成的所述块数据的所述特征数据来参考所述存储设备指定表,来指定存储包括所述块数据的所述特征数据的另一存储位置指定表的另一特定存储设备,并且从所述另一特定存储设备读出所述另一存储位置指定表。5.根据权利要求1所述的存储系统,还包括: 至少一个第一服务器,所述至少一个第一服务器控制将存储目标数据存储到多个存储设备中的操作,以及 多个第二服务器,所述多个第二服务器构成所述多个存储设备,其中 所述数据存储控制单元将所述存储位置指定表从所述第二服务器中的一个第二服务器读出到所述第一服务器。6.根据权利要求5所述的存储系统,还包括: 多个第三服务器,所述多个第三服务器存储所述存储设备指定表,其中 所述数据存储...

【专利技术属性】
技术研发人员:M·韦尔尼克基J·萨克泽普科维斯基C·达布尼克基
申请(专利权)人:日本电气株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1