存储系统技术方案

技术编号:8659679 阅读:186 留言:0更新日期:2013-05-02 06:44
存储系统包括第一辅助存储设备、第二辅助存储设备和主存储系统并且还包括数据管理单元,其通过参考存储在第一辅助存储设备中的存储目标数据的特征数据而将基于特征数据的索引数据存储和保持在主存储设备中。并且如果存储和保持在主存储设备中的索引数据达到预设量,则将存储和保持在主存储设备中的索引数据存储和保持在第二辅助存储设备中,并且从主存储设备删除被存储和保持在第二辅助存储设备中的索引数据。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种存储系统,并且特别地,涉及一种具有重复存储消除功能的存储系统。
技术介绍
在过去数年,数据去重(deduplication)已经变成存储系统领域中的最广泛研究的主题之一。它实现显著节省,因为所需的存储空间可以减少高达20倍数,对于备份用途而言尤其如此。除了容量优化之外,去重还可以优化写带宽。如果系统提供(在写数据期间执行的)内嵌(in-line)去重并且通过仅比较其哈希来验证组块的相等,则重复块的数据无需被存储在盘上或是甚至通过网络传输。然而,提供一种用于标识重复的有效方式却并非易事。考虑具有可靠的内嵌去重的示例单节点基于盘的存储系统。假设具有12个ITB盘的2u存储节点,用于每个节点共计12TB盘空间。通过比较组块的内容的哈希而在组块级完成去重。相关工作表明8kB的组块大小是一个合理的选择。为了提供具有该组块大小的去重,需要一个用于15亿个条目的词典。仅仅是保持用于它们的哈希便将消耗对于SHA-1而言是30GB或者对于SHA-256而言是50GB,并且不会适应合理大小的RAM。目前的系统将词典实现为驻盘(disk-resident)哈希表。然而,数据组块的哈希是均与分布的,并且在访问它们时没有局部性。这使得直接高速缓存是低效的,并且导致查找期间从盘的随机读取。NPL I和2建议两个优化技术的组合。1.为了在查找不存在于系统中的组块期间避免盘访问,在存储器中的布隆过滤器中概括所有哈希。这加速了否定回答。2.预取假设写 入重复的顺序将与写入原有组块的顺序相同。哈希被附加地保持在反映其初始写入顺序的特殊文件中。这加速了肯定答复,但是只有在该顺序被保留的情况下才会如此。引用列表非专利文献非专利文献I:ZHU,B.,LI,K.,AND PATTERSON,H.Avoiding the disk bottleneckin the data domain deduplication file system.1n FAST' 08:Proceedings of the6th USENIX Conference on File and Storage Technologies(Berkeley, CA, USA, 2008),USENIX Association,pp.1-14.非专利文献2:RHEA,S.,COX, R.,AND PESTEREV,A.Fast,inexpensivecontent-addressed storage in foundation.1n Proceedings of the 2008 USENIXAnnual Technical Conference (Berkeley,CA,USA,2008),USENIX Association,pp.143-156.非专利文献3:DEBNATH,B.,SENGUPTA,S.,AND LI,J.Chunkstash !Speeding upinline storage deduplication using flash memory.1n 2010 USENIX Annual TechnicalConference(June 2010).非专利文献4:MEISTER,D.,AND BRINKMANN,A.dedupvl JmprovingDeduplication Throughput using Solid State Drives (SSD).1n Proceedings of the26th IEEE Symposium on Massive Storage Systems and Technologies (MSST) (May2010).非专利文献5;QUINLAN, S.,AND D0RWARD,S.Venti:a new approach to archivalstorage.1n First USENIX conference on File and Storage Technologies(Monterey,CA,2002),USENIX Association,pp.89-101.非专利文献6:WEI, J.,JIANG, H.,ZHOU, K.,AND FENG, D.Mad2:A scalablehigh-throughput exact deduplication approach for network backup services.1n Proceedings of the 26th IEEE Symposium on Massive Storage Systems andTechnologies(MSST)(May 2010).非专利文献7:LILLIBRIDGE, M.,ESHGHI,K.,BHAGWAT, D.,DEOLALIKAR,V.,TREZIS,G., AND CAMBLE,P.Sparse indexing:Large scale,inline deduplication usingsampling and locality.1n FAST(2009),pp.111-123.非专利文献8:BHAGWAT, D.,ESHGHI,K.,LONG,D.D.E.,AND LILLIBRIDGE,M.Extreme binning:Scalable,parallel deduplication for chunk-based file backup.非专利文献9:MING YANG,T.,FENG,D.,YING NIU,Z.,AND PING WAN, Y.Scalablehigh performance de-duplication backup via hash join.Journal of ZhejiangUniversity-Science C 11,5 (2010),315-327.非专利文献10:YANG,T.,JIANGY,H.,FENGZ, D.,AND NIU, Z.Debar:A scalablehigh-performance de-duplication storage system for backup and archiving.Tech.rep., University of Nebraska—Lincoln,2009.非专利文献11:CLEMENTS, A.,AHMAD,1.,VILAYANNUR, M.,AND LI,J.Decentralized deduplication in san cluster file systems.1n Proceedings of theUSENIX Annual Technical Conference (June 2009).非专利文献12:G0KHALE, S.,AGRAWAL, N.,Ν00ΝΑΝ,S.,AND UNGUREANU,C.KVZoneand the Search for a Write-Optimized Key-Value Store.1n USENIX 2nd Workshop onHot Topics in Storage and File Systems (HotStorag本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.09.09 US 61/381,1611.一种存储系统,包括: 第一辅助存储设备,用于对存储目标数据进行存储; 第二辅助存储设备,具有比所述第一辅助存储设备的数据读/写速度更高的数据读/与速度; 主存储设备,具有比所述第一辅助存储设备和所述第二辅助存储设备的所述数据读/写速度更高的数据读/写速度; 数据管理单元,将存储目标数据存储在所述第一辅助存储设备中,使用基于所述存储目标数据的数据内容的特征数据来管理所述存储目标数据的存储位置,并且从基于所述特征数据的数据内容的索引数据参考所述特征数据;以及 重复确定单元,使用基于新近将被存储的存储目标数据的数据内容的所述特征数据以及基于所述特征数据的所述数据内容的所述索引数据,来确定与所述新近将被存储的存储目标数据相同的存储目标数据是否已被存储在所述第一辅助存储设备中,其中 所述数据管理单元通过参考存储在所述第一辅助存储设备中的所述存储目标数据的所述特征数据而将基于所述特征数据的所述索引数据存储和保持在所述主存储设备中,并且如果存储和保持在所述主存储设备中的所述索引数据达到预设量,则将存储和保持在所述主存储设备中的所述索引数据存储和保持在所述第二辅助存储设备中,并且从所述主存储设备删除被存储和保持在所述第二辅助存储设备中的所述索引数据。2.根据权利要求1所述的存储系统,其中: 如果存储和保持在所述第二辅助存储设备中的所述索引数据达到所述预设量,所述数据管理单元对存储和保持 在所述第二辅助存储设备中的所述索引数据的多个单元进行合并,将合并后的所述数据再次存储和保持在所述第二辅助存储设备中,并且从所述第二辅助存储设备删除合并前的所述索引数据。3.根据权利要求2所述的存储系统,其中 所述数据管理单元对存储和保持在所述第二辅助存储设备中的所述索引数据的所述多个单元与存储和保持在所述主存储设备中的所述索引数据进行合并,并且将合并后的所述数据再次存储在所述第二辅助存储设备中,并且从所述第二辅助存储设备和所述主存储设备删除合并前的所述索引数据。4.根据权利要求2所述的存储系统,其中 所述数据管理单元将基于所述索引数据的数据内容的元素数据存储在所述主存储设备中,所述元素数据用于确定是否存在被存储在所述第二辅助存储设备中的所述索引数据。5.根据权利要求4所述的存储系统,其中 当所述数据管理单元对存储在所述第二辅助存储设备中的所述索引数据的所述单元进行合并并且将合并后的所述数据再次存储在所述第二辅助存储设备中时,所述数据管理单元释放存储在所述主存储设备中的所述索弓I数据的所述元素数据。6.根据权利要求1所述的存储系统,其中 所述第一辅助存储设备是硬盘驱动器,并且所述第二辅助存储设备是固态驱动器(SSD)。7.一种存储程序的计算机可读介质,所述程序包括用于使信息处理设备实现以下各项的指令,所述信息处理设备包括:第一辅助存储设备,用于对存储目标数据进行存储;第二辅助存储设备,具有比所述第一辅助存储设备的数据读/写速度更高的数据读/写速度;以及主存储设备,具有比所述第一辅助存储设备和所述...

【专利技术属性】
技术研发人员:J·萨克泽普科维斯基M·韦尔尼克基C·达布尼克基
申请(专利权)人:日本电气株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1