一种适用于海量存储系统的重复数据删除方法技术方案

技术编号:8453064 阅读:219 留言:0更新日期:2013-03-21 17:22
本发明专利技术提供一种适用于海量存储系统的重复数据删除方法,采用4KB-8KB的小块来截分数据流,采用Hash值和数据指纹的双重验证来确保重复数据的删除率,采用SSD存储Hash索引来提高检索效率,重复数据删除适用于高重复数据,例如较低的数据变化率,完全的数据备份,数据长期保存以及非活动数据,在这些应用环境下能够达到最高的效率,即最高的重复数据删除率,也可以理解为磁盘空间释放比,传统的固定重复数据删除技术,分块数据流一般是采用64KB-128KB的块大小,因为内存RAM和HDD磁盘间速率的差异性,这样做就不会因为块太小而影响性能,但却会因为块过大而影响重复数据的删除比。

【技术实现步骤摘要】

本专利技术涉及计算机系统及海量存储系统,具体地说是。
技术介绍
由于磁盘技术近年来的快速发展,一些企业和用户也倾向于使用大容量的磁盘来进行备份或者归档。传统的备份策略往往会在存储设备的磁盘空间里面产生大量的冗余数据,消耗了大量不必要的磁盘空间,造成设备资源的浪费;而且因为太多的冗余数据,造成磁盘搜索定位时间的延长,也降低了系统的整体性能。重复数据删除解决了这些问题,它将要备份的数据进行比对,如果有相同的数据则以一个连接或指向来替代,这样不仅节约了数据存储所需要的存储空间,而且因为数据量的减少,也降低了磁盘的定位时间。它不仅有效的控制了数据的急剧增长,也增加了有效存储空间,提高了存储效率,节省了存储的总成本和管理成本,同时也节省了数据传输的网络带宽,节省了空间、电力供应等运维成本。但是使用重复数据删除技术也有缺点,它需要比对,所以增加了计算以及校验的时间;它需要存储Hash索引,而内存与磁盘速率的严重失衡就会增加检验的耗时;数据分块技术的分块大小,对系统中重复数据的删除精确性也存在影响。本方法针对现存方法的缺陷进行了改进,具有更快的校验速度、更小的数据块粒度以及更精确的重复数据去除。在重复数据删除的两个衡量标准重复数据删除率和性能上,都有不同程度的提高。
技术实现思路
本专利技术的目的是提供。本专利技术的目的是按以下方式实现的,使用4KB-8KB的块大小对数据流进行分块, 这样极小的块就能够确保极高的重复数据删除率,能够较精确的进行重复数据的定位删除;而针对HDD磁盘与内存RAM之间数据传输率的差异而导致的性能影响,通过使用SSD重新构建存储的架构,作为RAM与RAID阵列之间的中转,这样不仅能够提高检索的速率,而且也提高了数据的存储速率,在新的数据块Hash值到来需要进行验证的时候,RAM读取存储在SSD中的Hash索弓丨,以SSD比HDD高出3倍的实际数据传输速率,便得系统的性能得到保证,使用4KB-8KB的小块所产生的相对较大的Hash索引表所引起的性能问题也能够得到解决,针对重复数据删除比以及重复数据删除精确度低的问题,使用Hash值和数据指纹的双重校验,以确保最大程度上的重复数据删除精确度,因为使用SSD作为中间点,保障了 I/ O速率,因此在双重验证的情况下,也不会影响系统的性能,具体步骤如下1)接收到所要进行存储的数据流;2)传送至DedupeSystem模块;3)数据流按照指定的4KB-8KB大小的块进行截断分解;4)计算数据块的Hash值;5)计算数据块的数据指纹;6)读取SSD中存储的Hash索引表;7)判别Hash值与Hash索引表中是否重复;A.重复,(I)读取数据指纹索引表,继续判定数据指纹;(2)数据指纹重复,建立数据连接,数据·块不进行存储;(3)数据指纹不重复,存储数据块到SSD,存储数据块Hash值至SSD 中的Hash索引表,存储数据块的数据指纹至SSD中的数据指纹索引表;B.不重复,(I)存储数据块至SSD,存储数据块Hash值至SSD中的Hash索引表,存储数据块的数据指纹至SSD中的数据指纹索引表;(2)将存储于SSD中的数据块传送到RAID 阵列磁盘中进行存储。本专利技术的有益效果是采用4KB-8KB的小块来截分数据流,采用Hash值和数据指纹的双重验证来确保重复数据的删除率,采用SSD存储Hash索引来提高检索效率,重复数据删除适用于高重复数据,例如较低的数据变化率,完全的数据备份,数据长期保存以及非活动数据,在这些应用环境下能够达到最高的效率,即最高的重复数据删除率,也可以理解为磁盘空间释放比,传统的固定重复数据删除技术,分块数据流一般是采用64KB-128KB的块大小,因为内存RAM和HDD磁盘间速率的差异性,这样做就不会因为块太小而影响性能, 但却会因为块过大而影响重复数据的删除比。附图说明图I是系统架构示意图;图2是重复数据删除原理图;图3是重复数据删除流程图。具体实施方式参照说明书附图对本专利技术的方法作以下详细地说明。本方法针对现存的重复数据删除方法的重复数据删除率低以及性能较低的问题进行改进,采用4KB-8KB的小块来截分数据流,采用Hash值和数据指纹的双重验证,来确保重复数据的删除率,采用SSD存储Hash索引来提高检索效率,整体的架构如图I所示。重复数据删除适用于高重复数据,例如较低的数据变化率,完全的数据备份,数据长期保存以及非活动数据,在这些应用环境下能够达到最高的效率(即最高的重复数据删除率,也可以理解为磁盘空间释放比),重复数据删除的原理如图2所示。固定的重复数据删除技术,分块数据流一般是采用64KB-128KB的块大小,因为内存RAM和HDD磁盘间速率的差异性,这样做就不会因为块太小而影响性能,但却会因为块过大而影响重复数据的删除比。我们使用4KB-8KB的块大小对数据流进行分块,这样极小的块就能够确保极高的重复数据删除率,能够较精确的进行重复数据的定位删除;而针对 HDD磁盘与内存RAM之间数据传输率的差异而导致的性能影响,我们通过使用SSD重新构建存储的架构,作为RAM与RAID阵列之间的中转,这样不仅能够提高检索的速率,而且也提高了数据的存储速率,在新的数据块Hash值到来需要进行验证的时候,RAM读取存储在SSD中的Hash索弓丨,以SSD比HDD高出3倍的实际数据传输速率,便得系统的性能得到保证,使用4KB-8KB的小块所产生的相对较大的Hash索引表所引起的性能问题也能够得到解决。同时,在现有的方法中,重复数据删除比以及重复数据删除精确度确实难以让人满意。针对这方面的问题,我们使用Hash值和数据指纹的双重校验,以确保最大程度上的重复数据删除精确度,因为使用SSD作为中间点,保障了 I/O速率,因此在双重验证的情况下,也不会影响系统的性能。数据存储在本方法中的流程大致如下接收到所要进行存储的数据流_>传送至 Dedupe System模块-> 数据流按照指定的块大小(4KB or 8KB)进行截断分解_>计算数据块的Hash值_>计算数据块的数据指纹_>读取SSD中存储的Hash索引表_>判别Hash 值与Hash索引表中是否重复_>A.重复,读取数据指纹索引表,继续判定数据指纹_>数据指纹重复,建立数据连接,数据块不进行存储_>数据指纹不重复,存储数据块到SSD,存储数据块Hash值至SSD中的Hash索引表,存储数据块的数据指纹至SSD中的数据指纹索引表_>B.不重复,存储数据块至SSD,存储数据块Hash值至SSD中的Hash索引表,存储数据块的数据指纹至SSD中的数据指纹索引表_>将存储于SSD中的数据块传送到RAID阵列磁盘中进行存储,如图3所示。除说明书所述的技术特征外,均为本专业技术人员的已知技术。权利要求1.ー种适用于海量存储系统的重复数据删除方法,其特征在于使用4KB-8KB的块大小对数据流进行分块,这样极小的块就能够确保极高的重复数据删除率,能够较精确的进行重复数据的定位删除;而针对HDD磁盘与内存RAM之间数据传输率的差异而导致的性能影响,通过使用SSD重新构建存储的架构,作为RAM与RAID阵列之间的中转,这样不仅能够提高检索的速率,而本文档来自技高网...

【技术保护点】
一种适用于海量存储系统的重复数据删除方法,?其特征在于使用4KB?8KB的块大小对数据流进行分块,这样极小的块就能够确保极高的重复数据删除率,能够较精确的进行重复数据的定位删除;而针对HDD磁盘与内存RAM之间数据传输率的差异而导致的性能影响,通过使用SSD重新构建存储的架构,作为RAM与RAID阵列之间的中转,这样不仅能够提高检索的速率,而且也提高了数据的存储速率,在新的数据块Hash值到来需要进行验证的时候,RAM读取存储在SSD中的Hash索引,以SSD比HDD高出3倍的实际数据传输速率,便得系统的性能得到保证,使用4KB?8KB的小块所产生的相对较大的Hash索引表所引起的性能问题也能够得到解决,针对重复数据删除比以及重复数据删除精确度低的问题,使用Hash值和数据指纹的双重校验,以确保最大程度上的重复数据删除精确度,因为使用SSD作为中间点,保障了I/O速率,因此在双重验证的情况下,也不会影响系统的性能,具体步骤如下:1)接收到所要进行存储的数据流;2)传送至Dedupe?System模块;3)数据流按照指定的4KB?8KB大小的块进行截断分解;4)计算数据块的Hash值;5)计算数据块的数据指纹;6)读取SSD中存储的Hash索引表;7)判别Hash值与Hash索引表中是否重复;A.重复,(1)读取数据指纹索引表,继续判定数据指纹;(2)数据指纹重复,建立数据连接,数据块不进行存储;(3)数据指纹不重复,存储数据块到SSD,存储数据块Hash值至SSD中的Hash索引表,存储数据块的数据指纹至SSD中的数据指纹索引表;B.不重复,(1)存储数据块至SSD,存储数据块Hash值至SSD中的Hash索引表,存储数据块的数据指纹至SSD中的数据指纹索引表;(2)将存储于SSD中的数据块传送到RAID阵列磁盘中进行存储。...

【技术特征摘要】

【专利技术属性】
技术研发人员:梁吉林
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1