在重复数据删除系统中减少摘要存储消耗的方法和系统技术方案

技术编号:10733473 阅读:82 留言:0更新日期:2014-12-10 10:35
本发明专利技术提供了通过使用计算环境中的处理器设备在重复数据删除系统中跟踪相似性搜索结构中的相似性元素的数目而减少摘要存储消耗的方法和系统。为了使用计算环境中的处理器设备降低重复数据删除系统中的摘要存储消耗,将输入数据分区为部块,并将部块分组为部块集。为输入数据计算摘要,并将摘要存储在对应于部块集的集合中。为输入数据计算相似性元素,并将相似性元素存储在相似性搜索结构中。为每个部块集保持当前包含在相似性搜索结构中的与部块集关联的相似性元素的数目,并且当特定部块集的此数目变得低于阈值时,从存储库中去除与该部块集关联的摘要集合。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了通过使用计算环境中的处理器设备在重复数据删除系统中跟踪相似性搜索结构中的相似性元素的数目而减少摘要存储消耗的方法和系统。为了使用计算环境中的处理器设备降低重复数据删除系统中的摘要存储消耗,将输入数据分区为部块,并将部块分组为部块集。为输入数据计算摘要,并将摘要存储在对应于部块集的集合中。为输入数据计算相似性元素,并将相似性元素存储在相似性搜索结构中。为每个部块集保持当前包含在相似性搜索结构中的与部块集关联的相似性元素的数目,并且当特定部块集的此数目变得低于阈值时,从存储库中去除与该部块集关联的摘要集合。【专利说明】在重复数据删除系统中减少摘要存储消耗的方法和系统
本专利技术一般涉及计算机,更具体地涉及在计算环境中通过跟踪相似性搜索结构中的相似性元素的数目以去除重复数据删除系统中的摘要而减少摘要存储消耗。
技术介绍
在如今社会中,计算机系统很普遍。可以在工作地点、家中或学校中发现计算机系统。计算机系统可以包括数据存储系统或盘存储系统以处理和存储数据。每天必须处理大量数据,并且当前的趋势暗示着这些量在可见的将来将继续不断增加。缓解该问题的有效方法是使用重复删除。重复删除系统背后的想法是通过定位重复的数据并仅存储其第一个存在(occurrence)而利用可用数据的大部分被一次又一次地复制的事实。后续的复本被指向所存储的存在的指针所代替,如果数据确实是重复的,则这大大降低存储要求。
技术实现思路
在一个实施例中,提供了一种通过使用计算环境中的处理器设备在重复数据删除系统中跟踪当前在相似性搜索结构中的相似性元素的数目以将摘要从存储库中去除的方法。在一个实施例中,仅通过示例,重复删除处理包括为输入数据计算摘要并将所述摘要存储在对应于部块(chunk)集的集合中。为所述输入数据计算相似性元素并将所述相似性元素存储在相似性搜索结构中。为每一个部块集保持当前包含在所述相似性搜索结构中的与每个部块集关联的相似性元素的数目,并且当特定部块集的此数目变得低于阈值时,从存储库中去除与该部块集关联的摘要集合。 在另一实施例中,提供了一种通过使用计算环境中的处理器设备在重复数据删除系统中跟踪相似性搜索结构中的相似性元素的数目而减少摘要存储消耗的系统,包括:第一可执行部分,将输入数据分区(partit1n)为部块并将所述部块分组为部块集;第二可执行部分,为所述输入数据计算摘要并将所述摘要存储在对应于所述部块集的集合中;第三可执行部分,为所述输入数据计算相似性元素并将所述相似性元素存储在相似性搜索结构中;第四可执行部分,为每一个所述部块集保持当前包含在所述相似性搜索结构中的与所述部块集关联的相似性元素的数目;以及第五可执行部分,当部块集的相似性元素的数目变得低于阈值时,从存储库中去除与该部块集关联的摘要。 在前述示例方法实施例之外,还提供了其它示例系统,并提供相关优势。前述
技术实现思路
部分被提供用于以简化的形式引入一组概念,它们会在下面的【具体实施方式】部分被进一步描述。该
技术实现思路
部分不意在识别所主张权利的主题的关键特征或核心特征,也不意在被用作确定所主张权利的主题的范围。所主张权利的主题不限于解决
技术介绍
部分中说明的任何或全部优点的实施方式。 【专利附图】【附图说明】 为了更容易理解本专利技术的优点,将参照在附图中示出的具体实施例呈现上面简要描述的本专利技术的更具体的描述。应理解,这些附图描绘了本专利技术的实施例,但不因此被认为是限制其范围,将通过使用附图描述和说明本专利技术的附加特征和细节,其中: 图1是示出可以实现本专利技术的方面的具有示例存储设备的计算系统环境的框图; 图2是示出可以实现本专利技术的方面的计算机系统中的数据存储系统的硬件结构的框图; 图3是示出可以实现本专利技术的方面的、基于重复数据删除系统中的重复删除处理中的相似性搜索进行摘要检索的示例方法的流程图; 图4是示出可以实现本专利技术的方面的、基于重复数据删除系统中的重复删除处理中的相似性搜索进行摘要检索的示例替代方法的流程图; 图5是示出可以实现本专利技术的方面的、在重复数据删除系统中使用滚动哈希值(rolling hash value)的单个线性计算而高效地计算摘要块的相似性搜寻值和边界两者的示例方法的流程图; 图6是示出可以实现本专利技术的方面的、包含用于每个部块集的记录的紧凑数据结构的框图; 图7是示出可以实现本专利技术的方面的、用于降低重复数据删除系统中的摘要存储消耗的示例方法的流程图; 图8是示出可以实现本专利技术的方面的、用于降低重复数据删除系统中的摘要存储消耗的替代示例方法的流程图;以及 图9是示出可以实现本专利技术的方面的、在重复数据删除系统中跟踪当前在相似性搜索结构中的相似性元素的数目以用于从存储库中去除与该部块集关联的摘要的示例方法300的流程图。 【具体实施方式】 在计算存储系统中,重复数据删除是非常重要且充满活力的领域。重复数据删除是指减少和/或消除冗余数据。在重复数据删除中,数据对象(其可以是文件、数据流或某一其它形式的数据)被分解为一个或多个称为部块或块的部分。在重复数据删除处理中,数据的重复复本被减少或消除,从而分别剩下最小量的冗余复本、或数据的单个复本。重复数据删除系统的目标是存储重复数据的单个复本,并且,实现此目标的挑战在于在通常较大的存储库中高效地找到重复数据模式(pattern)、以及以存储高效的重复删除形式存储数据模式。重复删除存储系统的重大挑战是进行扩展(scaling)以支持非常大的数据存储库。这种大存储库可以达到拍字节的尺寸(I拍字节=250字节)或更大。支持这种存储库尺寸的重复删除存储系统必须提供用于在存储库内找到重复数据模式的高效处理,其中以用于实现重复删除的资源消耗来度量效率(资源可以是CPU周期、RAM存储、永久存储、网络使用等)。在一个实施例中,重复删除存储系统可以基于保持值的搜索优化索引(已知为指纹或摘要),其中(小)指纹表示存储库中(较大的)数据块。指纹值可以是基于块的值计算的加密哈希值。在一个实施例中,可以使用安全哈希算法(SHA),例如SHA-1或SHA-256,它们是加密哈希函数族。使用索引查找识别指纹匹配使得能够存储对已经存在于存储库中的数据的引用。 为了在此方法中提供合理的重复删除,生成指纹所基于的数据块的平均尺寸必须限制为较小的尺寸而不能太大。原因在于数据块内的比特的变化将概率地改变数据块的对应指纹,因此,相比于具有小数据块,具有大数据块使得该方案对数据的更新更敏感。取决于应用的类型和作业量,典型的数据块尺寸的范围可以从4KB到64KB。因此,仅通过示例,小数据块的尺寸范围可以高至64KB,而大数据块是具有大于64KB的尺寸的那些数据块。 为了支持扩展到拍字节尺寸的非常大的存储库(例如,扩展到至少I拍字节(Petabyte)的存储库),要存储的指纹的数目与指纹的尺寸(范围在16字节与64字节之间)一起变得高得惊人。例如,对于I拍字节的重复数据,在4KB平均数据块尺寸以及32字节的指纹尺寸(例如SHA-256)的情况下,用于存储指纹所需要的存储量是8太字节(Terabyte)。为这种量的指纹保持搜索优化的数据结构是困难的,并且需要优化技术本文档来自技高网
...
在重复数据删除系统中减少摘要存储消耗的方法和系统

【技术保护点】
一种通过使用计算环境中的处理器设备在重复数据删除系统中跟踪相似性搜索结构中的相似性元素的数目而减少摘要存储消耗的方法,包括:将输入数据分区为部块并将所述部块分组为部块集;为所述输入数据计算摘要并将所述摘要存储在对应于所述部块集的集合中;为所述输入数据计算相似性元素并将所述相似性元素存储在相似性搜索结构中;为每一个所述部块集保持当前包含在所述相似性搜索结构中的与所述部块集关联的相似性元素的数目;以及当一部块集的相似性元素的数目变得低于阈值时,从存储库中去除与该部块集关联的摘要集合。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:L阿罗诺维克
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1