优化用于去重的数据块大小制造技术

技术编号:11938228 阅读:66 留言:0更新日期:2015-08-26 09:26
本申请中提供的技术涉及数据去重,并且具体地但不唯一地涉及用于对数据块的高效最优大小进行确定以用于备份数据源的方法和系统。此外,在本申请中还提供用于在数据备份应用中识别重复数据的系统。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】优化用于去重的数据块大小 本申请要求于2013年3月13日提交的序列号为13/802, 167的美国临时专利申 请的优先权,该美国临时专利申请要求于2012年10月1日提交的序列号为61/708, 255W 及于2012年10月1日提交的序列号为61/708, 295的美国临时专利申请的优先权,W引用 方式将上述申请的公开内容全部并入本文。
技术介绍
数据去重(datade化plication)是一种数据压缩技术,其通过识别和消除冗余数 据来减小数据量。针对"单一实例存储"的最早的去重技术是基于文件粒度的去重。在文 件粒度的去重中,基于内容来检测相同文件的重复拷贝并且仅在磁盘上存储该文件的一个 拷贝,无论该些重复拷贝是否具有相同的名字。但是,文件粒度的技术效率很低,该与在该 样的过程级别上对数据进行比较有关;例如,如果将单个词添加到一个文档,那么单一实例 存储将不会识别出任何数据冗余并且会将整个文件存储为"新"文件。 一种用于减小数据去重所需要的网络带宽和计算机存储的量的方法是:将各个文 件分成块,识别重复的数据块,并且仅对重复的数据块的单个实例进行传送和存储。一种用 于将文件(或诸如完整的文件系统该样的其他数据源)分成块的方法包括使用固定大小的 块。当产生数据块时,将文件分成较小的块提供的潜在好处是产生更多的重复块,从而在除 去和解决重复时使得被复制的数据更小。另一方面,将文件分成较大的块所具有的好处是 需要较少的索引和较少的块比较,该使得针对被复制的数据的块索引更小并且相关联的处 理和存储器开销更小。 基于文件粒度的去重的早期技术大部分已经消失,取而代之的是块粒度的去重, 在块粒度的去重中一个文件被当作多个数据块的一个集合。块粒度的去重在文件内进行操 作并且仅存储唯一的或新创建的块。在操作中,将一个文件的每一块与已知的块进行比较。 如果一个块在先前已经被存储,那么仅引用该块而不是再次对该块进行存储。使用其他的 编码技术对仅存储一次的每一块进行压缩。因此,与单一实例存储相比,块粒度的去重提供 了更大的压缩率。最早的块粒度技术使用固定块去重,其中将块尺寸预置为常数值。尽管固定块去 重相对于文件粒度的去重而言是一种改进,但是固定块去重并不能容忍在一个文件的开始 处或在中间的数据插入。目P,当数据被插入到文件中时,固定块去重会将所有随后的块检测 为新块,从而导致了较低的去重压缩率。在该样的情况中,固定块去重效率很低,类似于与 文件粒度的去重技术相关联的低效率。 可变块去重技术解决了在固定块技术中固有的数据插入问题,但W引发额外 的处理为代价。可变块去重通过识别文件数据内的特定标记符(所谓的"幻数(magic number)")来设置块边界。尽管可变块去重技术改进了压缩率,但是由于增加了与识别块 边界相关联的开销而使性能变慢。
技术实现思路
因此,本文提供了通过确定针对特定文件类型的最优块大小来改进数据去重的技 术。例如,本技术的实施例可W在用于确定针对文件类型的最优数据块大小的方法中使用, 其中所述方法包括;构建将多个压缩率与多个测试数据块大小相关联的函数,其中所述多 个压缩率中的压缩率是通过使用去重技术和所述多个测试数据块大小中的测试数据块大 小对所述文件类型的文件进行转换来计算的;确定所述函数的最大压缩率;W及将与所述 最大压缩率相关联的测试数据块大小选择为针对所述文件类型的最优数据块大小。在一些 实施例中,进一步提供了方法,其中构建将多个压缩率与多个测试数据块大小相关联的函 数进一步包括:提供所述文件类型的文件,其中所述文件具有文件大小;根据所述文件生 成多个数据块,其中所述多个数据块中的每个数据块的大小为所述测试数据块大小;将所 述去重技术应用于所述多个数据块W产生去重后的结果文件,其中所述去重后的结果文件 具有去重后的结果文件大小;W及根据所述文件大小和所述去重后的结果文件大小来计算 压缩率。[000引在一些实施例中,首先根据类型将多个文件进行分组,并且因此在一些实施例中, 所述文件是从相同文件类型的文件集合中选择的,并且使用来自所述相同文件类型的文件 集合中的一个或多个、大部分或所有文件来构建所述函数。可W使用各种技术来定义文件 的文件类型。在一些实施例中,通过分析文件内容来确定文件的文件类型。例如,在一些实 施例中,所述文件包括多个数据字节,并且通过检验来自所述多个数据字节中的数据字节 来确定所述文件类型,并且在一些实施例中,所述文件具有扩展名,并且根据所述扩展名来 确定所述文件类型。文件类型包括但不限于表1中的文件类型。 表 1【主权项】1. 一种用于确定对文件类型进行去重的最优数据块大小的方法,所述方法包括: a) 构建将多个压缩率与多个测试数据块大小相关联的函数,其中所述多个压缩率中的 压缩率是通过使用去重技术和所述多个测试数据块大小中的测试数据块大小对具有所述 文件类型的文件进行转换来计算的; b) 确定所述函数的最大压缩率;以及 c) 将与所述最大压缩率相关联的测试数据块大小选择为针对所述文件类型的所述最 优数据块大小。2. 根据权利要求1所述的方法,其中,构建将多个压缩率与多个测试数据块大小相关 联的函数还包括: a) 提供具有所述文件类型的文件,其中所述文件具有文件大小; b) 根据所述文件生成多个数据块,其中所述多个数据块中的每个数据块的大小为所述 测试数据块大小; c) 将所述去重技术应用于所述多个数据块以产生去重后的结果文件,其中所述去重后 的结果文件具有去重后的结果文件大小;以及 d) 根据所述文件大小和所述去重后的结果文件大小来计算压缩率。3. 根据权利要求1所述的方法,其中,所述文件是从具有相同文件类型的文件的集合 中选择的。4. 根据权利要求3所述的方法,其中,使用来自所述具有相同文件类型的文件的集合 中的所有文件来构建所述函数。5. 根据权利要求1所述的方法,其中,所述文件包括多个数据字节,并且所述文件类型 是通过检验来自所述多个数据字节的数据字节来确定的。6. 根据权利要求1所述的方法,其中,所述文件具有扩展名,并且所述文件类型是根据 所述扩展名来确定的。7. 根据权利要求1所述的方法,其中,所述文件类型是从由以下构成的组中选择的:应 用、图像、文本文件、源代码、音频、视频、数据库、电子表格、字处理文档、系统文件、目录、磁 盘映像、档案、可移植文档、二进制文件、矢量图像、字体、计算机辅助设计、压缩文件、物理 可记录介质归档、电子设计自动化、桌面出版、文档、地理信息系统、图形信息管理器、调色 板、光栅图形、3D图形、数学、目标代码、共享库、动态链接库、页面描述、个人信息管理器、演 示文稿、项目管理、参考文献管理、科学数据、脚本、游戏、虚拟机、手册文件、网页、标记语言 以及财务记录。8. 根据权利要求1所述的方法,其中,所述文件具有资源分支,并且所述文件类型是根 据所述资源分支来确定的。9. 根据权利要求1所述的方法,其中,所述文件具有元数据,并且所述文件类型是根据 所述元数据来确定的。10. 根据权利要求1所述的方法,其中,所述函数是将所述多个压缩率与所述多个测试 数据块大小相关联的模型。11. 根据权利要求1所述的方法,本文档来自技高网
...

【技术保护点】
一种用于确定对文件类型进行去重的最优数据块大小的方法,所述方法包括:a)构建将多个压缩率与多个测试数据块大小相关联的函数,其中所述多个压缩率中的压缩率是通过使用去重技术和所述多个测试数据块大小中的测试数据块大小对具有所述文件类型的文件进行转换来计算的;b)确定所述函数的最大压缩率;以及c)将与所述最大压缩率相关联的测试数据块大小选择为针对所述文件类型的所述最优数据块大小。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:T·拉姆
申请(专利权)人:西部数据技术公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1