差分压缩的方法和系统技术方案

技术编号:32204507 阅读:31 留言:0更新日期:2022-02-09 17:09
公开了一种用于差分压缩的系统和方法。在本公开中,接收被选择用于压缩的输入数据块。对于每个输入数据块:所述输入数据块被划分为至少两个段。对于所述至少两个段中的每个段,计算相应段与排除相应数据块的数据块中的每个数据块之间的相似度。对于所述至少两个段中的每个段,将排除所述相应数据块的数据块中与所述相应段具有最大相似度的数据块选择作为所述相应段的最佳参考数据块。响应于基于所述输入数据块的所述段与所述对应的最佳参考块之间的相似度确定将应用差分压缩,将所述差分压缩应用于所述输入数据块和最佳参考块。压缩应用于所述输入数据块和最佳参考块。压缩应用于所述输入数据块和最佳参考块。

【技术实现步骤摘要】
【国外来华专利技术】差分压缩的方法和系统


[0001]本公开在其一些实施例中,涉及数据压缩,并且更具体地但非排他地涉及一种差分压缩的方法和系统。

技术介绍

[0002]一些数据存储系统执行去重压缩。在标准的去重过程中,指定用于存储的数据被划分为对齐的固定大小的块。对于每个固定大小的块,通过对相应块内的数据进行哈希处理来计算哈希签名。由于两个不同块具有相同哈希签名的概率非常接近零,因此将具有相同哈希签名的块标识为具有相同数据。不会将相同的数据(通过存储两个块)存储两次,而是存储其中一个块,指向存储数据的指针表示另一个相同的块,从而有效地将多个相似的块压缩为大约一个块的大小。
[0003]其他数据存储系统使用标准方法执行差分压缩。通过压缩基本块和与其相似的其他块之间的差异来执行差分压缩。指定用于存储的数据分为对齐的固定大小的块。对于每个固定大小的块,计算相似性哈希函数。相似性哈希函数用于识别不完全相同但在大多数块相同的意义上相似的块(例如,两个块的90%的内容相同)。对于每个块,能找到多个相似的块。

技术实现思路

[0004]本公开的目的是提供一种用于差分压缩的系统、方法和存储程序代码的计算机可读存储介质。
[0005]通过独立权利要求的特征实现上述和其他目的。根据从属权利要求,说明书和附图,进一步的实施形式是显而易见的。
[0006]根据第一方面,公开了一种用于差分压缩的系统。该系统被配置为:接收被选择用于压缩的多个输入数据块:对于每个输入数据块,将该输入数据块划分为至少两个段,对于该至少两个段中的每个段,计算相应段和排除相应数据块之外的该多个数据块中的每个数据块之间的相似度,对于该至少两个段中的每个段,将排除相应数据块之外的该多个数据块中,与该相应段具有最大相似度的数据块选择作为该相应段的最佳参考数据块,并响应于基于该输入数据块的段与对应的最佳参考块之间的相似度确定将应用差分压缩,将该差分压缩应用于该输入数据块和最佳参考块。
[0007]根据第二方面,公开了一种数据的差分压缩的方法。该方法包括:接收被选择用于压缩的多个输入数据块;对于每个输入数据块,将该输入数据块划分为至少两个段,对于该至少两个段中的每个段,计算该相应段和排除相应数据块之外的该多个数据块中的每个数据块之间的相似度,对于该至少两个段中的每个段,将排除相应数据块之外的该多个数据块中,与该相应段具有最大相似度的数据块选择作为该相应段的最佳参考数据块,并响应于基于该输入数据块的段与对应的最佳参考块之间的相似度确定将应用差分压缩,将该差分压缩应用于该输入数据块和最佳参考块。
[0008]该系统和方法相比标准差分和/或去重方法提高了输入数据块的压缩比,或者至少和标准差分和/或去重方法一样快地提供了压缩比。
[0009]在该第一方面的另一实现形式中,该系统还被配置为:响应于基于该输入数据块的该段与该对应的最佳参考块之间的相似度确定将不应用差分压缩,将标准压缩应用于该输入数据块。标准压缩对应于可用的任何数据压缩过程,例如,基于Lempel

Ziv的,Zip,Lzip,RAR或任何其他压缩过程。
[0010]本文所述的实施方式与标准压缩方法兼容,其使得能够与该标准方法集成。
[0011]在该第一方面的另一实现形式中,该系统被配置为:将该输入数据块的该段与该对应的最佳参考块之间的相似度与阈值进行比较,以基于该相似度确定是否要应用差分压缩。
[0012]例如,可以设置(例如,手动和/或自动)阈值以获得压缩(例如,压缩比或压缩比)和计算资源消耗之间的最佳折衷。
[0013]在该第一方面的另一实现形式中,为该输入数据块选择两个最佳参考块。
[0014]所有选定的最佳参考块的总大小都明显大于该输入数据块的大小(例如,每个输入块有两个不重叠的段时,为两倍),这提供了更多可能与该输入数据块相似的数据,提高了压缩效率。
[0015]在该第一方面的另一实现形式中,该系统被配置为:通过以下为该输入数据块的该至少两个段选择最佳参考块的组合:在压缩该输入数据块时,迭代地计算表示参考数据块的不同组合的压缩效率的压缩比;以及根据该压缩比选择该最佳参考数据块的组合。
[0016]相比于单独选择每个最佳参考块,组合选择最佳参考块可以提供更高的压缩比。
[0017]在该第一方面的另一实现形式中,该系统被配置为:根据该最佳参考块与该输入数据块的其他段之间的最高相似度和该最佳参考块与该相应段之间的最高相似度的组合,为该输入数据块的每个相应段选择最佳参考块。
[0018]将提供该块的所有(或多于相应段)段的最大相似度覆盖范围的块选择作为最佳参考块,可以提高压缩效率。穷举方法可以找到提供最高压缩比的最佳参考块的组合。
[0019]在该第一方面的另一实现形式中,该系统被配置为:通过以下为该输入数据块选择最佳参考块:计算该输入数据块与参考数据块的多个不同组合中的每一个之间的差分压缩,并且选择具有最低差分压缩的最佳参考数据块的组合。
[0020]提供最佳不同压缩的最佳参考块的组合可以提供该输入块的最佳压缩效率。
[0021]在该第一方面的另一实现形式中,该系统被配置为:通过以下为该输入数据块选择最佳参考块:计算该输入数据块的一段与该多个数据块中具有与该相应段最大相似度的最佳参考数据块之间的差分压缩,并找到相对于该输入数据块和该最佳参考块之间的差分压缩具有最大相似度的另一个最佳参考块。
[0022]搜索相对于该差分压缩具有最大相似度的最佳参考块代表着机会性搜索,例如,与穷举搜索相比,其计算效率高。
[0023]在该第一方面的另一实现形式中,该系统被配置为通过对该最佳参考块进行解压缩并对差分压缩进行解压缩来对该输入数据块进行解压缩。
[0024]在该第一方面的另一实现形式中,该系统被配置为通过以下确定是否应用差分压缩:接收该输入数据块的每个段与每个对应的最佳参考块之间的计算出的相似度,将该计
算出的相似度与阈值进行比较,并在该相似度高于阈值时确定将应用该差分压缩。
[0025]在该第一方面的另一实现形式中,相似度是通过相似度哈希函数计算的。
[0026]可以通过处理资源来快速执行该相似性哈希函数,从而能够实现效率的计算。
[0027]在该第一方面的另一实现形式中,该对应的最佳参考块中的至少一个被划分为至少两个段,其中,每个段通过相似性依赖被映射到从该多个数据块中选择的更高级别的最佳参考数据块。
[0028]最佳参考块的多层可以提高压缩效率。
[0029]在该第一方面的另一实现形式中,该输入数据块,该最佳参考块和该更高级别的最佳参考数据块通过树数据结构的相似性依赖性被映射,其中,该输入数据块被表示为该树数据结构的根。
[0030]该树的级别数可以被定义为例如压缩与处理资源利用之间的折衷。例如,更高级别的树可能会增加压缩,但在解压缩过程中需要增加计算资源,因为要解压缩更多参考块。
[0031]在该第一方面的另一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于差分压缩的系统(200),其中,所述系统被配置为:接收被选择用于压缩的多个输入数据块(208A);对于每个输入数据块:将所述输入数据块划分为至少两个段;对于所述至少两个段中的每个段,计算相应段与排除相应数据块的所述多个数据块中的每个数据块之间的相似度;对于所述至少两个段中的每个段,将排除所述相应数据块的所述多个数据块中与所述相应段具有最大相似度的数据块选择作为所述相应段的最佳参考数据块;以及响应于基于所述输入数据块的所述段与所述对应的最佳参考块(208B)之间的相似度确定将应用差分压缩,将所述差分压缩应用于所述输入数据块和最佳参考块。2.根据权利要求1所述的系统,其中,所述系统(200)还被配置为:响应于基于所述输入数据块的所述段与所述对应的最佳参考块(208B)之间的相似度确定将不应用差分压缩,将标准压缩应用于所述输入数据块。3.根据权利要求1或2所述的系统,其中,所述系统(200)被配置为:将所述输入数据块的所述段与所述对应的最佳参考块之间的相似度与阈值进行比较,以基于所述相似度来确定是否要应用差分压缩。4.根据权利要求1至3中任一项所述的系统,其中,为所述输入数据块选择两个最佳参考块。5.根据权利要求1至4中任一项所述的系统,其中,所述系统(200)被配置为:通过以下为所述输入数据块的所述至少两个段选择最佳参考块的组合:在压缩所述输入数据块时,迭代地计算表示参考数据块的不同组合的压缩效率的压缩比;以及根据所述压缩比选择所述最佳参考数据块的组合。6.根据权利要求1至4中任一项所述的系统,其中,所述系统(200)被配置为:根据所述最佳参考块与所述输入数据块的其他段之间的最高相似度和所述最佳参考块与所述相应段之间的最高相似度的组合,为所述输入数据块的每个相应段选择所述最佳参考块。7.根据权利要求1至4中任一项所述的系统,其中,所述系统(200)被配置为:通过以下为所述输入数据块选择所述最佳参考块:计算所述输入数据块与参考数据块的多个不同组合中的每一个之间的所述差分压缩;以及选择具有最低差分压缩的最佳参考数据块的组合。8.根据权利要求1至4中任一项所述的系统,其中,所述系统(200)被配置为:通过以下为所述输入数据块选择所述最佳参考块:计算所述输入数据块的一个段与所述多个数据块中具有与所述相应段最大相似度的最佳参考数据块之间的差分压缩;以及找到相对于所述输入数据块和所述最佳参考块之间的差分压缩具有最大相似度的另一个最佳参考块。9.根据权利要求1至8中任一项所述的系统,其中,所述系统(200)被配置为通过对所述
最佳参考块进行解压缩并对所述差分压缩进行解压缩来对所述输入数据块进行解压缩。10.根据权利要求1至9中任一项所述的系统,其中,所述系统(200)被配置为通过以下确定是否应用差分压缩:接收所述输入数据块的每个段与每个对应的最佳参考块之间的计算出的相...

【专利技术属性】
技术研发人员:阿萨夫
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1