一种基于极值的数据去重分块方法技术

技术编号:11381729 阅读:136 留言:0更新日期:2015-05-01 04:34
本发明专利技术公开了一种基于极值的数据去重分块方法,其特征在于,包括:本发明专利技术是现有分块方法的改进,与现有分块方法的不同之处在于:1、本方法在局部非对称区域而不是对称区域内寻找局部极值来解决边界偏移问题;2、本发明专利技术将拥有局部极值的位置(即极值点)放在数据块的中间而不是作为数据块的边界;3、本发明专利技术在遇到相等的极值时将最先出现的极值所在的位置作为极值点。前两个不同点使得本发明专利技术在判断切点时所需的操作极少,因此可获得远高于现有分块方法的吞吐量;第三个不同点使本发明专利技术能够检测并消除掉部分低熵字符串中的重复数据。此外,本发明专利技术生成的数据块的块长方差较小且无需强制块长限制,因此能获得与传统分块方法相当或更高的去重率。

【技术实现步骤摘要】
一种基于极值的数据去重分块方法
本专利技术属于计算机存储技术与计算机网络领域,更具体地,涉及一种基于极值的数据去重分块方法。
技术介绍
随着网络的高速发展,越来越多的个人用户和企业接入互联网,数据总量呈爆炸式增长。据统计,从2014年开始的未来10年,每一年全球数据总量都将增长40%,即大概每两年数据总量就会翻一倍;预计到2020年,全球的信息总量将达到44ZB。存储和传输如此大量的数据是目前面临的一个重大挑战。数据去重(或者称重复数据删除,DataDeduplication)作为一种能够有效地消除冗余数据的技术,成为了存储和网络优化领域的研究热点。虽然数据去重技术已发展多年,但是仍然存在诸多挑战。一般来说,数据去重可以分为四个环节:数据分块、指纹计算、指纹索引和存储。数据流在数据分块阶段被分割成较小的数据块,再在指纹计算阶段对各个数据块计算指纹,然后在指纹索引阶段通过匹配数据块的指纹辨识出重复的数据块,最后将不重复的数据块进行存储,而重复的数据块不重复存储。数据分块环节负责将数据流分割成数据块。分块方法有两种:定长分块和变长分块。定长分块将数据流分成固定长度的数据块,这种方法会受到本文档来自技高网...
一种基于极值的数据去重分块方法

【技术保护点】
一种基于极大值的数据去重分块方法,其特征在于,所述方法包括以下步骤:(1)将滑动窗口置于数据流尚未分块的起始位置,设置该窗口的位置P为0,并根据窗口内容计算出该窗口的值V,将此窗口的V和P分别赋值给临时最大值Vmax和Vmax所在的位置Pmax;(2)将滑动窗口向前滑动一个字节,设置当前窗口的位置Pcurr为前一个窗口的位置P加1,计算当前窗口的值Vcurr,并将Vcurr与Vmax进行比较:(2.1)如果Vcurr>Vmax,则将Vcurr和Pcurr分别赋值给Vmax和Pmax,执行步骤(2);(2.2)如果Vcurr≤Vmax,则检查Pcurr与Pmax的距离,如果距离小于预设值W,执行...

【技术特征摘要】
1.一种基于极大值的数据去重分块方法,其特征在于,所述方法包括以下步骤:(1)将滑动窗口置于数据流尚未分块的起始位置,设置该滑动窗口的位置P为0,并根据窗口内容计算出该滑动窗口的值V,将此滑动窗口的V和P分别赋值给临时最大值Vmax和Vmax所在的位置Pmax;(2)将滑动窗口向前滑动一个字节,设置当前窗口的位置Pcurr为前一个窗口的位置P加1,计算当前窗口的值Vcurr,并将Vcurr与Vmax进行比较:(2.1)如果Vcurr>Vmax,则将Vcurr和Pcurr分别赋值给Vmax和Pmax,执行步骤(2);(2.2)如果Vcurr≤Vmax,则检查Pcurr与Pmax的距离,如果距离小于预设值W,执行步骤(2);如果距离等于预设值W,则Vmax拥有局部区域内的最大值,其所在位置Pmax为极值点,当前位置Pcurr为切点;输出该切点,执行步骤(1)进行下一轮分块。2.如权利要求1所述的方法,其特征在于,所述滑动窗口的值V由窗口内的符号转换成整型数而来。3.如权利要求1或2所述的方法,其特征在于,所述滑动窗口的窗口大小为8字节,所述滑动窗口的值为64位的整型数。4.一种基于极大值的数据去重分块系统,其特征在于,所述系统包括初始值设置模块以及分块模块,其中:所述初始值设置模块,用于将滑动窗口置于数据流尚未分块的起始位置,设置该滑动窗口的位置P为0,并根据窗口内容计算出该滑动窗口的值V,将此滑动窗口的V和P分别赋值给临时最大值Vmax和Vmax所在的位置Pmax;所述分块模块,用于将滑动窗口向前滑动一个字节,设置当前窗口的位置Pcurr为前一个窗口的位置P加1,计算当前窗口的值Vcurr,并将Vcurr与Vmax进行比较:如果Vcurr>Vmax,则将Vcurr和Pcurr分别赋值给Vmax和Pmax,转分块模块继续滑动窗口;如果Vcurr≤Vmax,则检查Pcurr与Pmax的距离,如果距离小于预设值W,则转分块模块继续滑动窗口;如果距离等于预设值W,则Vmax拥有局部区域内的最大值,其所在位置Pmax为极值点,当前位置Pcurr为切点;输出该切点,转初始值设置模块进行下一轮分块。5.如权利要求4所述的系统,其特征在于,所述滑动窗口的值V由窗口内的符号转换成整型数而来。6...

【专利技术属性】
技术研发人员:冯丹张宇成夏文付忞黄方亭周玉坤
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1