【技术实现步骤摘要】
一种基于极值的数据去重分块方法
本专利技术属于计算机存储技术与计算机网络领域,更具体地,涉及一种基于极值的数据去重分块方法。
技术介绍
随着网络的高速发展,越来越多的个人用户和企业接入互联网,数据总量呈爆炸式增长。据统计,从2014年开始的未来10年,每一年全球数据总量都将增长40%,即大概每两年数据总量就会翻一倍;预计到2020年,全球的信息总量将达到44ZB。存储和传输如此大量的数据是目前面临的一个重大挑战。数据去重(或者称重复数据删除,DataDeduplication)作为一种能够有效地消除冗余数据的技术,成为了存储和网络优化领域的研究热点。虽然数据去重技术已发展多年,但是仍然存在诸多挑战。一般来说,数据去重可以分为四个环节:数据分块、指纹计算、指纹索引和存储。数据流在数据分块阶段被分割成较小的数据块,再在指纹计算阶段对各个数据块计算指纹,然后在指纹索引阶段通过匹配数据块的指纹辨识出重复的数据块,最后将不重复的数据块进行存储,而重复的数据块不重复存储。数据分块环节负责将数据流分割成数据块。分块方法有两种:定长分块和变长分块。定长分块将数据流分成固定长度的数 ...
【技术保护点】
一种基于极大值的数据去重分块方法,其特征在于,所述方法包括以下步骤:(1)将滑动窗口置于数据流尚未分块的起始位置,设置该窗口的位置P为0,并根据窗口内容计算出该窗口的值V,将此窗口的V和P分别赋值给临时最大值Vmax和Vmax所在的位置Pmax;(2)将滑动窗口向前滑动一个字节,设置当前窗口的位置Pcurr为前一个窗口的位置P加1,计算当前窗口的值Vcurr,并将Vcurr与Vmax进行比较:(2.1)如果Vcurr>Vmax,则将Vcurr和Pcurr分别赋值给Vmax和Pmax,执行步骤(2);(2.2)如果Vcurr≤Vmax,则检查Pcurr与Pmax的距离,如果距 ...
【技术特征摘要】
1.一种基于极大值的数据去重分块方法,其特征在于,所述方法包括以下步骤:(1)将滑动窗口置于数据流尚未分块的起始位置,设置该滑动窗口的位置P为0,并根据窗口内容计算出该滑动窗口的值V,将此滑动窗口的V和P分别赋值给临时最大值Vmax和Vmax所在的位置Pmax;(2)将滑动窗口向前滑动一个字节,设置当前窗口的位置Pcurr为前一个窗口的位置P加1,计算当前窗口的值Vcurr,并将Vcurr与Vmax进行比较:(2.1)如果Vcurr>Vmax,则将Vcurr和Pcurr分别赋值给Vmax和Pmax,执行步骤(2);(2.2)如果Vcurr≤Vmax,则检查Pcurr与Pmax的距离,如果距离小于预设值W,执行步骤(2);如果距离等于预设值W,则Vmax拥有局部区域内的最大值,其所在位置Pmax为极值点,当前位置Pcurr为切点;输出该切点,执行步骤(1)进行下一轮分块。2.如权利要求1所述的方法,其特征在于,所述滑动窗口的值V由窗口内的符号转换成整型数而来。3.如权利要求1或2所述的方法,其特征在于,所述滑动窗口的窗口大小为8字节,所述滑动窗口的值为64位的整型数。4.一种基于极大值的数据去重分块系统,其特征在于,所述系统包括初始值设置模块以及分块模块,其中:所述初始值设置模块,用于将滑动窗口置于数据流尚未分块的起始位置,设置该滑动窗口的位置P为0,并根据窗口内容计算出该滑动窗口的值V,将此滑动窗口的V和P分别赋值给临时最大值Vmax和Vmax所在的位置Pmax;所述分块模块,用于将滑动窗口向前滑动一个字节,设置当前窗口的位置Pcurr为前一个窗口的位置P加1,计算当前窗口的值Vcurr,并将Vcurr与Vmax进行比较:如果Vcurr>Vmax,则将Vcurr和Pcurr分别赋值给Vmax和Pmax,转分块模块继续滑动窗口;如果Vcurr≤Vmax,则检查Pcurr与Pmax的距离,如果距离小于预设值W,则转分块模块继续滑动窗口;如果距离等于预设值W,则Vmax拥有局部区域内的最大值,其所在位置Pmax为极值点,当前位置Pcurr为切点;输出该切点,转初始值设置模块进行下一轮分块。5.如权利要求4所述的系统,其特征在于,所述滑动窗口的值V由窗口内的符号转换成整型数而来。6...
【专利技术属性】
技术研发人员:冯丹,张宇成,夏文,付忞,黄方亭,周玉坤,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。