应用在重复数据删除的基于内容分块方法、系统及介质技术方案

技术编号:33809183 阅读:26 留言:0更新日期:2022-06-16 10:18
本发明专利技术公开了一种应用在重复数据删除的基于内容分块方法、系统及介质,其中方法包括:获取需分块存储的文件,将文件读取成字节流;在所述字节流上划分固定窗口,根据固定窗口更新极大值和极小值;在字节流上,采用多步长方式移动滑动窗口;比较滑动窗口中字节值与极大值和极小值之间的大小关系,判断是否满足切点条件,若满足,截断字节流,获得块;反之,返回移动滑动窗口;获取块的第一指纹值,根据所述第一指纹值对块进行存储;其中,存储系统中各块对应的指纹值不同。本发明专利技术基于内容分块,有效解决了字节偏移问题,实现了更高的重复数据删除率。本发明专利技术可广泛应用于备份系统、云存储系统以及文件增量同步等领域。统以及文件增量同步等领域。统以及文件增量同步等领域。

【技术实现步骤摘要】
应用在重复数据删除的基于内容分块方法、系统及介质


[0001]本专利技术涉及涉及备份系统、云存储系统以及文件增量同步等领域,尤其涉及一种应用在重复数据删除的基于内容分块方法、系统及介质。

技术介绍

[0002]随着5G通信,云计算以及大数据等技术的高速发展,人们可以更加迅速的获得所需的互联网资源。然而,不断增大的数据传输带宽需求,以及持续增加的存储压力,使云服务提供商的存储成本不断加大。为了降低运营成本,高效的数据存储与备份越发的成为云服务提供商关注的重点。重复数据删除,一种节约带宽避免存储冗余数据的技术,是解决数据存储的有效方式。重复数据删除策略可以分为文件级重复数据删除和块级重复数据删除。文件级重复数据删除将文件作为数据删除的最小单位,能够删除相同的冗余文件,但是不具备文件内部冗余数据删除的能力。块级重复数据删除把文件划分为不同的数据块,以块为最小单位,删除相同的冗余块。块级删除比文件级删除拥有更高的效率,被广泛的使用在重复数据删除系统中。
[0003]基于块的数据去重技术在云存储和物联网领域越来越流行起来,可分为文件分块,计算块的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种应用在重复数据删除的基于内容分块方法,其特征在于,包括以下步骤:获取需分块存储的文件,将文件读取成字节流;在所述字节流上划分固定窗口,根据固定窗口更新极大值和极小值;在字节流上,采用多步长方式移动滑动窗口;比较滑动窗口中字节值与极大值和极小值之间的大小关系,判断是否满足切点条件,若满足,截断字节流,获得块;反之,返回移动滑动窗口;获取块的第一指纹值,根据所述第一指纹值对块进行存储;其中,存储系统中各块对应的指纹值不同。2.根据权利要求1所述的一种应用在重复数据删除的基于内容分块方法,其特征在于,所述基于内容分块方法还包括设置基本参数的步骤:设置固定窗口的大小,其中固定窗口的大小决定最终文件分块的平均块大小;设置滑动窗口的大小,其中滑动窗口大小与移动步长保持一致;设置极大值与极小值,其中极大值为窗口移动中维持的最大值,初始值为0;极小值为窗口移动中维持的最小值,初始值为256。3.根据权利要求1所述的一种应用在重复数据删除的基于内容分块方法,其特征在于,所述根据固定窗口更新极大值和极小值,包括:将固定窗口中的字节值分别与初始极大值和初始极小值进行比较,根据比较结果更新极大值和极小值;更新的公式如下:更新的公式如下:其中,minimum为极大值,minimum为极小值。4.根据权利要求1所述的一种应用在重复数据删除的基于内容分块方法,其特征在于,所述判断是否满足切点条件,包括:若滑动窗口中的字节值介于极大值和极小值之间时,判定不满足切点条件,返回继续向前移动滑动窗口;若滑动窗口内字节值大于极大值或小于极小值时,判定满足切点条件,获取块切点位置。5.根据权利要求4所述的一种应用在重复数据删除的基于内容分块方法,其特征在于,两个连续的切点之间的字节作为一个块,块的大小计算公式如下:chunk size=w+moved bytes式中,w表示固定窗口长度,moved bytes表示滑动窗口移动过的距离。6.根据权利要求1所述的一种应用在重复...

【专利技术属性】
技术研发人员:苏锦钿巢赟
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1