【技术实现步骤摘要】
一种在数据去重过程中选择性重写自引用块方法及系统
本专利技术属于计算机存储
,更具体地,涉及一种在数据去重过程中选择性重写自引用块方法及系统。
技术介绍
去重技术是在现代备份系统中消除冗余数据节省空间最为有效的方法。去重技术首先将文件分成等长或者变长的数据块,然后使用哈希方法来计算每个数据块的指纹,通过比对指纹值来确定数据块是否重复。它是一种无损压缩技术,可以有效的节省系统的存储空间。由于一个备份流中的数据块分散在不同的容器中,因此引入了两种类型的碎片:一种是版本间碎片,它是由相似的数据定期备份导致的;另一种是由同一个数据块在单个备份流中多次出现而导致的内部碎片块(通常称为自引用块)。恢复带有碎片的备份流需要从磁盘中读取多个容器,由于磁盘的随机访问性能差,碎片会导致系统的恢复性能下降。为解决上述碎片问题,专利CN104050057A提出一种历史感知重写方法(HAR),其专利技术构思为:识别并收集上一次备份的在稀疏容器中的重复块,然后在下一次备份中重写它们。所述方法首先对数据流中的文件进行分块、求指纹,查询索引找到重复数据块;然后在上次备份记录的稀疏容器集合中 ...
【技术保护点】
1.一种在数据去重过程中选择性重写自引用块的方法,其特征在于,所述方法包括以下步骤:S1.获取数据去重过程中的重复块和上次备份的容器总数;S2.判断重复块所在容器的ID是否超过上次备份的容器总数,若是,则所述重复块是自引用块,否则,所述重复块不是自引用块;S3.创建用于模拟恢复缓存的缓冲区,查找自引用块所在容器ID是否存在于所述缓冲区中,若是,所述自引用块不是内部碎片块,否则,所述自引用块是内部碎片块;S4.根据内部碎片块所在容器的利用率是否低于预设阈值,若是,所述内部碎片块将被重写到容器,否则,所述自引用块无需被重写到容器。
【技术特征摘要】
1.一种在数据去重过程中选择性重写自引用块的方法,其特征在于,所述方法包括以下步骤:S1.获取数据去重过程中的重复块和上次备份的容器总数;S2.判断重复块所在容器的ID是否超过上次备份的容器总数,若是,则所述重复块是自引用块,否则,所述重复块不是自引用块;S3.创建用于模拟恢复缓存的缓冲区,查找自引用块所在容器ID是否存在于所述缓冲区中,若是,所述自引用块不是内部碎片块,否则,所述自引用块是内部碎片块;S4.根据内部碎片块所在容器的利用率是否低于预设阈值,若是,所述内部碎片块将被重写到容器,否则,所述自引用块无需被重写到容器。2.如权利要求1所述的在数据去重过程中选择性重写自引用块的方法,其特征在于,所述获取数据去重过程中的重复块具体如下:将一个备份流分成多个可变大小的数据块,并计算每个数据块的指纹,通过对数据块指纹的比对来标记数据块是否为重复块,重复块被标记为0,唯一块被标记为1。3.如权利要求1所述的在数据去重过程中选择性重写自引用块的方法,其特征在于,步骤S3具体如下:创建缓冲区为缓存列表,查找自引用块所在容器ID是否存在于所述缓存列表中,如果存在,所述自引用块将不会对恢复性能产生影响,不是内部碎片,否则,所述自引用块为内部碎片块,将它的容器ID插入缓存列表尾部,同时删除缓存列表的第一个元素。4.如权利要求1所述的在数据去重过程中选择性重写自引用块的方法,其特征在于,所述内部碎片块所在容器的利用率等于所述内部碎片块所在的容器存储的当前备份流中的数据块与所述内部碎片块所在的容器的总大小的比值。5.如权利要求1所述的在数据去重过程中选择性重写自引用块的方法,其特征在于,在步骤S1之前,还包括步骤S0.基于HAR重写方法去除相似的数据定期备份导致的版本间碎片块。6.一种在数据去重过程中选择性重写自引用块的...
【专利技术属性】
技术研发人员:王芳,左春雪,冯丹,张宇成,胡燏翀,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。