基于子文件的数据重删方法、装置及可读介质制造方法及图纸

技术编号:38885763 阅读:25 留言:0更新日期:2023-09-22 14:13
本发明专利技术公开了一种基于子文件的数据重删方法、装置及可读介质,获取输入文件,判断输入文件为Office文件或Pdf文件;响应于确定输入文件为Office文件,循环解析Office文件中的局部文件数据,对局部文件数据计算指纹信息,并存入recipe,直至检测到中央目录记录;响应于确定输入文件为Pdf文件,对Pdf文件解析得到stream数据,对stream数据计算指纹信息,并存入recipe;将Office文件中的局部文件数据以及Pdf文件中的stream数据定义为数据块,查询数据块对应的指纹信息是否存在于持久化存储介质的元数据保存结构体数组中,得到查询结果,根据查询结果进行重删,可有效提高重删效率。可有效提高重删效率。可有效提高重删效率。

【技术实现步骤摘要】
基于子文件的数据重删方法、装置及可读介质


[0001]本专利技术涉及计算机存储领域,具体涉及一种基于子文件的数据重删方法、装置及可读介质。

技术介绍

[0002]随着数据的爆炸性增长,产生数据缩减技术,数据缩减技术通过减少数据冗余来减少物理存储在存储介质中的数据量,因此数据中心可以更少或更小的资源处理相同数量的数据,降低数据中心管理成本。目前数据缩减技术包括基于数据压缩和重复数据删除。数据压缩使用无损压缩算法对数据块进行编码,以便用更少的位数来表示数据块。重复数据删除则会在存储系统中已经存在相同的数据块的情况下(即包含完全相同数据的块)阻止写入数据块。
[0003]为了实现高数据缩减率,目前应用重复数据删除的方式整合这两种技术并对非重复数据删除块执行无损压缩。重复数据删除可通过大规模地有效地消除冗余数据,从而降低数据存储成本。例如某office和pdf文件备份服务器,大约每天会有50GB的工作负载,那么一年就需要备份18250GB的数据。事实上,一个文件的不同版本之间存在着大量的冗余,这是由于通常只会对一个文件进行少量的增删操作。传统的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于子文件的数据重删方法,其特征在于,包括以下步骤:获取输入文件,判断所述输入文件为Office文件或Pdf文件;响应于确定所述输入文件为Office文件,循环解析所述Office文件中的局部文件数据,对所述局部文件数据计算指纹信息,并存入recipe,直至检测到中央目录记录;响应于确定所述输入文件为Pdf文件,对所述Pdf文件解析得到stream数据,对所述stream数据计算指纹信息,并存入recipe;将所述Office文件中的所述局部文件数据以及所述Pdf文件中的stream数据定义为数据块,查询所述数据块对应的指纹信息是否存在于持久化存储介质的元数据保存结构体数组中,得到查询结果,根据所述查询结果进行重删。2.根据权利要求1所述的基于子文件的数据重删方法,其特征在于,还包括:初始化持久化存储介质的元数据保存结构体数组,所述元数据保存结构体数组中的元数据包括指纹信息、容器编号、数据块在容器内的偏移、数据块的长度;初始化一个开放容器,所述开放容器为未写满可用于写缓存的容器,若开放容器中已写满即变为封闭容器,所述封闭容器为已写满且写入磁盘的容器,并重新建立一个开放容器;初始化recipe,所述recipe用于存储数据块的指纹信息和元数据块的指纹信息。3.根据权利要求1所述的基于子文件的数据重删方法,其特征在于,所述判断所述输入文件为Office文件或Pdf文件,具体包括:根据所述输入文件的格式的幻数对所述输入文件的格式进行判断,确定所述输入文件为Office文件或Pdf文件。4.根据权利要求1所述的基于子文件的数据重删方法,其特征在于,所述循环解析所述Office文件中的局部文件数据,具体包括:解析所述Office文件中的第一个局部文件头,获取所述第一个局部文件头对应的局部文件数据及其压缩后的长度,根据所述长度计算下一个局部文件头的位置;遍历解析下一个局部文件头,获取所述下一个局部文件头对应的局部文件数据,直至检测到所述中央目录记录。5.根据权利要求1所述的基于子文件的数据重删方法,其特征在于,所述对所述Pdf文件解析得到stream数据,具体包括:检测所述Pdf文件中的每个stream起始标志及其相邻的stream结束标志,并将所述stream起始标志及其相邻的stream结束标志之间除障碍字节...

【专利技术属性】
技术研发人员:毛波吴素贞汪渭春陈逸飞王伟张志强夏伟强陈伟谢飞
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1