一种快速去重的文件数据复制方法技术

技术编号:5536581 阅读:1036 留言:0更新日期:2012-04-11 18:40
本发明专利技术的一种快速去重的文件数据复制方法,包括:在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2,对所述第二目标文件元数据信息进行指纹计算形成ID3,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4;将所述ID1与所述ID3进行对比;若所述ID1与所述ID3相同,则无需复制;若所述ID1与所述ID3不相同,且所述ID2与所述ID4相同,则更新所述第一目标文件的元数据,若所述ID2与所述ID4不相同,则将所述第二目标文件全文件进行复制。

【技术实现步骤摘要】

本专利技术涉及一种数据复制方法,特别涉及。技术背景对于现有的文件数据复制方法主要有两种一种是对整体文件进行去重,另一种 是对文件内部数据块进行去重。前者是指针对整体文件去重算法进行的改进。传统的算法 叫做完全文件检测(whole file detection,WFD)WFS技术是以文件为粒度查找重复数据, 首先对整个文件进行指纹计算(hash计算),然后将该值与已存储的其他文件的hash值进 行比较,如果检测到相同的值,则仅将文件用指针替换,如果不同则将整个文件进行传送, 后者,将文件拆分为更小的数据段,对数据段的内容进行指纹计算,然后对每个段进行指纹 对比,检测出内容相同的数据段,重复的段只传送指针,不同的数据段传输该数据段的全部 内容。与前者相比,实际传送的数据量决定于备份或复制间隔内所产生的数据变化量,因 此,比前者所需要传输的数据量要少很多。然而其文件对比所需要的检测时间确是相同的, 均为对所有文件的所有内容进行比对检测。然而,对于某些文件,经处理前后的内容完全一样,然而其指纹信息确发生了变 化,如果只对全文件进行指纹计算,来确定前后是否一致,进而来决定是否对全文件进行复 制,很可能造成具有完全一样内容的文件被再次传输,增加了传输的负载,也没有达到去复 的目的。如果对于一些本来就没有被修改过的文件来说,采用上述数据段去复的方法进行 去重复制,那么需要将该文件分成若干段,将每段内容指纹计算,然后将每个数据段的指纹 进行对比,最终确定复制策略,这样一来,大大增加了对文件内容一致性的检测时间。另外, 即便文件内容有改动,然而,对于一些行业来说,比如影视行业,IT业等他们需要定期复制 的文件数量很大,且单一文件大小也很大,通常被修改的部分较大,且被修改的位置在文件 中的分布也不一定,比如,经大量修改后的内容存在于整个文件的中部或末尾,如果采用现 有技术中上述数据段去重的方法的去重文件数据复制方法,对文件数据的进行备份,需要 对所有的内容进行对比,因此,很多没有修改的信息都被提取出进行对比,其前期的检测时 间大大增加了,使复制的效率大大降低,更严重的甚至会造成工业生产的停滞,进而造成较 大的经济损失。
技术实现思路
为此,本专利技术要解决的技术问题在于,提出一种能够显著减少重复文件数据检测 时间,又能很好地保证重复性文件检测精度的,高效的快速去重的文件数据复制方法。为此,本专利技术的,包括指纹获取步骤在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前, 处理器对所述第一目标文件的元数据信息进行指纹计算形成IDl文件,和对所述第一目标 文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述IDl文件和所述ID2文件存储在数据库中; 在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在 对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第 二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔 尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和 所述ID4文件存储在数据库中;指纹对比和文件复制执行步骤将所述IDl文件与所述ID3文件进行对比若所述IDl文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目 标文件目录下;若所述IDl文件与所述ID3文件不相同,且所述ID2文件与所述ID4文件相同,则 传输所述ID3文件更新所述第一目标文件相应的元数据;若所述IDl文件与所述ID3文件不相同,且所述ID2与所述ID4文件不相同,则将 所述第二目标文件全文件复制到所述目标文件目录下。上述的文件数据复制方法,所述第一目标文件的元数据信息包括所述第一目标文 件的按特定顺序组合而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目 标文件的元数据信息包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修 改时间。上述的文件数据复制方法,所述指纹计算为Rabin计算、MD5计算、SHA-I计算、 SHA-224 计算、SHA-256 计算、SHA-384 和 SHA-512 计算中的一种。上述的文件数据复制方法,所述预定间隔尺度为512B-5KB ;上述的文件数据复制方法,其特征在于通过间隔提取的文件数据段大小为 512-2KB。上述的文件数据复制方法,所述第一目标文件的元数据信息还包括所述第一目标 文件的父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件 的父目录信息和层次信息。上述的文件数据复制方法,在每一次复制步骤完成后对备份文件分配同一个版本 号,作为文件恢复的索引。上述的文件数据复制方法,所述预定间隔尺度为1KB。上述的文件数据复制方法,所述间隔提取的文件数据段大小为1KB。上述文件数据复制方法,所述文件类型包括压缩文件类、音视频文件类、图像文 件类、可执行文件类、文档类和数据文件类中的一种或几种。本专利技术具有以下优点1、快速去重的文件数据复制方法包括在对存储介质中的第一目标文件进行第一 次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹 计算形成IDl文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段 的内容进行指纹计算形成ID2文件,并将所述IDl文件和所述ID2文件存储在数据库中; 在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存 储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔 提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4 文件存储在数据库中;将所述IDl文件与所述ID3文件进行对比;若所述IDl文件与所述 ID3文件相同,则无需将所述第二目标文件复制到所述目标文件目录下;若所述IDl文件与 所述ID3文件不相同,则将所述ID2文件与所述ID4文件进行对比,若所述ID2文件与所述 ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据,若所述ID2与所 述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。以上处理 过程在备份文件即第一目标文件和待备份文件即第二目标文件的元数据相同的情况下,只 需要对比他们的元数据信息,无需对比其实质内容,由于元数据信息的数据量很小,因此其 检测时间大大提高了,另外,当备份文件和待备份文件元数据相同的情况下,将备份文件经 预定间隔尺度间隔提取的内容经过指纹计算的ID2文件和将待备份文件经预定间隔尺度 间隔提取的内容经过指纹计算的ID4文件进行对比判断其相同性,由于在备份文件即第一 目标文件和待备份文件即第二目标文件元数据不相同的情况下,它们的文件实质内容也有 可能相同,通过间隔提取内容计算指纹用于指纹对比,可以快速发现分布于文件不同位置 的修改处,无须对所有内容进行对比即可发生文件是否被修改过,可以大大减小其对比的 时间,最终保证了相同文件数据的去重,又大大提高文件数据复制的效率。2.通常情况下,对于一些大文件,其修改部分本文档来自技高网
...

【技术保护点】
一种快速去重的文件数据复制方法,其特征在于:包括:指纹获取步骤在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述ID1文件和所述ID2文件存储在数据库中;在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4文件存储在数据库中;指纹对比和文件复制执行步骤将所述ID1文件与所述ID3文件进行对比:若所述ID1文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目标文件目录下;若所述ID1文件与所述ID3文件不相同,且所述ID2文件与所述ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据;若所述ID1文件与所述ID3文件不相同,且所述ID2与所述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。...

【技术特征摘要】

【专利技术属性】
技术研发人员:朱立谷李强
申请(专利权)人:中国传媒大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1