一种快速去重的文件数据复制方法技术

技术编号:5536581 阅读:1055 留言:0更新日期:2012-04-11 18:40
本发明专利技术的一种快速去重的文件数据复制方法,包括:在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2,对所述第二目标文件元数据信息进行指纹计算形成ID3,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4;将所述ID1与所述ID3进行对比;若所述ID1与所述ID3相同,则无需复制;若所述ID1与所述ID3不相同,且所述ID2与所述ID4相同,则更新所述第一目标文件的元数据,若所述ID2与所述ID4不相同,则将所述第二目标文件全文件进行复制。

【技术实现步骤摘要】

本专利技术涉及一种数据复制方法,特别涉及。技术背景对于现有的文件数据复制方法主要有两种一种是对整体文件进行去重,另一种 是对文件内部数据块进行去重。前者是指针对整体文件去重算法进行的改进。传统的算法 叫做完全文件检测(whole file detection,WFD)WFS技术是以文件为粒度查找重复数据, 首先对整个文件进行指纹计算(hash计算),然后将该值与已存储的其他文件的hash值进 行比较,如果检测到相同的值,则仅将文件用指针替换,如果不同则将整个文件进行传送, 后者,将文件拆分为更小的数据段,对数据段的内容进行指纹计算,然后对每个段进行指纹 对比,检测出内容相同的数据段,重复的段只传送指针,不同的数据段传输该数据段的全部 内容。与前者相比,实际传送的数据量决定于备份或复制间隔内所产生的数据变化量,因 此,比前者所需要传输的数据量要少很多。然而其文件对比所需要的检测时间确是相同的, 均为对所有文件的所有内容进行比对检测。然而,对于某些文件,经处理前后的内容完全一样,然而其指纹信息确发生了变 化,如果只对全文件进行指纹计算,来确定前后是否一致,进而来决定是否对全文件进行本文档来自技高网...

【技术保护点】
一种快速去重的文件数据复制方法,其特征在于:包括:指纹获取步骤在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述ID1文件和所述ID2文件存储在数据库中;在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内...

【技术特征摘要】

【专利技术属性】
技术研发人员:朱立谷李强
申请(专利权)人:中国传媒大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1