一种将文件导出到磁带的方法和装置制造方法及图纸

技术编号:9668056 阅读:100 留言:0更新日期:2014-02-14 06:38
本发明专利技术公开了一种将文件导出到磁带的方法和装置,所述方法用于将以重删数据的形式保存的至少两个原始文件导出至磁带,所述重删数据包括存根文件集、单一实例库、以及指纹库。所述方法包括:从所述存根文件集中选出至少一个要导出至磁带的存根文件组成存根文件子集;将所述存根文件子集以及所述子单一实例库导出至一个磁带;以及在所述存根文件集包括尚未导出至磁带的存根文件的情况下,重复执行前述两个步骤。根据本发明专利技术实施例的方法能够仍然以重删数据的形式保存原始文件,也就是说维持了数据重删的价值,节约了磁带的存储空间,并且通过保证重删域在同一个磁带里,可以保证快速恢复并读取原始文件。

【技术实现步骤摘要】
一种将文件导出到磁带的方法和装置
本专利技术涉及数据存储领域,尤其涉及一种将文件导出到磁带的方法和装置。
技术介绍
重复数据删除技术是指,把文件分成一个个的数据块,对每个数据块计算一个指纹,并和已经存在的指纹进行对比;如果这个指纹已经存在,则说明这个数据块已经存在了,就不需要再保存了,只需要将该数据块的引用计数加一,以说明该数据块又被多引用了一次;如果这个指纹不存在,则说明这个数据块是唯一的,这时就需要把这个指纹和对应的数据块保存起来。在进行重复数据删除以后,存储系统里通常会形成包括以下三个部分的重删数据。第一个部分是用于存放数据块的单一实例库(SingleInstanceRepository,缩写:SIR)。第二个部分是指纹库,用于存放所有的指纹以及指纹对应的数据块的计数信息。第三个部分是存根文件,用于保存每个文件划分出的数据块的指纹以及该指纹对应的数据块的位置信息。重复数据删除可以极大地节省用以保存文件的资源和空间。但为了进行长期归档,通常还需要将文件保存在磁带介质里。在现有技术中,将以重删数据形式保存的文件导出至磁带的一种方法是,把存根文件复原为原始文件再备份到磁带里去,也即在本文档来自技高网...
一种将文件导出到磁带的方法和装置

【技术保护点】
一种将文件导出到磁带的方法,用于将以重删数据的形式保存的至少两个原始文件导出至磁带,所述重删数据包括存根文件集、单一实例库、以及指纹库,所述单一实例库包括从各所述原始文件划分出的所有单一的数据块,所述存根文件集包括分别与各所述原始文件对应的至少两个存根文件,各所述存根文件包括至少一个指纹数据,所述指纹数据包括指纹和位置信息,所述指纹用于标识从与所述存根文件对应的原始文件划分出的数据块,所述位置信息表示与所述指纹数据对应的数据块在所述单一实例库中的位置,所述指纹库包括各所述指纹及其引用计数,所述指纹的引用计数表示引用所述指纹标识的数据块的存根文件的个数,其特征在于,该方法包括:从所述存根文件集中...

【技术特征摘要】
1.一种将文件导出到磁带的方法,用于将以重删数据的形式保存的至少两个原始文件导出至磁带,所述重删数据包括存根文件集、单一实例库、以及指纹库,所述单一实例库包括从各所述原始文件划分出的所有单一的数据块,所述存根文件集包括分别与各所述原始文件对应的至少两个存根文件,各所述存根文件包括至少一个指纹数据,所述指纹数据包括指纹和位置信息,所述指纹用于标识从与所述存根文件对应的原始文件划分出的数据块,所述位置信息表示与所述指纹数据对应的数据块在所述单一实例库中的位置,所述指纹库包括各所述指纹及其引用计数,所述指纹的引用计数表示引用所述指纹标识的数据块的存根文件的个数,其特征在于,该方法包括:从所述存根文件集中选出至少一个要导出至磁带的存根文件组成存根文件子集,其中,所述存根文件子集以及与所述存根文件子集对应的子单一实例库的总数据量不大于一个磁带的容量,所述子单一实例库包括被所述存根文件子集中的存根文件引用的所有单一的数据块;将所述存根文件子集以及所述子单一实例库导出至一个磁带;以及在所述存根文件集包括尚未导出至磁带的存根文件的情况下,重复执行前述两个步骤,直至所述存根文件集中的存根文件均被导出至磁带为止。2.根据权利要求1所述的方法,其特征在于,将所述存根文件子集以及所述子单一实例库导出至一个磁带,包括:对所述存根文件子集中的存根文件内的指纹数据进行修改,以使得修改后的指纹数据中的位置信息表示与所述指纹数据对应的数据块在所述子单一实例库中的位置;将进行了所述修改的所述存根文件子集导出至所述磁带;以及将所述子单一实例库导出至所述磁带。3.根据权利要求2所述的方法,其特征在于,在对所述存根文件子集中的存根文件内的指纹数据进行修改之前,还包括:确定所述子单一实例库中的第一数据块,其中,所述第一数据块为被一个所述存根文件引用的数据块;将所述存根文件子集中的存根文件内与所述第一数据块对应的指纹数据替换为所述第一数据块;以及将所述第一数据块从所述子单一实例库移除。4.根据权利要求1至3中任一项所述的方法,其特征在于,从所述存根文件集中选出至少一个要导出至磁带的存根文件组成存根文件子集,包括:从所述存根文件集中选出预定数量的要导出至磁带的存根文件组成候选子集;计算步骤,计算所述候选子集以及与所述候选子集对应的候选子单一实例库的总数据量,其中,所述候选子单一实例库包括被所述候选子集中的存根文件引用的所有单一的数据块;以及在所计算出的总数据量不大于一个磁带的容量的情况下,将所述候选子集确定为所述存根文件子集,否则从所述候选子集移除一个存根文件并重复所述计算步骤。5.根据权利要求4所述的方法,其特征在于,从所述存根文件集中选出预定数量的要导出至磁带的存根文件组成候选子集,包括:根据所述存根文件集中要导出至磁带的存根文件的保存顺序,依次选出预定数量的存根文件组成所述候选子集;或者根据所述存根文件集中要导出至磁带的存根文件之间的数据块共享关系,选出预定数量的共享数据块最多的存根文件组成所述候选子集。6.根据权利要求1至3中任一项所述的方法,其特征在于,在从所述存根文件集中选出至少一个要导出至磁带的存根文件组成存根文件子集之前,还包括:确定所述单一实例库中的第二数据块,其中,所述第二数据块为被一个所述存根文件引用的数据块;将所述存根文件集中的存根文件内与所述第二数据块对应的指纹数据替换为所述第二数据块;以及将所述第二数据块从所述单一实例库移除。7.根据权利要求4所述的方法,其特征在于,在从所述存根文件集中选出至少一个要导出至磁带的存根文件组成存根文件子集之前,还包括:确定所述单一实例库中的第二数据块,其中,所述第二数据块为被一个所述存根文件引用的数据块;将所述存根文件集中的存根文件内与所述第二数据块对应的指纹数据替换为所述第二数据块;以及将所述第二数据块从所述单一实例库移除。8.根据权利要求5所述的方法,其特征在于,在从所...

【专利技术属性】
技术研发人员:李育国
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1