【技术实现步骤摘要】
一种数据去重系统中的冷热索引识别与分类管理方法
本专利技术涉及数据存储和重复数据删除
,具体涉及一种数据去重(datadeduplication)系统中的冷热索引识别与分类管理方法。
技术介绍
数据的爆炸性增长,对存储空间提出了严峻的挑战,研究人员发现数据中存在着大量的重复数据,存储重复的数据造成了存储空间的浪费,增加了存储成本。重复数据删除技术通过一系列的手段识别重复和唯一的数据块,并且只存储重复数据块的唯一副本和唯一块,大大的降低了存储空间的开销,为企业节约了巨额成本。重复数据删除技术一般可分为5个阶段——1).读取、2).分块、3).计算hash值、4).去重、5).过滤。具体来讲,1).首先将需备份的数据以数据流的形式读取;2).使用分块算法(如固定分块算法、基于内容的变长分块算法、基于文件大小的分块算法等)对数据流进行分块;3).计算每一个数据块的哈希值,也称之为指纹,指纹作为识别数据块的唯一标识;4).对于一个新备份的数据块,查找磁盘中是否已经存在与该新数据块的指纹相同的指纹,如存在则将该新数据块标 ...
【技术保护点】
1.一种数据去重系统中的冷热索引识别与分类管理方法,其特征在于,根据索引被访问的频率和概率,进行冷热索引的识别和分离,所述的冷热索引识别与分类管理方法包括以下步骤:/nT1、设定一个阈值,将被访问的频率或概率低于该阈值的索引归类为冷索引,否则为热索引;/nT2、在内存中只预取和保留热索引,冷索引存到磁盘上一个区域;/nT3、随着索引数量的不断增加,当内存不足以存放全部热索引时,将部分热索引存放到磁盘上另一个区域;/nT4、查找密集型的数据去重系统,当在内存中查找索引未命中时,到磁盘上根据性能优先或者去重率优先进一步查找索引,其中,所述的性能优先方案仅查找磁盘上的热索引,忽略 ...
【技术特征摘要】
1.一种数据去重系统中的冷热索引识别与分类管理方法,其特征在于,根据索引被访问的频率和概率,进行冷热索引的识别和分离,所述的冷热索引识别与分类管理方法包括以下步骤:
T1、设定一个阈值,将被访问的频率或概率低于该阈值的索引归类为冷索引,否则为热索引;
T2、在内存中只预取和保留热索引,冷索引存到磁盘上一个区域;
T3、随着索引数量的不断增加,当内存不足以存放全部热索引时,将部分热索引存放到磁盘上另一个区域;
T4、查找密集型的数据去重系统,当在内存中查找索引未命中时,到磁盘上根据性能优先或者去重率优先进一步查找索引,其中,所述的性能优先方案仅查找磁盘上的热索引,忽略磁盘上的冷索引,所述的去重率优先方案先查找磁盘上的热索引,如未找到再查找磁盘上的冷索引。
2.根据权利要求1所述的一种数据去重系统中的冷热索引识别与分类管理方法,其特征在于,索引被访问的频率使用容器利用率来反映和预测,其中,所述的容器利用率是指在某次备份过程中某个容器被访问的频率或概率。
3.根据权利要求2所述的一种数据去重系统中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。