【技术实现步骤摘要】
【国外来华专利技术】增加的联机去重复效率的方法和系统
本专利技术总体上涉及计算系统,并且更特别地涉及增加的联机去重复(in-linededuplication)效率。
技术介绍
在当今社会中,计算机系统是司空见惯的。计算机系统可在工作地点、在家或者在学校找到。计算机系统可包括用来处理和存储数据的数据存储系统或者磁盘存储系统。一个这种处理是数据去重复。数据去重复指代冗余数据的减少和/或消除。在数据去重复处理中,数据的重复副本被减少或者消除,从而分别留下最小量的冗余副本,或者数据的单个副本。使用去重复处理提供各种益处,诸如所需存储容量的减少和对网络带宽的减少的需要。由于这些以及其他益处,去重复近年来已经显现为计算存储系统中的高度重要
技术实现思路
随着其中用户可以在存储云服务内的存储空间上拥有、创建、修改和/或删除容器和对象的存储云服务的显现,通过HTTP对存储空间的在线访问已经显著增加。这种存储云服务的用户通常在存储云服务提供商所披露的应用编程接口(API)的帮助下对它们拥有的云存储空间执行这些操作。尽管向用户披露API已经非常有用,但是将API用于对云存储服务执行操作已经在数据去重复领域对服务提供商提出了附加问题。因此,存在存储云服务提供商使用去重复技术来减少对存储云服务空间的消耗的需要。各种实施例提供了用于计算环境中的增加的联机去重复效率的方法。一种方法包括通过计算环境中的处理器设备计算在n次迭代中用于从被请求用于联机去重复的对象提取的累积数据块的散列值。该方法还包括,对于n次迭代中的每一次,将第n个散列索引表中的用于累积数据块的计算出的散列值与存储装置中的现有对象的 ...
【技术保护点】
一种由计算环境中的处理器设备执行的用于增加的联机去重复效率的方法,所述方法包括:在n次迭代中计算用于从被请求用于联机去重复的对象提取的用于累积数据块的散列值;对于所述n次迭代中的每一次,在第n个散列索引表中将用于所述累积数据块的计算出的所述散列值与存储装置中的现有对象的对应散列值相匹配,其中所述第n个散列索引表针对所述累积数据块中的每一个被构建;一旦在所述匹配期间检测到用于所述累积数据块之一的计算出的所述散列值的失配就退出所述第n个散列索引表,其中所述失配被确定为唯一对象并被存储;以及计算用于所述对象的散列值,其中主散列索引表利用用于所述对象的计算出的所述散列值和用于所述唯一对象的计算出的所述散列值被更新。
【技术特征摘要】
【国外来华专利技术】2012.04.05 US 13/440,6061.一种由计算环境中的处理器设备执行的用于增加的联机去重复效率的方法,所述方法包括:在n次迭代中计算用于从被请求用于联机去重复的对象提取的用于累积数据块的散列值;对于所述n次迭代中的每一次,在第n个散列索引表中将用于所述累积数据块的计算出的所述散列值与存储装置中的现有对象中与所述累积数据块位置大小对应的散列值相匹配,其中所述第n个散列索引表针对该n次迭代的所述累积数据块中的每一个被构建;一旦在所述匹配期间检测到用于所述累积数据块之一的计算出的所述散列值的匹配,如果已到达所述用于联机去重复的对象的全尺寸,退出迭代,否则从所述用于联机去重复的对象请求继续收集数据,并与本次迭代的累积数据块结合形成下次迭代的累积数据块,进行下次迭代;一旦在所述匹配期间检测到用于所述累积数据块之一的计算出的所述散列值的失配就退出所述第n个散列索引表,其中所述失配被确定为唯一对象并被存储;以及计算用于所述用于联机去重复的对象的散列值,其中主散列索引表利用用于所述用于联机去重复的对象的计算出的所述散列值和用于所述唯一对象的计算出的所述散列值被更新。2.根据权利要求1所述的方法,还包括针对所述n次迭代中的每一次递增所述累积数据块的尺寸以用于达到所述对象的全尺寸。3.根据权利要求2所述的方法,其中所述递增所述累积数据块的所述尺寸包括对数地递增所述累积数据块的所述尺寸。4.根据权利要求1所述的方法,还包括根据历史数据的式样确定基于去重复比率递增累积数据块的尺寸的机制,其中所述n次迭代随着所述去重复比率增加而减少并且所述n次迭代随着所述去重复比率减少而增加。5.根据权利要求1所述的方法,还包括,一完成所述对象中的所述累积数据块的所述提取并且执行所述匹配而未在所述第n个散列索引表中检测到失配,就在所述主散列索引表中针对所述对象的计算出的所述散列值执行所述匹配。6.根据权利要求5所述的方法,还包括,一检测到所述主散列索引表中的失配,就存储所述对象并且更新所述主散列索引表。7.根据权利要求6所述的方法,还包括,在所述匹配期间在所述主散列索引表和所述第n个散列索引表中的一个中一检测到失配,就终止所述联机去重复并且向客户端发送成功响应。8.根据权利要求1所述的方法,还包括在离线模式中执行所述计算用于所述对象的散列值。9.根据权利要求1所述的方法,还包括,结合所述匹配,如果发现用于所述累积数据块的计算出的所述散列值与所述存储装置中的所述现有对象的所述对应散列值的匹配,则继续从所述对象提取数据以构建所述累积数据块中的第n个累积数据块。10.一种用于计算环境中的增加的联机去重复...
【专利技术属性】
技术研发人员:D·M·鲍德温,N·P·博萨勒,J·T·奥尔森,S·R·帕蒂尔,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。