【技术实现步骤摘要】
【国外来华专利技术】基于分散位置的去重的性能改进
技术介绍
本申请总体上涉及一种改进的数据处理装置和方法,更具体地涉及用于改进基于分散位置的去重的性能的机制。在存储系统中,去重(deduplication)是用针对数据的单个实例的指针、引用等替换整个系统中的重复数据并且因此降低整体存储需求的过程。一般来说,去重引用(deduplicationreference)是指向要么是数据本身要么是代表数据的元数据的拥有者的元数据条目。存储数据有两种主要方案:基于内容的去重和基于位置的去重。在基于内容的去重中,位于存储器内的数据由数据的指纹、哈希值等确定。在基于位置的重复删除中,位于存储器内的数据由数据的用户-空间位置(卷偏移量)确定。基于位置的去重的一个主要优点是当执行大型读取或顺序读取时的数据局部性。基于位置的去重需要的磁盘输入/输出(I/O)较少。另一方面,当系统中的I/O为数不多时,基于内容的去重具有更好的资源平衡。因为去重需要大量的随机存取存储器(RAM),所以有些实现方式为了简化管理和/或交换而将元数据划分为区域(空间划分),诸如拥有者(owner)区域和引用者(referrer)区域。
技术实现思路
提供本概述以便以简化的形式介绍将在本文的具体实施方式部分进一步描述的一些概念。本概述并不旨在标识所要求保护的主题的关键因素或基本特征,也不旨在限制所要求保护的主题的范围。在一个说明性实施例中,提供了一种在数据处理系统中用于基于分散位置的数据存储的方法。说明性实施例从主机系统接收将数据文件写入一组存储器区域中的引用者存储器区域 ...
【技术保护点】
1.一种在数据处理系统中用于基于分散位置的数据存储的方法,所述方法包括:/n由存储机构从主机系统接收将数据文件写入到一组存储器区域中的引用者存储器区域的请求;以及/n针对所述数据文件的每个数据块:/n响应于所述数据块的散列值与所述引用者存储器区域中所引用的其他所存储的数据块的其他散列值的比较指示所述数据块未存在于所述引用者存储器区域中,由所述存储机构确定所述数据是否存在于该组存储器区域中的另一存储器区域中;/n响应于所述数据块存在于该组存储器区域中的另一存储器区域中,由所述存储机构确定所述存储器区域是否是与所述引用者存储器区域相关联的预定数量N个拥有者存储器区域中的一个拥有者存储器区域;/n响应于所述存储器区域未能成为与所述引用者存储器区域相关联的所述预定数量N个拥有者存储器区域中的一个拥有者存储器区域,由所述存储机构确定所述预定数量N个拥有者存储器区域中的拥有者存储器区域的数量是否已经达到;以及/n响应于拥有者存储器区域尚未达到所述预定数量N,由所述存储机构将对所述数据块的引用存储在所述引用者存储器区域中。/n
【技术特征摘要】
【国外来华专利技术】20171025 US 15/793,1091.一种在数据处理系统中用于基于分散位置的数据存储的方法,所述方法包括:
由存储机构从主机系统接收将数据文件写入到一组存储器区域中的引用者存储器区域的请求;以及
针对所述数据文件的每个数据块:
响应于所述数据块的散列值与所述引用者存储器区域中所引用的其他所存储的数据块的其他散列值的比较指示所述数据块未存在于所述引用者存储器区域中,由所述存储机构确定所述数据是否存在于该组存储器区域中的另一存储器区域中;
响应于所述数据块存在于该组存储器区域中的另一存储器区域中,由所述存储机构确定所述存储器区域是否是与所述引用者存储器区域相关联的预定数量N个拥有者存储器区域中的一个拥有者存储器区域;
响应于所述存储器区域未能成为与所述引用者存储器区域相关联的所述预定数量N个拥有者存储器区域中的一个拥有者存储器区域,由所述存储机构确定所述预定数量N个拥有者存储器区域中的拥有者存储器区域的数量是否已经达到;以及
响应于拥有者存储器区域尚未达到所述预定数量N,由所述存储机构将对所述数据块的引用存储在所述引用者存储器区域中。
2.根据权利要求1所述的方法,还包括:
响应于达到所述预定数量N个拥有者存储器区域,由所述存储机构将所述数据块存储在所述引用者存储器区域中。
3.根据权利要求1所述的方法,还包括:
响应于拥有者存储器区域尚未达到所述预定数量N,由所述存储机构确定其中存储所述数据块的所述存储器区域是否已经达到流行度阈值;以及
响应于所述数据块已经被存储在其中的所述存储器区域达到所述流行度阈值,由所述存储机构将所述存储器区域添加到所述预定数量N个拥有者存储器区域。
4.根据权利要求1所述的方法,还包括:
响应于拥有者存储器区域尚未达到所述预定数量N,由所述存储机构将所述存储器区域添加到所述预定数量N个拥有者存储器区域。
5.根据权利要求1所述的方法,其中基于先来先服务策略和流行度策略的其中之一来确定所述预定数量N个拥有者存储器区域内的所述拥有者存储器区域。
6.根据权利要求5所述的方法,其中,按照所述先到先服务策略,当数据存储在所述存储器区域中时,所述存储器区域被添加到所述预定数量N个拥有者存储器区域。
7.根据权利要求5所述的方法,其中,按照所述流行度策略,当所述存储器区域的流行度达到预定阈值时,将所述存储器区域添加到所述预定数量N个拥有者存储器区域,其中,达到所述预定阈值是在针对所述存储器区域的读取和/或写入的数目达到或超过所述阈值时。
8.根据权利要求7所述的方法,其中,按照所述流行度策略,在预定数量N个拥有者存储器区域已满时,当另一存储器区域的流行度超过已经在所述预定数量N个拥有者存储器区域中的最低流行度的拥有者存储器区域的流行度时,从所述预定数量N个拥有者存储器区域移除一个拥有者存储器区域。
9.一种计算机程序产品,包括其中存储有计算机可读程序的计算机可读存储介质,其中当所述计算机可读程序在计算设备上执行时,使得所述计算设备:
从主机系统接收将数据文件写入到存储器区域集合中的引用者存储器区域的请求;以及
针对所述数据文件的每个数据块:
响应于所述数据块的散列值与所述引用者存储器区域中所引用的其他所存储的数据块的其他散列值的比较指示所述数据块未存在于所述引用者存储器区域中,确定所述数据是否存在于该组存储器区域中的另一存储器区域中;
响应于所述数据块存在于该组存储器区域中的另一存储器区域中,确定所述存储器区域是否是与所述引用者存储器区域相关联的预定数量N个拥有者存储器区域中的一个拥有者存储器区域;
响应于所述存储器区域未能成为与所述引用者存储器区域相关联的所述预定数量N个拥有者存储器区域中的一个拥有者存储器区域,确定所述预定数量N个拥有者存储器区域中的拥有者存储器区域的数量是否已经达到;以及
响应于拥有者存储器区域尚未达到所述预定数量N,将对所述数据块的引用存储在所述引用者存储器区域中。
10.根据权利要求9所述的计算机程序产品,其中所述计算机可读程序还使得所述计算设备:
响应于达到所述预定数量N个拥有者存储器区域,将所述数据块存储在所述引用者存储器区域中。
11.根据权利要求9所述的计算机程序产品,其中所述计算机可读程序还使得所述计算设备:
响应...
【专利技术属性】
技术研发人员:J·费舍尔通博拉,Y·沙茨基,A·哈鲁米,A·波拉特斯托勒,S·马伦科夫,T·西万,R·科恩,D·哈尼克,E·凯茨,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。