【技术实现步骤摘要】
【国外来华专利技术】用于估计存储卷之间的去重的技术
[0001]背景
[0002]本申请总体上涉及数据存储。
[0003]相关技术描述
[0004]系统可包括由一个或多个主机处理器使用的不同资源。系统中的资源和主机处理器可通过一个或多个通信连接(诸如网络连接)互连。这些资源可包括数据存储装置,诸如那些包括在数据存储系统中的数据存储装置。数据存储系统可耦合到一个或多个主机处理器并且向每个主机处理器提供存储服务。来自一个或多个不同供应商的多个数据存储系统可被连接并且可为一个或多个主机处理器提供共同数据存储。
[0005]主机可使用数据存储系统来执行各种数据处理任务和操作。例如,主机可发出在数据存储系统处接收到的I/O操作,诸如数据读取和写入操作。主机系统可通过向包含多个主机接口单元、磁盘驱动器(或更一般地,存储装置)和磁盘接口单元的数据存储系统发出I/O操作来存储和检索数据。主机系统通过其提供的多个通道来访问存储装置。主机系统通过通道向数据存储系统的存储装置提供数据和访问控制信息。存储在存储装置上的数据也可通过通道从数据存储系统提供给主机系统。主机系统不对数据存储系统的存储装置进行直接寻址,而是访问对主机系统而言表现为多个文件、对象、逻辑单元、逻辑装置或逻辑卷的内容。因此,主机发出的I/O操作可涉及特定的存储实体,诸如文件或逻辑装置。逻辑装置可对应于或可不对应于实际的物理驱动器。允许多个主机系统访问单个数据存储系统允许主机系统共享存储在该单个数据存储系统中的数据。
技术实现思路
:
[0006]本文技术的各种实 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种确定和使用去重估计的方法,所述方法包括:确定一个或多个逻辑装置的第一逻辑装置组的第一数据去重样本索引(DSI)和一个或多个逻辑装置的第二逻辑装置组的第二DSI;确定所述第一DSI和所述第二DSI的Jaccard相似性,其中所述Jaccard相似性表示关于所述第一逻辑装置组的许多数据块预期与所述第二逻辑装置组的数据块匹配的相似性和相互去重的量度;根据一个或多个标准来确定所述第一逻辑装置组和所述第二逻辑装置组应位于不同数据存储系统中还是相对于存储在所述第一逻辑装置组和所述第二逻辑装置组上的数据块执行数据去重的同一数据存储系统中,其中所述一个或多个标准使用所述Jaccard相似性来确定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中;以及响应于确定所述第一逻辑装置组和所述第二逻辑装置组应位于所述同一数据存储系统中,将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中。2.如权利要求1所述的方法,所述方法还包括:使用所述第一DSI和所述第二DSI的所述Jaccard相似性来确定所述第一逻辑装置组和所述第二逻辑装置组之间的预期相同数据块数量,其中所述标准使用所述预期相同数据块数量来确定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中。3.如权利要求2所述的方法,其中使用所述预期块数量来确定估计去重百分比,并且如果所述估计去重百分比大于指定的阈值百分比,则所述一个或多个标准指定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中。4.如权利要求3所述的方法,其中所述估计去重百分比被确定为所述第一逻辑装置组的大小的百分比。5.如权利要求3所述的方法,其中所述估计去重百分比被确定为所述第二逻辑装置组的大小的百分比。6.如权利要求1所述的方法,其中如果所述第一DSI和所述第二DSI的所述Jaccard相似性大于指定的阈值,则所述一个或多个标准指定所述第一逻辑装置组和所述第二逻辑装置组应位于所述同一数据存储系统中。7.如权利要求1所述的方法,其中所述第一DSI和所述第二DSI的所述Jaccard相似性被确定为第一大小除以第二大小,其中所述第一大小表示所述第一逻辑装置组和所述第二逻辑装置组的数据块的集合交中的元素数量,并且其中所述第二大小表示所述第一逻辑装置组和所述第二逻辑装置组的数据块的集合并中的元素数量。8.如权利要求1所述的方法,其中第一多个数据块存储在所述第一逻辑装置组中,并且所述方法包括:使用散列函数来生成所述第一多个数据块的第一多个散列值。9.如权利要求8所述的方法,其中所述散列函数生成第一范围内的散列值,并且其中所述第一逻辑装置组的所述第一DSI包括所述第一多个散列值的在所述第一范围的第一子范围内的第一部分。10.如权利要求9所述的方法,其中第二多个数据块存储在所述第二逻辑装置组中,并
且所述方法包括:使用所述散列函数来生成所述第二多个数据块的第二多个散列值。11.如权利要求10所述的方法,其中所述第二逻辑装置组的所述第二DSI包括所述第二多个散列值的在所述第一范围的所述第一子范围内的第二部分。12.如权利要求11所述的方法,其中所述第一子范围是表示从最小值到最大值的散列值数量的特定大小,并且所述方法还包括:执行第一处理以从针对所述第一子范围的多个不同候选大小选择所述特定大小。13.如权利要求1所述的方法,其中结合包括所述同一数据存储系统和一个或多个附加数据存储系统的集群中的负载平衡来执行所述确定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中以及所述将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中...
【专利技术属性】
技术研发人员:S,
申请(专利权)人:伊姆西IP控股有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。