用于估计存储卷之间的去重的技术制造技术

技术编号:38008766 阅读:32 留言:0更新日期:2023-06-30 10:27
确定和使用去重估计可包括:确定各自包括一个或多个逻辑装置的两个逻辑装置组的两个去重样本索引(DSI);确定所述两个DSI的Jaccard相似性,其中所述Jaccard相似性表示所述两个逻辑装置组之间的相似性和相互去重的量度;根据一个或多个标准来确定所述两个逻辑装置组应位于不同数据存储系统中还是执行数据去重的同一数据存储系统中,其中所述一个或多个标准使用所述Jaccard相似性来确定将所述两个逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中;以及响应于确定所述两个逻辑装置组应位于所述同一数据存储系统中,将所述两个逻辑装置组定位在所述同一数据存储系统中。同一数据存储系统中。同一数据存储系统中。

【技术实现步骤摘要】
【国外来华专利技术】用于估计存储卷之间的去重的技术
[0001]背景


[0002]本申请总体上涉及数据存储。
[0003]相关技术描述
[0004]系统可包括由一个或多个主机处理器使用的不同资源。系统中的资源和主机处理器可通过一个或多个通信连接(诸如网络连接)互连。这些资源可包括数据存储装置,诸如那些包括在数据存储系统中的数据存储装置。数据存储系统可耦合到一个或多个主机处理器并且向每个主机处理器提供存储服务。来自一个或多个不同供应商的多个数据存储系统可被连接并且可为一个或多个主机处理器提供共同数据存储。
[0005]主机可使用数据存储系统来执行各种数据处理任务和操作。例如,主机可发出在数据存储系统处接收到的I/O操作,诸如数据读取和写入操作。主机系统可通过向包含多个主机接口单元、磁盘驱动器(或更一般地,存储装置)和磁盘接口单元的数据存储系统发出I/O操作来存储和检索数据。主机系统通过其提供的多个通道来访问存储装置。主机系统通过通道向数据存储系统的存储装置提供数据和访问控制信息。存储在存储装置上的数据也可通过通道从数据存储系统提供给主机系统。主机系统不对数据存储系统的存储装置进行直接寻址,而是访问对主机系统而言表现为多个文件、对象、逻辑单元、逻辑装置或逻辑卷的内容。因此,主机发出的I/O操作可涉及特定的存储实体,诸如文件或逻辑装置。逻辑装置可对应于或可不对应于实际的物理驱动器。允许多个主机系统访问单个数据存储系统允许主机系统共享存储在该单个数据存储系统中的数据。

技术实现思路

[0006]本文技术的各种实施方案可包括用于确定和使用去重估计的方法、系统和计算机可读介质,包括:确定一个或多个逻辑装置的第一逻辑装置组的第一数据去重样本索引(DSI)和一个或多个逻辑装置的第二逻辑装置组的第二DSI;确定所述第一DSI和所述第二DSI的Jaccard相似性,其中所述Jaccard相似性表示关于所述第一逻辑装置组的许多数据块预期与所述第二逻辑装置组的数据块匹配的相似性和相互去重的量度;根据一个或多个标准来确定所述第一逻辑装置组和所述第二逻辑装置组应位于不同数据存储系统中还是相对于存储在所述第一逻辑装置组和所述第二逻辑装置组上的数据块执行数据去重的同一数据存储系统中,其中所述一个或多个标准使用所述Jaccard相似性来确定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中;以及响应于确定所述第一逻辑装置组和所述第二逻辑装置组应位于所述同一数据存储系统中,将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中。
[0007]在至少一个实施方案中,处理可包括使用所述第一DSI和所述第二DSI的所述Jaccard相似性来确定所述第一逻辑装置组和所述第二逻辑装置组之间的预期相同数据块
数量,其中所述标准使用所述预期相同数据块数量来确定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中。可使用所述预期块数量来确定估计去重百分比,并且如果所述估计去重百分比大于指定的阈值百分比,则所述一个或多个标准可指定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中。所述估计去重百分比可被确定为所述第一逻辑装置组的大小的百分比或所述第二逻辑装置组的大小的百分比。如果所述第一DSI和所述第二DSI的所述Jaccard相似性大于指定的阈值,则所述一个或多个标准可指定所述第一逻辑装置组和所述第二逻辑装置组应位于所述同一数据存储系统中。
[0008]在至少一个实施方案中,所述第一DSI和所述第二DSI的所述Jaccard相似性可被确定为第一大小除以第二大小,其中所述第一大小表示所述第一逻辑装置组和所述第二逻辑装置组的数据块的集合交中的元素数量,并且其中所述第二大小表示所述第一逻辑装置组和所述第二逻辑装置组的数据块的集合并中的元素数量。
[0009]在至少一个实施方案中,第一多个数据块可存储在所述第一逻辑装置组中,并且处理可包括使用散列函数来生成所述第一多个数据块的第一多个散列值。所述散列函数可生成第一范围内的散列值,并且其中所述第一逻辑装置组的所述第一DSI可包括所述第一多个散列值的在所述第一范围的第一子范围内的第一部分。第二多个数据块可存储在所述第二逻辑装置组中,并且处理可包括使用所述散列函数来生成所述第二多个数据块的第二多个散列值。所述第二逻辑装置组的所述第二DSI可包括所述第二多个散列值的在所述第一范围的所述第一子范围内的第二部分。所述第一子范围可以是表示从最小值到最大值的散列值数量的特定大小,并且可执行第一处理以从针对所述第一子范围的多个不同候选大小选择所述特定大小。
[0010]在至少一个实施方案中,可结合包括所述同一数据存储系统和一个或多个附加数据存储系统的集群中的负载平衡来执行确定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中的步骤以及将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中的步骤。同一数据存储系统可包括两个处理节点,并且负载平衡还可根据所述一个或多个标准来确定使用所述两个处理节点中的第一处理节点作为所述两个处理节点中的优选处理节点为指向所述第一逻辑装置组和所述第二逻辑装置组两者的I/O提供服务。所述第一逻辑装置组和所述第二逻辑装置组可被配置用于从所述同一数据存储系统远程复制到执行去重的同一目标数据存储系统。
附图说明:
[0011]根据以下结合附图对本专利技术的示例性实施方案进行的详细描述,本专利技术的特征和优点将变得更加明显,在附图中:
[0012]图1是根据本文描述的技术可被包括在系统中的部件的示例。
[0013]图2A是示出可在根据本文技术的实施方案中执行的数据去重的示例。
[0014]图2B是示出根据本文技术的实施方案中与处理数据有关的I/O路径或数据路径的示例。
[0015]图3是示出去重采样索引的不同的可能子范围的并且示出可在根据本文技术的实
施方案中使用的信息的表的示例。
[0016]图4和图5是在根据本文技术的实施方案中可结合选择与去重采样索引相关联的子范围的大小来生成和使用的信息的示例的示例。
[0017]图6是在根据本文技术的实施方案中可执行的处理步骤的流程图。
具体实施方式:
[0018]参考图1,示出了可结合执行本文描述的技术使用的系统10的实施方案的示例。系统10包括通过通信介质18连接到主机系统(有时也称为主机)14a

14n的数据存储系统12。在系统10的这个实施方案中,n个主机14a

14n可例如在执行输入/输出(I/O)操作或数据请求时访问数据存储系统12。通信介质18可以是本领域技术人员已知的多种网络或其他类型的通信连接中的任何一种或多种。通信介质18可以是网络连接、总线和/或其他类型的数据链路,诸如硬连线或本领域已知的其他连接。例如,通信介质18可以是互联网、内联网、网络(包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种确定和使用去重估计的方法,所述方法包括:确定一个或多个逻辑装置的第一逻辑装置组的第一数据去重样本索引(DSI)和一个或多个逻辑装置的第二逻辑装置组的第二DSI;确定所述第一DSI和所述第二DSI的Jaccard相似性,其中所述Jaccard相似性表示关于所述第一逻辑装置组的许多数据块预期与所述第二逻辑装置组的数据块匹配的相似性和相互去重的量度;根据一个或多个标准来确定所述第一逻辑装置组和所述第二逻辑装置组应位于不同数据存储系统中还是相对于存储在所述第一逻辑装置组和所述第二逻辑装置组上的数据块执行数据去重的同一数据存储系统中,其中所述一个或多个标准使用所述Jaccard相似性来确定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中;以及响应于确定所述第一逻辑装置组和所述第二逻辑装置组应位于所述同一数据存储系统中,将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中。2.如权利要求1所述的方法,所述方法还包括:使用所述第一DSI和所述第二DSI的所述Jaccard相似性来确定所述第一逻辑装置组和所述第二逻辑装置组之间的预期相同数据块数量,其中所述标准使用所述预期相同数据块数量来确定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中。3.如权利要求2所述的方法,其中使用所述预期块数量来确定估计去重百分比,并且如果所述估计去重百分比大于指定的阈值百分比,则所述一个或多个标准指定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中。4.如权利要求3所述的方法,其中所述估计去重百分比被确定为所述第一逻辑装置组的大小的百分比。5.如权利要求3所述的方法,其中所述估计去重百分比被确定为所述第二逻辑装置组的大小的百分比。6.如权利要求1所述的方法,其中如果所述第一DSI和所述第二DSI的所述Jaccard相似性大于指定的阈值,则所述一个或多个标准指定所述第一逻辑装置组和所述第二逻辑装置组应位于所述同一数据存储系统中。7.如权利要求1所述的方法,其中所述第一DSI和所述第二DSI的所述Jaccard相似性被确定为第一大小除以第二大小,其中所述第一大小表示所述第一逻辑装置组和所述第二逻辑装置组的数据块的集合交中的元素数量,并且其中所述第二大小表示所述第一逻辑装置组和所述第二逻辑装置组的数据块的集合并中的元素数量。8.如权利要求1所述的方法,其中第一多个数据块存储在所述第一逻辑装置组中,并且所述方法包括:使用散列函数来生成所述第一多个数据块的第一多个散列值。9.如权利要求8所述的方法,其中所述散列函数生成第一范围内的散列值,并且其中所述第一逻辑装置组的所述第一DSI包括所述第一多个散列值的在所述第一范围的第一子范围内的第一部分。10.如权利要求9所述的方法,其中第二多个数据块存储在所述第二逻辑装置组中,并
且所述方法包括:使用所述散列函数来生成所述第二多个数据块的第二多个散列值。11.如权利要求10所述的方法,其中所述第二逻辑装置组的所述第二DSI包括所述第二多个散列值的在所述第一范围的所述第一子范围内的第二部分。12.如权利要求11所述的方法,其中所述第一子范围是表示从最小值到最大值的散列值数量的特定大小,并且所述方法还包括:执行第一处理以从针对所述第一子范围的多个不同候选大小选择所述特定大小。13.如权利要求1所述的方法,其中结合包括所述同一数据存储系统和一个或多个附加数据存储系统的集群中的负载平衡来执行所述确定将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中还是在所述不同数据存储系统中以及所述将所述第一逻辑装置组和所述第二逻辑装置组定位在所述同一数据存储系统中...

【专利技术属性】
技术研发人员:S
申请(专利权)人:伊姆西IP控股有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1