去重复系统中的基于散列的多租户技术方案

技术编号:14742706 阅读:131 留言:0更新日期:2017-03-01 17:56
在去重复系统中的基于散列的多租户中,将租户标识(ID)如同输入数据的一部分一样合并到使用基于单个散列的索引表的散列值计算中,以便在多租户去重复系统中分离数据段。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及计算系统,更具体地涉及用于去重复(deduplication)系统中的基于散列的多租户的系统和方法。
技术介绍
在当今的社会,计算机系统是司空见惯的。计算机系统可以在工作场所、家中或学校找到。数据处理系统通常包括具有至少一个中央处理单元(CPU)的处理器子系统、输入/输出(I/O)子系统、存储器子系统和总线子系统。数据处理系统的存储器子系统通常包括具有连接到后端存储设备的控制器的数据存储系统。控制器控制数据处理系统和后端存储设备之间的数据流。这些数据处理系统可以包括数据存储系统或盘存储系统,以处理和存储数据。每天必须处理大量的数据,目前的趋势表明,这些数据量在可预见的未来将继续日益增长。在大多数情况下,计算系统面临重大挑战,以满足日益严格的存储大量数据的需求。缓解该问题的有效方式是使用去重复。去重复系统的基本思想是利用这样的事实,即,通过定位重复的数据和仅存储其第一次出现,可用数据的大部分被一次又一次地复制和转发而没有任何改变。因此,将期望改进和优化数据去重复(datadeduplication)和云计算。
技术实现思路
在一个实施例中,提供一种用于在计算环境中使用处理器装置的去重复系统中的基于散列的多租户的方法。在一个实施例中,仅通过示例的方式,该方法将租户标识(ID)如同输入数据的一部分一样合并到使用基于单个散列的索引表的散列值计算中,以便在多租户去重复系统中分离数据段。在另一个实施例中,提供一种用于在计算环境中使用处理器装置的去重复系统中的基于散列的多租户的计算机系统。该计算机系统包括计算机可读介质和与该计算机可读介质可操作地通信的处理器。在一个实施例中,仅通过示例的方式,该处理器将租户标识(ID)如同输入数据的一部分一样合并到使用基于单个散列的索引表的散列值计算中,以便在多租户去重复系统中分离数据段。在又一个实施例中,提供一种用于在计算环境中使用处理器装置的去重复系统中的基于散列的多租户的计算机程序产品。计算机可读存储介质在其上存储有计算机可读程序代码部分。计算机可读程序代码部分包括第一可执行部分,该第一可执行部分将租户标识(ID)如同输入数据的一部分一样合并到使用基于单个散列的索引表的散列值计算中,以便在多租户去重复系统中分离数据段。除了前述示例性方法实施例之外,还提供其它示例性系统和计算机产品实施例,并提供相关的优点。前述“
技术实现思路
”被提供用来以简化的形式介绍对下面将在“具体实施方式”中描述的构思的选择。本“
技术实现思路
”并不旨在标识要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定要求保护的主题的范围。要求保护的主题不限于解决
技术介绍
中提到的任何或所有缺点的实现方式。附图说明为了将容易地理解本专利技术的优点,将通过参考在附图中示出的具体实施例来呈示上面简要描述的本专利技术的更具体的描述。应理解,这些附图仅描绘了本专利技术的典型实施例,因此不应被认为是对其范围的限制,将通过使用附图以额外的特征和细节来描述和解释本专利技术,在附图中:图1是示出具有可实现本专利技术的各方面的示例存储装置的计算系统系统环境的框图;图2是示出可实现本专利技术的各方面的计算机系统中的数据存储系统的硬件结构的框图;图3是示出可实现本专利技术的各方面的用于数据去重复的基于查找的数据块对齐的示例性方法的流程图;图4是示出可实现本专利技术的各方面的在忽略租用时的去重复系统的框图;以及图5是示出可实现本专利技术的各方面的当在计算散列值时散列函数考虑租户ID时的去重复系统的框图。具体实施方式近年来,云计算为改进数据的存储提供了好处。云计算是经由诸如因特网的网络基础设施访问计算资源和数据。计算资源和数据存储可以由“云”(即网络)的链接的数据中心提供。每个数据中心可以包括提供计算资源以及数据存储和检索能力的多个服务器。云计算的用户通常不需要关于“云”的基础数据中心基础设施的知识或者对其的控制。相反,用户可以根据需要访问计算资源和数据存储能力。此外,许多服务提供商需要提供多租户服务,该多租户服务利用存储系统促进存储域。可以在存储服务器(例如,物理池)内具有其自己的专用存储资源的存储域被称为“租户域”。存储客户端和/或客户端组可以基于数据性质选择使用或不使用租户域:出于此目的,客户端可以将数据放入全局池(无租用支持),而将其他数据放在特定池,因此将具有独特租户域。此模型被称为多租户存储。在多租户存储服务中,服务提供商(SP)需要通过防止以下来保护每个租户数据:1)数据段在租户域之间的泄露,2)跨越租户的域边界:一个租户数据块被另一个(甚至偶然)访问,以及3)一个租户域数据块的数据损坏对其他租户域的影响。例如,在复制服务(CopyServices)范围管理中,复制服务关系可以被限制到一组用户指定的资源的域。此外,可以配置用户ID以允许他们仅针对特定域发出复制服务请求。这通过防止任何主机或用户发起将跨越特定租户域边界的复制服务操作来促进多租户。除了多租户能力之外,复制服务域还可以提供通用分区,以将异构环境彼此隔离。除了云计算之外,数据去重复是计算存储系统中的高度重要且充满活力的领域。数据去重复是指减少和/或消除冗余数据。在数据去重复中,可以是文件、数据流或某其他形式的数据的数据对象被分解成称为分块(chunk)或块(block)的一个或多个部分(分块和/或块也可以被称为数据段)。在数据去重复过程中,减少或消除数据的重复副本,分别留下最小量的冗余副本或数据的单个副本。数据去重复系统的目标是存储重复数据的单个副本,并且实现该目标的挑战是在通常大的存储库中高效地找到重复数据模式,并且以存储高效的去重复形式存储数据模式。大多数去重复系统使用基于散列的索引,以便定位存储在系统中的现有数据段。当新数据流进入去重复系统时,数据被分解成数据段,并且对于每个数据段,存在计算的表示散列值。在基于散列的索引中搜索每一个新的散列值,并且如果找到该新的散列值,则认为匹配的数据段相同,并且该新的数据段不被写入系统中。代替地,指向已经存在的数据段。换句话说,识别具有相同散列值的数据段(例如,块),并且仅存储该数据块的一个副本。将指向具有相同数据的块的所有位置的指针与块的散列值相关联地存储在表中。去重复用于节省存储空间,但是在多租户的情况下,去重复实际上创建使用同一系统的不同租户之间的数据段的共享,这可能是客户端不愿意接受的事情。因此,需要改进云计算中的数据去重复系统。解决该问题的一种方法是为每个租户维持专用的基于散列的索引。由于基于去重复散列的索引通常在系统的核心和最大的资源消耗者之一中,所以它可能会导致系统中的资源(例如,存储器空间、盘空间和其他优化的资源)的浪费。这样,在一个实施例中,本专利技术提供仅使用一个(单个)基于散列的索引,但是将租户ID如同它是输入数据的一部分一样合并到散列计算中。将租户ID如同它是输入数据的一部分一样合并到散列计算中,使得即使在原始数据段在内容上相同时两个不同的租户也指向两个不同的数据段。在一个实施例中,本专利技术提供用于在计算环境中使用处理器装置的去重复系统中的基于散列的多租户。在一个实施例中,仅通过示例的方式,该方法将租户标识(ID)如同输入数据的一部分一样合并到使用基于单个散列的索引表的散列值计算中,以便在多租户去重复系统中分离数据段本文档来自技高网
...
去重复系统中的基于散列的多租户

【技术保护点】
一种在计算环境中利用处理器装置进行的用于去重复系统中的基于散列的多租户的方法,所述方法包括:将租户标识(ID)如同输入数据的一部分一样合并到使用基于单个散列的索引表的散列值计算中,以便在多租户去重复系统中分离数据段。

【技术特征摘要】
【国外来华专利技术】2014.07.02 US 14/322,0791.一种在计算环境中利用处理器装置进行的用于去重复系统中的基于散列的多租户的方法,所述方法包括:将租户标识(ID)如同输入数据的一部分一样合并到使用基于单个散列的索引表的散列值计算中,以便在多租户去重复系统中分离数据段。2.根据权利要求1所述的方法,还包括基于合并所述租户ID来生成散列值。3.根据权利要求1所述的方法,还包括对数据段连同使用所述租户ID的串联执行所述散列值计算,以创建人为的扩展数据段。4.根据权利要求1所述的方法,还包括将不同的散列值分配给多个租户中的每一个,以便要求所述多个租户指向不同的数据段,即使所述不同的数据段是同样的。5.根据权利要求1所述的方法,还包括在存储库中分离和存储多个租户中的每一个,其中所述存储库是虚拟存储池和物理存储池中的至少一个,并且所述存储库是专用存储池和共享存储池中的至少一个。6.根据权利要求5所述的方法,还包括将所述租户ID与所述存储库相关联。7.根据权利要求1所述的方法,还包括执行如下中的至少一个:使用加密密钥来加密多个租户中的每一个的数据段,以及为了数据段安全,对多个租户中的每一个的每个租户ID加密。8.一种用于计算环境中的去重复系统中的基于散列的多租户的系统,所述系统包括:去重复引擎;以及至少一个处理器装置,其可在计算环境中工作并控制所述去重复引擎,其中该处理器装置:将租户标识(ID)如同输入数据的一部分一样合并到使用基于单个散列的索引表的散列值计算中,以便在多租户去重复系统中分离数据段。9.根据权利要求8所述的系统,其中,所述至少一个处理器装置基于合并所述租户ID来生成散列值。10.根据权利要求8所述的系统,其中,所述至少一个处理器装置对数据段连同使用所述租户ID的串联来执行所述散列值计算,以创建人为的扩展数据段。11.根据权利要求8所述的系统,其中,所述至少一个处理器装置将不同的散列值分配给多个租户中的每一个,以便要求所述多个租户指向不同的数据段,即使所述不同的数据段是同样的。12.根据...

【专利技术属性】
技术研发人员:O·莎莎S·H·阿基拉弗Y·巴查J·W·戴恩G·T·基什
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1