In a distributed storage system having a plurality of nodes, the first one of the plurality of nodes to determine other node data of the first data is written by the first part of the first virtual node management and to multiple virtual parts of the same in the presence of multiple nodes in the virtual part of the other nodes in the there is the same with the first data under the condition of cross node data deduplication, in duplicate data across nodes in the deleted, the first virtual part of the region and was written into the part of the regional allocation logic of other nodes of the same virtual partition data in one of the changes to the logical part the regional distribution of the other party. In the IO load across nodes repeat data of the first part of the first virtual delete node after the execution is less than the first threshold, the first node performs duplicate data across node second virtual part of multiple virtual parts of the virtual storage area is segmented by the first node, delete management.
【技术实现步骤摘要】
【国外来华专利技术】分布式存储系统及分布式存储系统的控制方法
本专利技术涉及分布式存储系统。
技术介绍
在IT系统中应处理的数据量急剧增大,谋求能够应对该情况的存储装置。作为这样的存储装置,存在分散为多个存储装置地进行数据的处理、保存的分布式存储系统的技术。在为了进行大规模大数据分析等而谋求高性能的分析的系统中,可以认为能够提供可扩展的容量和性能的分布式存储系统是有效的解决方案。另一方面,为了应对激增的数据量,作为节省存储装置的存储区域的技术,存在重复数据删除的技术。作为与分布式存储系统和重复数据删除相关的技术,存在专利文献1。在专利文献1中,构成分布式网络的各分布式服务器在从客户端接收到对保存在其他分布式服务器中的数据的读出请求时,从该其他服务器获取数据,并向客户端响应。另外,重复数据删除管理装置对保存在各分布式服务器中的数据管理哈希值那样的对数据进行识别的唯一ID的数据库。重复数据删除管理装置检索数据库,在与相同的唯一ID对应关联的数据存在阈值以上的数量的情况下,选择将数据删除的分布式服务器,将保存在所选择的分布式服务器中的重复数据删除,由此来进行重复数据删除。现有技术文献专利文献专利文献1:美国专利公报8,572,137号
技术实现思路
在分布式服务器间进行重复数据删除的情况下,当通过重复数据删除而被删除了数据的分布式服务器接收到对已删除的数据的读出请求时,必须从其他分布式服务器获取数据,存在分布式服务器的性能降低的问题,但在专利文献1中,仅将数据的重复数用于可否进行重复数据删除的判断,而没有考虑因分布式服务器间的数据通信的发生而导致的性能下降。分布式存储系统具有彼此连接多 ...
【技术保护点】
一种分布式存储系统,具有彼此连接的多个节点,该多个节点分别具有存储介质,并对将数据向由所述存储介质构成的逻辑存储区域的保存进行控制,所述分布式存储系统的特征在于,所述多个节点对上位装置提供跨过所述多个节点分别控制的所述逻辑存储区域的虚拟存储区域,并对将所述虚拟存储区域分割得到的多个虚拟部分区域和将所述逻辑存储区域分割得到的多个部分逻辑存储区域的分配进行管理,所述多个节点使写入到所述虚拟存储区域的数据分散地保存到所述逻辑存储区域中,所述多个节点中的第一节点判定:与向所述多个虚拟部分区域中的由所述第一节点所管理的第一虚拟部分区域写入的第一数据相同的数据是否存在于所述多个节点中的其他节点所管理的所述虚拟部分区域中,在所述其他节点中存在与第一数据相同的数据的情况下,执行跨节点重复数据删除,在该跨节点重复数据删除中,使所述第一虚拟部分区域和被写入了所述相同的数据的其他节点的所述虚拟部分区域中的某一方的逻辑部分区域的分配变更为向另一方的逻辑部分区域分配,计算所述第一虚拟部分区域的所述跨节点重复数据删除执行后的所述第一节点的IO负荷的预测值,在所述预测值满足预定的条件的情况下,执行将所述虚拟存储区域 ...
【技术特征摘要】
【国外来华专利技术】1.一种分布式存储系统,具有彼此连接的多个节点,该多个节点分别具有存储介质,并对将数据向由所述存储介质构成的逻辑存储区域的保存进行控制,所述分布式存储系统的特征在于,所述多个节点对上位装置提供跨过所述多个节点分别控制的所述逻辑存储区域的虚拟存储区域,并对将所述虚拟存储区域分割得到的多个虚拟部分区域和将所述逻辑存储区域分割得到的多个部分逻辑存储区域的分配进行管理,所述多个节点使写入到所述虚拟存储区域的数据分散地保存到所述逻辑存储区域中,所述多个节点中的第一节点判定:与向所述多个虚拟部分区域中的由所述第一节点所管理的第一虚拟部分区域写入的第一数据相同的数据是否存在于所述多个节点中的其他节点所管理的所述虚拟部分区域中,在所述其他节点中存在与第一数据相同的数据的情况下,执行跨节点重复数据删除,在该跨节点重复数据删除中,使所述第一虚拟部分区域和被写入了所述相同的数据的其他节点的所述虚拟部分区域中的某一方的逻辑部分区域的分配变更为向另一方的逻辑部分区域分配,计算所述第一虚拟部分区域的所述跨节点重复数据删除执行后的所述第一节点的IO负荷的预测值,在所述预测值满足预定的条件的情况下,执行将所述虚拟存储区域分割得到的多个虚拟部分区域中的、由所述第一节点所管理的第二虚拟部分区域的所述跨节点重复数据删除。2.根据权利要求1所述的分布式存储系统,其特征在于,所述IO负荷指的是跨节点读取的网络负荷、平均响应时间、平均处理能力中的至少一个,所述满足预定的条件指的是,所述跨节点读取的网络负荷低于第一阈值、所述平均响应时间低于第二阈值、所述平均处理能力高于第三阈值中的任一个。3.根据权利要求1所述的分布式存储系统,其特征在于,所述第一节点从所述第一节点保存的数据中的、IO频率低的虚拟部分区域的数据开始依次执行所述跨节点重复数据删除。4.根据权利要求1所述的分布式存储系统,其特征在于,所述第一节点判定所述多个虚拟部分区域中的、由所述第一节点管理的虚拟部分区域间是否存在相同的数据,在存在相同的数据的情况下,执行将所述虚拟部分区域向所述逻辑部分区域的分配集中于一个逻辑部分区域这样的节点重复数据删除,之后,所述第一节点执行所述跨节点重复数据删除。5.根据权利要求1所述的分布式存储系统,其特征在于,所述第一节点在所述第一节点保存的第一数据的重复数据删除了的数量与所述其他节点保存的第二数据的重复数据删除了的数量的合计数小于第二阈值的情况下,执行所述第一数据和所述第二数据的所述跨节点重复数据删除。6.根据权利要求1所述的分布式存储系统,其特征在于,所述第一节点在从所述上位装置接收到对所述第一虚拟部分区域的读出请求时所述第一虚拟部分区域被分配了所述其他节点的所述逻辑部分区域的情况下,从所述其他节点获取与所述读出请求有关的数据,并向所述上位装置发送该获取到的数据。7.根据权利要求6所述的分布式存储系统,其特征在于,所述第一节点在接收到对所述虚拟存储区域的第三虚拟部分区域的第一写入请求时,分配所述多个逻辑部分区域中的第三逻辑部分区域,并将与所述第一写入请求有关的数据向所述第三逻辑部分区域写入,所述第一节点在接收到对第四虚拟部分区域的第二写入请求时,将分配从第一部分逻辑存储区域变更为所述多个逻辑部分区域中的第四逻辑部分区域,将与所述第二写入请求有关的数据写入到所述第四逻辑部分区域。8.一种分布式存储系统的控制方法,所述分布式存储系统具有彼此连接的多个节点,该多个节点分别具有存储介质,并对将数据向由所述存储介质构成的逻辑存储区域的保存进行控制,所述分布式存储系统的控制方法的特征在于,对上位装置提供跨过所述多个节点分别控制的所述逻辑...
【专利技术属性】
技术研发人员:渡边恭男,圷弘明,
申请(专利权)人:株式会社日立制作所,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。