一种轻量级的数据密集型文件系统的自治块管理方法技术方案

技术编号:14361383 阅读:34 留言:0更新日期:2017-01-09 04:36
本发明专利技术公开了一种轻量级的数据密集型文件系统的自治块管理方法,通过交叉迁移划分(ISD,Intersected Shifted Declustering)实现数据块到数据存储节点的映射、数据存储节点中数据块的快速查找、数据存储节点失效时数据块的快速恢复和新添加数据存储节点时数据块的快速重新分布等,使主节点只负责数据密集型文件系统中文件命名空间的存储和维护,而数据块到数据存储节点的映射关系信息存储和维护,以及数据存储节点失效时数据块的替换和新数据存储节点添加时数据块的重新分布等都由数据存储节点自治完成。该发明专利技术节省了数据密集型文件系统中主节点的内存空间,提高了主节点的处理能力,能大幅度提高大数据环境下数据密集型文件系统的数据块管理效率。

【技术实现步骤摘要】

本专利技术涉及计算机安全技术,尤其涉及一种轻量级的数据密集型文件系统的自治块管理方法
技术介绍
数据密集型文件系统DiFS,例如谷歌文件系统GFS、Hadoop分布式文件系统HDFS等,已经成为大数据存储管理的主要文件系统。当前的数据密集型文件系统DiFS采用主从式架构,主节点(元数据服务器)管理所有的元数据,从节点(数据存储节点)只负责数据存储。为了维持高可用性,这些存储系统通常将数据文件分为固定大小的块,每个数据块通常有3个副本,并将它们都分配到不同的集群的数据存储节点中。主节点必须记录成百上千个数据存储节点的地址,以及记录所有数据文件的数据块到这些存储节点的映射信息。并且,主节点必须定期地检查所有数据块的地址映射信息的变化。随着数据量的不断增大,这些元数据信息不仅占据了主节点的内存空间,影响主节点的处理能力,而且严重地限制了主节点的可扩展性。为了解决数据密集型文件系统存在的问题,将数据文件物理块的分配和维护从元数据管理中分离出来,由每个数据存储节点执行数据块到存储节点映射信息的维护方法应运而生。应用此方法,主节点不需要再保存大量的数据块元数据信息以及数据块到数据存储节点的映射表信息,而是需要用一组数据块到数据存储节点、数据存储节点到数据块之间的可逆映射函数完成。数据密集型文件系统管理海量的数据,这些数据具有以下特点:1)数据量大,数据总量增长快;2)数据存储性能需求高;3)要求高可靠性和高可恢复性:当数据发生丢失或数据存储节点失效时,在不影响正常工作的前提下,能够快速的恢复原数据;4)要求能够快速的查找数据块的存储位置;5)要求尽量少的占用主节点的内存空间和尽量少的影响主节点的处理能力;从以上分析可以看出,传统文件系统的管理方法不适应数据密集型文件系统的管理,主要原因:1)随着数据量的不断增大,文件数据块地址表的存储将占用大量的存储空间;2)主节点负责文件数据块地址表的维护,随着文件数据块地址表的不断增加,大大降低了主节点的处理能力;3)数据量的不断增加不仅占用了主节点大量的存储空间,增大了地址等元数据维护成本,同时还降低了主节点的可扩展性;4)每个数据存储节点在进行存储和查询时都要先咨询主节点,这样增加寻址的时间。
技术实现思路
针对数据密集型文件系统的数据块存储和查询管理需求,本专利技术提供了一种轻量级的数据密集型文件系统的自治块管理方法,通过将物理数据块的分配、查询和相关元数据维护从传统的元数据管理中分离出来,由每个数据存储节点完成,减少主节点存储空间的开销和负担。本专利技术可提升大数据环境下的数据密集型文件系统的可扩展性、减少数据块寻址时间,并可大副度提高整个系统的性能。本专利技术的技术原理在于,本专利技术是通过交叉迁移划分方法(ISD,IntersectedShiftedDeclustering)实现数据块的自治管理,即通过用一组可逆数学函数实现数据块到数据存储节点,以及数据存储节点到数据块的映射,完成数据块的分布式存储和快速查询等。本专利技术具体包含以下几种操作:操作1、数据块存储操作;操作2、数据块查找操作;操作3、失效数据存储节点失效处理操作;操作4、添加新数据存储节点操作。(1)数据块存储操作包括以下步骤:步骤1.1、主节点通过可逆的线性哈希函数选择数据块所在逻辑组(LG);步骤1.2、主节点通过可逆的位移分割函数选择逻辑组中数据存储节点存储数据块数据;步骤1.3、数据存储节点存储数据块数据和数据块地址映射信息。(2)数据块查找操作包括以下步骤:步骤2.1、数据块b所在数据存储节点根据其索引号用反向可逆函数计算数据块b所在逻辑组的新ID;步骤2.2、数据块b所在数据存储节点根据数据块b所在逻辑组ID,用反向可逆函数计算数据块b的物理ID,为文件系统恢复完整的数据文件提供条件;步骤2.3、数据存储节点根据数据块的物理ID,获取数据块在存储节点的映射信息;步骤2.4、数据存储节点根据数据块b的映射信息取数据块b的数据送文件系统。(3)失效数据存储节点失效处理操作包括以下步骤:步骤3.1、确定失效数据存储节点所在逻辑分组;步骤3.2、选择数据存储失效节点以外的逻辑分组中负载最小的数据存储节点作为后备节点;步骤3.3、多个后备数据存储节点采用智能重组映射方法并行复制各个逻辑组中对应的该失效数据存储节点中包含的数据。(4)添加新数据存储节点操作包括以下步骤:步骤4.1、计算整个系统中所有逻辑组中数据存储节点的平均负载COVave;步骤4.2、选择一个逻辑组,计算该组中所有数据存储节点中最大的负载COVmax;步骤4.3、比较COVmax和COVave的大小,如果COVmax≥COVave,用新加入数据存储节点替换逻辑组该数据存储节点。否则,选取下一个逻辑组,重复步骤4.1、步骤4.2和步骤4.3,直到新加入的数据存储节点的负载达到或接近系统中数据存储节点的平均负载为止。这种数据密集型文件系统自治块管理方法的优势在于:(1)大大减少了主节点存储空间开销。将数据块到数据存储节点映射信息从传统的元数据中分离出来,由每个数据存储节点自主的进行存储和管理,主节点不需要保存和维护大量的数据块地址信息,使主节点保存的元数据信息比传统文件系统减少90%以上。(2)大大的提高主节点的处理能力。数据块和数据存储节点之间的映射信息由每个数据存储节点自主的存储和维护,消除了主节点的负担。此种方法与分布式文件系统HDFS相比,可使主节点的处理性能提高了30%以上。(3)提高了系统的可恢复性和可扩展性。当数据存储节点故障时通过采用智能重组映射方法,当添加新数据存储节点时通过采用解耦地址映射方法,这样只迁移少数数据块就能完成失效数据节点数据的恢复和新添加数据节点数据的复制,大大提高了系统的可恢复性和可扩展性。附图说明图1为本专利技术具体操作的流程图;图2为本专利技术中主节点和数据存储节点管理功能划分的示意图;图3为连续块到数据节点的映射和数据节点到块的查找的示例;图4为数据节点失效恢复过程的示例;图5为新数据节点添加过程的示例。具体实施方式为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合图示与具体实施例,进一步阐述本专利技术提出的一种轻量级的数据密集型文件系统的自治块管理方法。一种轻量级的数据密集型文件系统的自治块管理方法,通过一组可逆数学函数实现数据块到数据节点及数据节点到数据块的映射。如图2所示,本专利技术中各节点具体功能的划分:主节点只负责系统命名空间维护、数据块到数据存储节点的分布、各个数据存储节点的管理;各个数据存储节点负责数据块的一致性检查、数据块恢复和数据存储节点的映射信息存储和维护。如图1所示,本专利技术所述的自治块管理方法,具体包括以下几种操作:操作1、数据块存储操作;操作2、数据块查找操作;操作3、失效数据存储节点失效处理操作;操作4、添加新数据存储节点操作。(1)数据块存储操作,包括以下步骤:步骤1.1、主节点通过可逆的线性哈希函数选择块所在逻辑组(LG);步骤1.2、主节点通过可逆的位移分割函数选择逻辑组中数据存储节点存储数据块数据;步骤1.3、数据存储节点存储数据块数据和数据块地址映射信息。数据块存储操作的步骤1.1中,通过可逆的线性哈希函数选择数据块所在的逻辑组(LG)公式:其中,g是要映射的本文档来自技高网
...
一种轻量级的数据密集型文件系统的自治块管理方法

【技术保护点】
一种轻量级的数据密集型文件系统的自治块管理方法,其特征在于,数据密集型文件系统通过交叉迁移划分方法,实现数据块的自治管理,即通过使用一组可逆数学函数,实现数据块到数据存储节点,及数据存储节点到数据块的映射,完成数据块的分布式存储和查找;通过所述自治块管理方法实现数据块存储操作,包括以下步骤:步骤1.1、主节点通过可逆的线性哈希函数,选择数据块所在逻辑组;步骤1.2、主节点通过可逆的位移分割函数,在所述逻辑组中选择数据存储节点;步骤1.3、在选中的数据存储节点,存储数据块的数据和数据块地址映射信息。

【技术特征摘要】
1.一种轻量级的数据密集型文件系统的自治块管理方法,其特征在于,数据密集型文件系统通过交叉迁移划分方法,实现数据块的自治管理,即通过使用一组可逆数学函数,实现数据块到数据存储节点,及数据存储节点到数据块的映射,完成数据块的分布式存储和查找;通过所述自治块管理方法实现数据块存储操作,包括以下步骤:步骤1.1、主节点通过可逆的线性哈希函数,选择数据块所在逻辑组;步骤1.2、主节点通过可逆的位移分割函数,在所述逻辑组中选择数据存储节点;步骤1.3、在选中的数据存储节点,存储数据块的数据和数据块地址映射信息。2.如权利要求1所述轻量级的数据密集型文件系统的自治块管理方法,其特征在于,通过所述自治块管理方法实现数据块查找操作,包括以下步骤:步骤2.1、数据块所在数据存储节点根据其索引号,用反向可逆函数计算数据块所在逻辑组的新ID;步骤2.2、数据块所在数据存储节点根据数据块所在逻辑组的新ID,用反向可逆函数计算数据块的物理ID;步骤2.3、数据存储节点根据数据块的物理ID,获取数据块在存储节点的映射信息;步骤2.4、数据存储节点根据数据块的映射信息,获取数据块的数据送至数据密集型文件系统。3.如权利要求2所述轻量级的数据密集型文件系统的自治块管理方法,其特征在于,通过所述自治块管理方法实现失效数据存储节点的失效处理操作,包括以下步骤:步骤3.1、确定失效数据存储节点所在逻辑分组;步骤3.2、选择数据存储失效节点以外的逻辑分组中负载最小的数据存储节点作为后备节点;步骤3.3、多个后备数据存储节点采用智能重组映射方法,并行复制各个逻辑组中对应的该失效数据存储节点中包含的数据;所述智能重组映射方法,是使选取的后备数据存储节点数与包含失效数据存储节点的逻辑组数相等,一个失效数据存储节点被包含在多个逻辑组中,并且每一个后备数据存储节点只复制一个对应的逻辑组中该失效数据存储节点的部分数据。4.如权利要求2或3所述轻量级的数据密集型文件系统的自治块管理方法,其特征在于,通过所述自治块管理方法实现添加新数据存储节点操...

【专利技术属性】
技术研发人员:陈付梅韩德志毕坤王军
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1