【技术实现步骤摘要】
一种面向分布式存储系统的纠删码批量恢复方法及系统
[0001]本专利技术涉及分布式存储系统的数据恢复问题,具体涉及为一种提高恢复效率的面向分布式存储系统的纠删码批量恢复方法,属于分布式计算领域。
技术介绍
[0002]随着互联网技术的飞速发展,我们已经进入到了大数据的时代,数据存储的方式也逐渐由单机存储转向分布式存储。目前最流行的大数据开源框架是 Hadoop,一个能够离线并行处理海量数据的大数据平台,具有高可靠性、高可扩展性、高效率以及低成本、开源等特性,成为了许多互联网公司首选的海量数据处理方案。Hadoop主要包括Hadoop分布式文件系统(HDFS)、MapReduce 分布式计算框架和Yarn资源管理器,虽然Hadoop发展至如今已经比较成熟,但是有些方面依然存在不足,需要改进和优化。
[0003]分布式集群(如Hadoop)通常由许多独立的低可靠商用组件组成,组件出现故障是很常见的。为了保证数据在这样的分布式存储系统中的高可靠性和可用性,常见的方式是采用三副本或纠删码。其中,纠删码作为一种方案,提供与多副 ...
【技术保护点】
【技术特征摘要】
1.一种面向分布式存储系统的纠删码批量恢复方法,其特征在于,包括:步骤1、按照条带的源机架数量,将分布式存储集群中待恢复的条带分为奇数批和偶数批,将奇数批和偶数批中具有相同源机架的条带划分为小批次,根据小批次中空闲机架的数量,确定单批恢复的条带数量,并按照顺序把小批中的条带划分为单批;步骤2、读取并记录单批中空闲机架编号,根据空闲机架编号和空闲机架总数,按顺序为各个条带指定空闲机架存放替换节点,判断当前选择的单批是否属于偶数批,若是则执行步骤3,否则执行步骤4;步骤3、将单批中源机架两两分组,正向并行传输中将单批的第一个条带中同一小组的两个机架中编号小的机架中的源数据块进行聚合传送到编号大的机架,再与编号大的机架中的源数据块进行聚合,将编号大的机架标记为*机架;再将两两小组合并,由编号小的*机架传输聚合数据块到编号大的*机架,此时编号最小的机架取消*标记,直到所有源机架的聚合源数据块传输到编号最大的源机架中,再一起聚合传输至该替换节点中,通过解码系数计算,得到需要恢复的数据块;步骤4、将单批中除了最后一个编号最大的源机架两两分组,正向并行传输中将单批的第一个条带中同一小组的两个机架中编号小的机架中的源数据块进行聚合传送到编号大的机架,再与编号大的机架中的源数据块进行聚合;将编号大的机架标记为*机架,再将两两小组合并,由编号小的*机传输聚合数据块到编号大的*机架,此时编号小的机架取消*标记,直到所有源机架的聚合源数据块传输到编号第二大的源机架中,再一起聚合传输到该替换节点中;将编号最大的源机架数据直接传输到该替换节点中,通过解码系数计算,得到需要恢复的数据块。2.如权利要求1所述面向分布式存储系统的纠删码批量恢复方法,其特征在于,该步骤3还包括若单批中还具有第二个条带,则在执行该正向并行传输的同时执行反向并行传输,该反向并行传输包括:将该第二个条带中同一小组的两个机架中编号大的机架中的源数据块进行聚合传送到编号小的机架,再与编号小的机架中的源数据块进行聚合,将编号小的机架标记为*机架;再将两两小组合并,由编号大的*机架传输聚合数据块到编号小的*机架,此时编号大的机架取消*标记,直到所有源机架的聚合源数据块传输到编号最小的源机架中,再一起聚合传输到指定的空闲机架中,用解码系数计算,得到需要恢复的数据块。3.如权利要求1所述面向分布式存储系统的纠删码批量恢复方法,其特征在于,该步骤4还包括若单批中还具有第二个条带,则在执行该正向并行传输的同时执行反向并行传输,该反向并行传输包括:将该第二个条带中同一小组的两个机架中将编号大的机架中的源数据块进行聚合传送到编号小的机架,再与编号小的机架中的源数据块进行聚合,将编号小的机架标记为*机架;再将两两小组合并,由编号大的*机架传输聚合数据块到编号小的*机架,此时编号大的机架取消*标记,直到所有源机架的聚合源数据块传输到编号最小的源机架中,再一起聚合传输到指定的空闲机架中;编号最大的源机架将数据直接传输到指定的空闲机架中,最后一起用解码系数计算,得到需要恢复的数据块。4.如权利要求1所述面向分布式存储系统的纠删码批量恢复方法,其特征在于,该步骤1包括:
若空闲机架的数量t≥4,则设定单批恢复的条带数量L为4,否则设定单批恢复的条带数量L为t。5.一种面向分布式存储系统的纠删码批量恢复系统,其特征在于,包括:初始模块,用于按照条带的源机架数量,将分布式存储集群中待恢复的条带...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。