一种Hadoop集群中数据备份的方法、设备及系统技术方案

技术编号:12296436 阅读:104 留言:0更新日期:2015-11-11 08:04
本发明专利技术公开了一种Hadoop集群中数据备份的方法,包括:获取每个计算节点所具有的各种应用能力值,确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值,以及所述待调整数据块的备份数量N,所述N为大于1的整数,确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点,将所述待调整数据块备份到确定的所述前N个可用计算节点上。本发明专利技术实施例提供的方法,可以将数据块备份到处理该数据块能力最强的计算节点上,从而提高了数据处理的效率。

【技术实现步骤摘要】
【国外来华专利技术】一种Hadoop集群中数据备份的方法、设备及系统
本专利技术涉及数据存储领域,具体涉及一种Hadoop集群中数据备份的方法、设备及系统。
技术介绍
Hadoop集群的基础是分布式文件系统(HadoopDistributedFileSystem,HDFS)。在现有的HDFS中每个数据块通常都有3个副本,数据块副本的放置位置对于Hadoop集群的可靠性和性能来说至关重要。现有Hadoop集群的数据块副本备份策略是为每个数据块保存3个副本:第一个副本在当前请求所在的计算节点,第二个副本保存在与当前计算节点不在同一机架的另一机架中的一个计算节点上,第三个副本在当前请求所在的计算节点所在机架的另一个节点上。具体选择的节点由负载均衡机制确定。本专利技术的专利技术人发现,现有Hadoop集群的数据块副本备份策略没有充分考虑计算节点间异构的情况,无法充分最优化利用各个计算节点的处理能力,数据块并没有备份到处理该数据块能力最强的计算节点上。
技术实现思路
本专利技术实施例提供一种Hadoop集群中数据备份的方法,可以将数据块备份到处理该数据块能力最强的计算节点上,从而提高了数据处理的效率。本专利技术实施例还提供了相应的设备及系统。本专利技术第一方面提供一种Hadoop集群中数据备份的方法,包括:获取每个计算节点所具有的各种应用能力值;确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值,以及所述待调整数据块的备份数量N,所述N为大于1的整数;确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点;将所述待调整数据块备份到确定的所述前N个可用计算节点上。结合第一方面,在第一种可能的实现方式中,所述确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值,包括:将需要备份N份的所述待调整数据块预先备份到N个预选择的计算节点上,所述N个预选择的计算节点分别具有所述各种应用能力值中一种最大的应用能力值;在所述N个预选择的计算节点分别对所述待调整数据块进行处理时,记录所述N个预选择的计算节点各自对所述待调整数据块的处理效率;根据所述N个预选择的计算节点各自对所述待调整数据块的处理效率,确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值。结合第一方面第一种可能的实现方式,在第二种可能的实现方式中,所述将所述待调整数据块备份到确定的所述前N个可用计算节点上,包括:将所述待调整数据块,从所述N个预选择的计算节点迁移备份到所述前N个可用计算节点。结合第一方面、第一方面第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述获取每个计算节点所具有的各种应用能力值,包括;获取所述每个计算节点的硬件参数;根据预置的所述各种应用能力值与所述硬件参数的对应关系,从所述硬件参数中选择与所述各种应用能力值对应的硬件参数,计算所述各种应用能力值。结合第一方面、第一方面第一种至第三种可能的实现方式中的任意一种,在第四种可能的实现方式中,所述获取每个计算节点所具有的各种应用能力值之后,所述方法还包括:根据所述各种应用能力值构建全局有序节点链表,所述全局有序节点链表为按照所述各种应用能力值中每种应用能力值大小顺序排列的计算节点链表;对应的,所述确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点,包括:从所述全局有序节点链表中所述影响最大的应用能力值下,查找所述影响最大的应用能力值最强的前N个可用计算节点。结合第一方面、第一方面第一种至第四种可能的实现方式中的任意一种,在第五种可能的实现方式中,所述确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点,包括:根据所述影响最大的应用能力值和所述每个计算节点的负载能力参数,确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点。结合第一方面、第一方面第一种至第五种可能的实现方式中的任意一种,在第六种可能的实现方式中,当所述前N个可用计算节点中包含从未存放过所述待调整数据块的新计算节点,且在确定所述最大的应用能力值时,未考虑所述新计算节点所具有的一种应用能力值,而且所述一种应用能力值满足预置条件时,所述方法还包括:重新确定所述各种应用能力值中,对待调整数据块的处理效率影响最大的应用能力值。结合第一方面、第一方面第一种至第六种可能的实现方式中的任意一种,在第七种可能的实现方式中,所述将所述待调整数据块备份到确定的所述前N个可用计算节点上之后,所述方法还包括:获取所述待调整数据块被访问次数的表征参数,所述被访问次数的表征参数为所述待调整数据块在预置时间段内被访问的次数;根据所述被访问次数的表征参数,确定增加或减少所述待调整数据块的备份数量。结合第一方面第七种可能的实现方式,在第八种可能的实现方式中,所述根据所述被访问次数的表征参数,确定增加或减少所述待调整数据块的备份数量,包括:当所述被访问次数的表征参数满足增加所述待调整数据块的备份数量的条件时,在除出所述前N个可用计算节点之外的剩余计算节点中选择新的备份计算节点,并在所述新的备份计算节点下增加备份,所述新的备份计算节点为所述剩余计算节点中所述影响最大的应用能力值排序在前第一预置数量的可用计算节点。结合第一方面第七种可能的实现方式,在第九种可能的实现方式中,所述根据所述被访问次数的表征参数,确定增加或减少所述待调整数据块的备份数量,包括:当所述被访问次数的表征参数满足减少所述待调整数据块的备份数量的条件时,确定所述前N个可用计算节点中所述影响最大的应用能力值最小的第二预置数量的计算节点,并删除所述第二预置数量的计算节点下的所述待调整数据块,所述第二预置数量小于N。本专利技术第二方面提供一种控制数据备份的设备,包括:获取单元,用于获取每个计算节点所具有的各种应用能力值;第一确定单元,用于确定所述获取单元获取的所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值,以及所述待调整数据块的备份数量N,所述N为大于1的整数;第二确定单元,用于确定所述每个计算节点中所述第一确定单元确定的所述影响最大的应用能力值最强的前N个可用计算节点;调度单元,用于将所述待调整数据块备份到所述第二确定单元确定的所述前N个可用计算节点上。结合第二方面,在第一种可能的实现方式中,所述第一确定单元包括:备份子单元,用于将需要备份N份的所述待调整数据块预先备份到N个预选择的计算节点上,所述N个预选择的计算节点分别具有所述各种应用能力值中一种最大的应用能力值;记录子单元,用于在所述N个预选择的计算节点分别对所述备份子单元备份的所述待调整数据块进行处理时,记录所述N个预选择的计算节点各自对所述待调整数据块的处理效率;确定子单元,用于根据所述记录子单元记录的所述N个预选择的计算节点各自对所述待调整数据块的处理效率,确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值。结合第二方面第一种可能的实现方式,在第二种可能的实现方式中,所述调度单元,用于将所述待调整数据块,从所述N个预选择的计算节点迁移备份到所述前N个可用计算节点。结合第二方面、第二方面第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述获取单元,用于获取所述每个计算节点的硬件参数,根据预置的所述各种应用能力值与所述硬本文档来自技高网...

【技术保护点】
PCT国内申请,权利要求书已公开。

【技术特征摘要】
【国外来华专利技术】1.一种Hadoop集群中数据备份的方法,其特征在于,包括:获取每个计算节点所具有的各种应用能力值;确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值,以及所述待调整数据块的备份数量N,所述N为大于1的整数;所述处理效率包括:处理时间;确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点;将所述待调整数据块备份到确定的所述前N个可用计算节点上。2.根据权利要求1所述的方法,其特征在于,所述确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值,包括:将需要备份N份的所述待调整数据块预先备份到N个预选择的计算节点上,所述N个预选择的计算节点分别具有所述各种应用能力值中一种最大的应用能力值;在所述N个预选择的计算节点分别对所述待调整数据块进行处理时,记录所述N个预选择的计算节点各自对所述待调整数据块的处理效率;根据所述N个预选择的计算节点各自对所述待调整数据块的处理效率,确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值。3.根据权利要求2所述的方法,其特征在于,所述将所述待调整数据块备份到确定的所述前N个可用计算节点上,包括:将所述待调整数据块,从所述N个预选择的计算节点迁移备份到所述前N个可用计算节点。4.根据权利要求1-3任一所述的方法,其特征在于,所述获取每个计算节点所具有的各种应用能力值,包括;获取所述每个计算节点的硬件参数;根据预置的所述各种应用能力值与所述硬件参数的对应关系,从所述硬件参数中选择与所述各种应用能力值对应的硬件参数,计算所述各种应用能力值。5.根据权利要求1-3任一所述的方法,其特征在于,所述获取每个计算节点所具有的各种应用能力值之后,所述方法还包括:根据所述各种应用能力值构建全局有序节点链表,所述全局有序节点链表为按照所述各种应用能力值中每种应用能力值大小顺序排列的计算节点链表;对应的,所述确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点,包括:从所述全局有序节点链表中所述影响最大的应用能力值下,查找所述影响最大的应用能力值最强的前N个可用计算节点。6.根据权利要求1-3任一所述的方法,其特征在于,所述确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点,包括:根据所述影响最大的应用能力值和所述每个计算节点的负载能力参数,确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点。7.根据权利要求1-3任一所述的方法,其特征在于,当所述前N个可用计算节点中包含从未存放过所述待调整数据块的新计算节点,且在确定所述最大的应用能力值时,未考虑所述新计算节点所具有的一种应用能力值,而且所述一种应用能力值满足预置条件时,所述方法还包括:重新确定所述各种应用能力值中,对待调整数据块的处理效率影响最大的应用能力值。8.根据权利要求1-3任一所述的方法,其特征在于,所述将所述待调整数据块备份到确定的所述前N个可用计算节点上之后,所述方法还包括:获取所述待调整数据块被访问次数的表征参数,所述被访问次数的表征参数为所述待调整数据块在预置时间段内被访问的次数;根据所述被访问次数的表征参数,确定增加或减少所述待调整数据块的备份数量。9.根据权利要求8所述的方法,其特征在于,所述根据所述被访问次数的表征参数,确定增加或减少所述待调整数据块的备份数量,包括:当所述被访问次数的表征参数满足增加所述待调整数据块的备份数量的条件时,在除出所述前N个可用计算节点之外的剩余计算节点中选择新的备份计算节点,并在所述新的备份计算节点下增加备份,所述新的备份计算节点为所述剩余计算节点中所述影响最大的应用能力值排序在前第一预置数量的可用计算节点。10.根据权利要求8所述的方法,其特征在于,所述根据所述被访问次数的表征参数,确定增加或减少所述待调整数据块的备份数量,包括:当所述被访问次数的表征参数满足减少所述待调整数据块的备份数量的条件时,确定所述前N个可用计算节点中所述影响最大的应用能力值最小的第二预置数量的计算节点,并删除所述第二预置数量的计算节点下的所述待调整数据块,所述第二预置数量小于N。11.一种控制数据备份的设备,其特征在于,包括:获取单元,用于获取每个计算节点所具有的各种应用能力值;第一确定单元,用于确定所述获取单元获取的所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值,以及所述待调整数据块的备份数量N,所述N为大于1的整数;所述处理效率包括:处理时间;第二确定单元,用于确定所述每个计算节点中所述第一确定单元确定的所述影响最大的应用能力...

【专利技术属性】
技术研发人员:王朱珍
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1