一种HDFS运行时数据块平衡方法技术

技术编号:8347867 阅读:381 留言:0更新日期:2013-02-21 01:13
本发明专利技术公开了一种HDFS运行时数据块平衡方法,该方法首先对节点本地任务列表进行预处理,为每一个节点划分出完成本地任务和非完全本地任务,以提供启动HDFS数据块平衡判断的依据。接着对各个节点的运行速率就行评估和任务请求预测。完成以上步骤之后对各个节点的分配过程进行设计和实现。之后选择合适的节点间进行数据块的移动,从而数据块的分布就可以匹配预测的节点任务请求序列,最终达到数据块平衡的目的。本发明专利技术提出基于运行时数据块移动HDFS平衡策略,通过预测节点任务请求提前判断可能出现的非本地map任务执行,并在相应的节点间移动合适的数据块,使得节点发出实际任务请求时候能够得到本地map任务的分配响应,从而提高Map阶段的完成效率。

【技术实现步骤摘要】
一种HDFS运行时数据块平衡方法
本专利技术属于计算机
,涉及一种数据块平衡方法,尤其是一种云计算环境下HDFS (Hadoop Distributed File System)在运行过程中数据块平衡方法。
技术介绍
Hadoop是由Apache开源组织开发的一个高可靠性和高可扩展性的存储与分布式并行计算平台,最早是作为开源搜索引擎项目Nutch的基础平台而开发的,之后从Nutch项目中独立出来,成为典型的开源云计算平台之一。Hadoop核心实现了按块存储的分布式文件系统(Hadoop Distributed File System,HDFS)以及用于分布式计算的MapReduce计算模型。HDFS为Hadoop集群提供由众多节点组成的存储系统,在存储大规模数据文件时,会将文件切分成多个相同大小的数据块(最后一份数据块例外),分布在集群中所有节点上。 为了保证可靠性,HDFS会依据配置为每一份数据块创建多个副本,并放置在集群的不同节点上。HDFS为上层MapReduce计算引擎提供数据存储服务。Hadoop MapReduce将应用划分成许多小任务并行执行,每个小任务就对计算节本文档来自技高网...

【技术保护点】
一种HDFS运行时数据块平衡方法,其特征在于,包括以下步骤:1)节点本地任务列表预处理1.1提出完全本地任务和非完全本地任务:当HDFS的各个数据块存在多个副本的时候,导致同一个任务会出现在不同节点的本地Map任务列表中,从而某个节点本地任务列表中剩余的map任务数n,意味着该节点能够分配执行的本地任务数是n;1.2节点本地任务列表的预处理过程:当各个节点依次发出任务请求时,从节点的本地任务列表中获取当前可执行的任务加入到节点的完全本地任务列表中,而本地任务列表中未被分配的任务则加入到非完全本地任务列表中;2)节点运行时信息统计通过设计NodeEvaluateInfo类来实现:在该类中统计节点...

【技术特征摘要】

【专利技术属性】
技术研发人员:曹海军伍卫国董小社樊源泉魏伟朱霍
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1