【技术实现步骤摘要】
一种HDFS运行时数据块平衡方法
本专利技术属于计算机
,涉及一种数据块平衡方法,尤其是一种云计算环境下HDFS (Hadoop Distributed File System)在运行过程中数据块平衡方法。
技术介绍
Hadoop是由Apache开源组织开发的一个高可靠性和高可扩展性的存储与分布式并行计算平台,最早是作为开源搜索引擎项目Nutch的基础平台而开发的,之后从Nutch项目中独立出来,成为典型的开源云计算平台之一。Hadoop核心实现了按块存储的分布式文件系统(Hadoop Distributed File System,HDFS)以及用于分布式计算的MapReduce计算模型。HDFS为Hadoop集群提供由众多节点组成的存储系统,在存储大规模数据文件时,会将文件切分成多个相同大小的数据块(最后一份数据块例外),分布在集群中所有节点上。 为了保证可靠性,HDFS会依据配置为每一份数据块创建多个副本,并放置在集群的不同节点上。HDFS为上层MapReduce计算引擎提供数据存储服务。Hadoop MapReduce将应用划分成许多小任务并行执行, ...
【技术保护点】
一种HDFS运行时数据块平衡方法,其特征在于,包括以下步骤:1)节点本地任务列表预处理1.1提出完全本地任务和非完全本地任务:当HDFS的各个数据块存在多个副本的时候,导致同一个任务会出现在不同节点的本地Map任务列表中,从而某个节点本地任务列表中剩余的map任务数n,意味着该节点能够分配执行的本地任务数是n;1.2节点本地任务列表的预处理过程:当各个节点依次发出任务请求时,从节点的本地任务列表中获取当前可执行的任务加入到节点的完全本地任务列表中,而本地任务列表中未被分配的任务则加入到非完全本地任务列表中;2)节点运行时信息统计通过设计NodeEvaluateInfo类来实 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:曹海军,伍卫国,董小社,樊源泉,魏伟,朱霍,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。