Hadoop的调度方法、系统及管理节点技术方案

技术编号:9033915 阅读:333 留言:0更新日期:2013-08-15 00:46
本发明专利技术提出了一种Hadoop的调度方法,包括以下步骤:管理节点获取多个计算节点中已完成任务的资源消耗信息;管理节点根据多个计算节点中已完成任务的资源消耗信息生成资源调度值;管理节点接收新任务的分配请求,并根据资源调度值为新任务分配资源。根据本发明专利技术实施例的Hadoop的调度方法可以提高Hadoop计算节点(TaskTracker)的单机并发度,从而提高整个集群(多个计算节点)的资源利用率。本法买那个还提出了一种Hadoop的调度系统及管理节点。

【技术实现步骤摘要】

本专利技术涉及云计算
,特别涉及一种Hadoop的调度方法、系统及管理节点
技术介绍
Apache Hadoop是一个能够对大量数据进行分布式处理的软件平台,海量数据业务越来越多,Hadoop的使用也越来越广泛。随着单个集群的规模的日趋扩大(第一代Hadoop集群大约能够支持4000台机器),如何提高集群资源使用率也逐渐成为人们关心的话题。提高集群资源利用率的关键在于集群的调度。目前Hadoop支持多种调度器,基本都是将TaskTracker按照机器配置信息,分配好固定的槽位(slot)数,比如16个,表不单台TaskTracker机器可以最多同时执行16个Task, JobTracker按照这些槽位数进行调度,每个Task占用至少一个槽位。这种固定配置槽位数的方案有两个缺点:(I)每台机器所容纳的槽位数是固定的,每个槽位对应的资源也是固定的,Hadoop默认每个槽位对应800MB内存,一个实际运行过程中只需要100MB内存的Task,在JobTracker和TaskTracker看来,仍然占用一个槽位,仍然需要消耗800MB内存;(2)某个具体的Task占用几个槽位,完全根据提交作业的配置进行换算,大部分情况下用户对自身的程序运行过程中需要多少资源,并不能做到十分精确的预估。因此,如果单机配置槽位数较少,则无法充分利用集群资源,而如果配置槽位数个数较多,当出现资源消耗较多的作业时,又会出现单机资源不够用的情况(例如因为整机内存不够而出现机器宕机)。
技术实现思路
本专利技术的目的旨在至少解决所述技术缺陷之一。为此,本专利技术的一个目的在于提出一种可提升计算节点中资源利用率的Hadoop的调度方法。本专利技术的另一个目的在于提出一种Hadoop的调度系统。本专利技术的再一目的在于提出一种管理节点。为达到上述目的,本专利技术第一方面的实施例公开了一种Hadoop的调度方法,包括以下步骤:管理节点获取多个计算节点中已完成任务的资源消耗信息;所述管理节点根据所述多个计算节点中已完成任务的资源消耗信息生成资源调度值;以及所述管理节点接收新任务的分配请求,并根据所述资源调度值为所述新任务分配资源。根据本专利技术实施例的Hadoop的调度方法,可以提高Hadoop计算节点(TaskTracker)的单机并发度,从而提高整个集群(多个计算节点)的资源利用率。另外,根据本专利技术上述实施例的Hadoop的调度方法还可以具有如下附加的技术特征:在一些示例中,所述计算节点中运行有多个任务。在一些示例中,所述计算节点中的任务在所述任务结束之后通过心跳报文将所述任务对应的资源消耗信息发送至所述管理节点。在一些示例中,所述管理节点通过以下公式生成所述资源调度值:最新的资源调度值=最新采样值*p+当前资源调度值*( 1-P),其中,P取值为(0,I)。本专利技术第二方面的实施例公开了一种Hadoop的调度系统,包括管理节点和多个计算节点,其中,管理节点,用于获取多个计算节点中已完成任务的资源消耗信息,并根据所述多个计算节点中已完成任务的资源消耗信息生成资源调度值,以及在接收新任务的分配请求之后根据所述资源调度值为所述新任务分配资源。根据本专利技术实施例的Hadoop的调度系统,可以提高Hadoop计算节点(TaskTracker)的单机并发度,从而提高整个集群(多个计算节点)的资源利用率。另外,根据本专利技术上述实施例的Hadoop的调度系统还可以具有如下附加的技术特征:在一些示例中,所述计算节点中运行有多个任务。在一些示例中,所述计算节点中的任务在所述任务结束之后通过心跳报文将所述任务对应的资源消耗信息发送至所述管理节点。在一些示例中,所述管理节点通过以下公式生成所述资源调度值:最新的资源调度值=最新采样值*p+当前资源调度值*( 1-P),其中,P取值为(0,I)。 本专利技术第三方面的实施例公开了一种管理节点,包括:获取模块,用于获取多个计算节点中已完成任务的资源消耗信息;生成模块,用于根据所述多个计算节点中已完成任务的资源消耗信息生成资源调度值;以及资源分配模块,用于在接收新任务的分配请求之后根据所述资源调度值为所述新任务分配资源。根据本专利技术实施例的管理节点,可以提高Hadoop计算节点的单机并发度,从而提高整个集群(多个计算节点)的资源利用率。另外,根据本专利技术上述实施例的管理节点还可以具有如下附加的技术特征:在一些示例中,所述计算节点中运行有多个任务。在一些示例中,所述计算节点中的任务在所述任务结束之后通过心跳报文将所述任务对应的资源消耗信息发送至所述管理节点。在一些示例中,所述管理节点通过以下公式生成所述资源调度值:最新的资源调度值=最新采样值*p+当前资源调度值*( 1-P),其中,P取值为(0,I)。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术所述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本专利技术一个实施例的Hadoop的调度方法的流程图;图2是根据本专利技术一个实施例的Hadoop的调度方法的详细流程图;图3是根据本专利技术一个实施例的Hadoop的调度系统的结构图;以及图4是根据本专利技术一个实施例的管理节点的结构图。具体实施例方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示 例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。在本专利技术的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解所述术语的具体含义。以下结合附图描述根据本专利技术实施例的Hadoop的调度方法、系统及管理节点。图1是根据本专利技术一个实施例的Hadoop的调度方法的流程图。如图1所示,该Hadoop的调度方法,包括如下步骤:步骤SlOl:管理节点获取多个计算节点中已完成任务的资源消耗信息。其中,计算节点中运行有多个任务,即每个计算节点中可运行有多个任务。并且计算节点中的任务在任务结束之后可通过心跳报文将任务对应的资源消耗信息发送至管理节点。在该示例中,如果计算节点中运行有多个任务,则该计算节点中的资源消耗信息为该计算节点中运行的所有的任务的总的资源消耗信息。结合图2所示,管理节点为Master节点和调度器,由图2中符号为(I)所示,Master节点和调度器调度某个具体作业,根据该作业配置的资源信息启动一批Task,比如每个Task默认分配内存800MB。计算节点中Task具体执行时,计算节点采集自身Task组消耗本文档来自技高网...

【技术保护点】
一种Hadoop的调度方法,其特征在于,包括以下步骤:管理节点获取多个计算节点中已完成任务的资源消耗信息;所述管理节点根据所述多个计算节点中已完成任务的资源消耗信息生成资源调度值;以及所述管理节点接收新任务的分配请求,并根据所述资源调度值为所述新任务分配资源。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙垚光黎樵
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1