【技术实现步骤摘要】
一种于Hadoop平台中动态调整任务数目的方法及系统
本专利技术涉及Hadoop分布式计算平台,特别是涉及于MapReduce计算框架下进行任务调度的方法及系统。
技术介绍
在云计算模式下,Hadoop平台为数据中心的用户提供了大量的服务,与此同时,由于数据中心机器的多样性、用户提交作业的复杂性、处理的数据与日俱增,Hadoop平台本身面临着巨大的挑战,并且这些挑战对Hadoop的性能有较大的影响。因此,如何使得Hadoop平台更适应集群的多样性、作业的复杂性,增强其健壮性,保持其原有的可扩展性、低成本、高效率、容错性等特性成为了改善Hadoop性能的关键。针对Hadoop性能的优化,目前可分为四类:1.以提高集群中资源利用率为目的的优化,如FairnessScheduler[1][2][3][11]、CapacityScheduler[4]、ADynamicMapReduceScheduler[8],这些优化方法的共同点都是将用户提交的作业组织成不同的队列,然后为每一个队列分配不同大小的资源,以达到资源公平的、充分的使用。2.以增加任务本地化的比例来缩短作业执行 ...
【技术保护点】
一种于Hadoop平台中动态调整任务数目的方法,其特征在于,包括:步骤10,持续获取节点中运行的任务的执行速率;步骤20,计算执行速率在下降的任务的个数;步骤30,根据该个数判断是否需要调整节点中所运行的任务的数目。
【技术特征摘要】
1.一种于Hadoop平台中动态调整任务数目的方法,其特征在于,包括:步骤10,持续获取节点中运行的每个任务的执行速率;步骤20,计算执行速率在下降的任务的个数;步骤30,根据该个数判断是否需要调整节点中所运行的任务的数目;该步骤30进一步包括:判断TER_Changed_Num≥Curr_Slots_Num×ThresHold是否为真,如果是,减少该节点中运行的任务的数目,如果否,增加该节点中运行的任务的数目;其中,TER_Changed_Num为执行速率在下降的任务的个数,Curr_Slots_Num为节点中当前运行的任务数,ThresHold为一阈值。2.如权利要求1所述的方法,其特征在于,步骤10之前还包括:步骤1,获取集群中每个节点的处理能力;步骤2,获取每个节点的处理资源的使用率。3.如权利要求2所述的方法,其特征在于,还包括:该获取集群中每个节点的处理能力的步骤进一步包括:读取每个节点上的CPU核数;和/或该获取每个节点的处理资源的使用率的步骤进一步包括:每隔固定时间间隔读取每个节点的CPU使用率以及内存使用率。4.如权利要求1所述的方法,其特征在于,该步骤10进一步包括:在节点的每个任务的执行过程中,以固定时间间隔持续获取该任务的当前执行进度,据以计算各时间点的执行速率。5.如权利要求4所述的方法,其特征在于:TER=(TaskProgress_New-TaskProgress_Old)/IntervalTime其中,TaskProgress_New为当前任务执行进度,TaskProgress_Old为前次任务执行进度,TER为执行速率,IntervalTime为固定时间间隔。6.如权利要求4所述的方法,其特征在于,该步骤20进一步包括:针对每个任务依次判断:该任务的本次执行速率是否小于该任务的前次执行速率;如果是,该任务视为执行速率在下降,该个数增加1。7.如权利要求1所述的方法,其特征在于,该减少该节点中运行的任务的数目的步骤进一步包括:判断节点中的当前任务数目,如果大于1且已有任务执行结束,减少节点中运行的空闲任务的数目,其余情况返回。8.如权利要求1所述的方法,其特征在于,该增加该节点中运行的任务的数目的步骤进一步包括:判断节点中的当前任务数目是否等于节点所配置的最大任务数目,如果是,进一步判断节点的剩余处理资源是否大于新增任务所需的最低处理资源阈值,如果是,在节点中增加运行至少一空闲任务;其余情况返回。9.一种Hadoop平台中动态调整任务数目的...
【专利技术属性】
技术研发人员:康凯,赵霞,宋莹,孙毓忠,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。