一种HADOOP调度法的优化方法技术

技术编号:10529236 阅读:108 留言:0更新日期:2014-10-15 11:10
本发明专利技术公开了一种HADOOP调度法的优化方法,属于计算机软件及并行计算技术领域,方法如下:通过调整hadoop任务各阶段的权值,准确地确定出任务进度值,掌握任务的剩余完成时间;找到真正的掉队任务,并在正常节点上进行推测执行;根据网络的负载情况,不断改变后备任务的数量上限值,保证网络的负载均衡,避免因过度执行后备任务导致网络拥塞。本发明专利技术的一种HADOOP调度法的优化方法和现有技术相比,具有的有效果是:对任务各阶段的权值进行调整,根据不同的作业进行不同权值的设置,使其更接近真实值,能够帮助更准确地计算任务的进度值、进程速率与预计剩余完成时间。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种HADOOP调度法的优化方法,属于计算机软件及并行计算
,方法如下:通过调整hadoop任务各阶段的权值,准确地确定出任务进度值,掌握任务的剩余完成时间;找到真正的掉队任务,并在正常节点上进行推测执行;根据网络的负载情况,不断改变后备任务的数量上限值,保证网络的负载均衡,避免因过度执行后备任务导致网络拥塞。本专利技术的一种HADOOP调度法的优化方法和现有技术相比,具有的有效果是:对任务各阶段的权值进行调整,根据不同的作业进行不同权值的设置,使其更接近真实值,能够帮助更准确地计算任务的进度值、进程速率与预计剩余完成时间。【专利说明】-种HADOOP调度法的优化方法
本专利技术涉及计算机软件及并行计算
,具体地说是一种HADOOP调度法的 优化方法。
技术介绍
随着计算机技术和互联网技术的迅猛发展,网络普及率和互联网用户的规模也在 逐年攀升,用户规模不断攀升与数据处理量迅速增长的双重刺激为互联网应用带来了新的 挑战。首先,海量的数据需要巨大规模的存储资源作为基础,其次网络应用对数据的依赖 性增加,使得对海量数据进行计算和处理的能力的需求越来越强烈,维护这些应用程序 的数据存储的成本和数据计算处理的成本越来越高。在应用需求和相关技术发展的推动 下,云计算作为一种新的模型被提了出来,它从技术上解决了大规模并行计算、海量数据 分布式存储、海量数据实时备份和应用高度集成等问题。Google研发出了简单而又高效的 云计算技术,为了对Google云计算技术有更加深入的了解,Apache提出了分布式计算框架 Hadoop,对成千上万的任务进行调度的海量数据并行处理系统,Hadoop的调度器负责所有 作业与其任务调度的整个过程,包括如何选择作业和任务,如何选择任务的执行者等。衡量 调度器优劣的标准之一就是系统对任务的响应时间。选择合适的调度程序不仅能够缩短系 统的响应时间,而且能够改善Hadoop的执行能力和交互能力,因此对Hadoop调度法的研究 和改进工作具有非常重要的意义。
技术实现思路
本专利技术的技术任务是提供一种HADOOP调度法的优化方法。 本专利技术的技术任务是按以下方式实现的,该HADOOP调度法的优化方法采用任务 各阶段进度值选取模块、申请任务的TaskTracker是否为掉队节点判定模块、掉队任务判 定模块、掉队任务排序模块以及后备任务建立模块; 方法如下: 通过调整hadoop任务各阶段的权值,准确地确定出任务进度值,掌握任务的剩余完成 时间;找到真正的掉队任务,并在正常节点上进行推测执行;根据网络的负载情况,不断改 变后备任务的数量上限值,保证网络的负载均衡,避免因过度执行后备任务导致网络拥塞。 所述的任务各阶段进度值选取模块可以自行调整相应参数,使得任务各阶段的进 度值更接近实际值,从而准确地确定任务的进度值与进度速率。 所述的申请任务的TaskTracker是否为掉队节点判定模块,通过确定 TaskTracker的速率,准确判定申请任务的TaskTracker是不是掉队者,如是,则将掉队任 务的后备任务交由该TaskTracker执行。 所述的掉队任务判定模块通过一个任务的map任务的进程速率以及reduce任务 的进程速率,准确判定该任务是否为掉队任务。 所述的掉队任务排序模块通过确定掉队任务队列中每个任务预计完成的剩余时 间并对其排序,准确判定任务优先级。 所述的后备任务建立模块通过系统的负载量和系统的处理能力的比值来确定掉 队任务的情况,当一些TaskTracker空闲的时候就会从掉队任务队列中选择任务并执行 其后备任务。 本专利技术的一种HAD00P调度法的优化方法和现有技术相比,具有的有效果是:对任 务各阶段的权值进行调整,根据不同的作业进行不同权值的设置,使其更接近真实值,能够 帮助更准确地计算任务的进度值、进程速率与预计剩余完成时间。根据系统中的负载情况, 对后备任务数量上限进行动态调整,避免由于过度推测执行带来系统的性能下降,更好地 利用推测执行机制帮助改善任务的响应时间。 【专利附图】【附图说明】 附图1为一种HAD00P调度法的优化方法的流程示意图。 【具体实施方式】 实施例1 : 该HAD00P调度法的优化方法采用任务各阶段进度值选取模块、申请任务的 TaskTracker是否为掉队节点判定模块、掉队任务判定模块、掉队任务排序模块以及后备 任务建立模块。 方法如下: 通过调整hadoop任务各阶段的权值,准确地确定出任务进度值,掌握任务的剩余完成 时间;找到真正的掉队任务,并在正常节点上进行推测执行;根据网络的负载情况,不断改 变后备任务的数量上限值,保证网络的负载均衡,避免因过度执行后备任务导致网络拥塞。 任务各阶段进度值选取模块可以自行调整相应参数,使得任务各阶段的进度值 更接近实际值,从而准确地确定任务的进度值与进度速率。具体步骤为:通过实验数据对 WordCount任务的各阶段进度值进行估算,并记录这些参考值。在执行其他任务时,可以自 行调整相应参数,使得任务各阶段的进度值更接近实际值,这能够帮助算法更准确地计算 任务的进度值与进度速率,以便更好地推测执行后备任务。 申请任务的TaskTracker是否为掉队节点判定模块,通过确定TaskTracker的 速率,准确判定申请任务的TaskTracker是不是掉队者,如是,则将掉队任务的后备任务 交由该TaskTracker执行。具体步骤为:判断申请任务的TaskTracker是否为掉队节 点,Si用来区分正常的map TaskTracker和掉队的map TaskTracker。Ri用来区分正常 的 reduce TaskTracker 和掉队的 reduce TaskTracker。每个 TaskTracker 只运行在一 个节点上,所以掉队节点就等同于掉队TaskTracker。假设系统里有N个TaskTracker, 第i个TaskTracker的速率,对于map任务是TiPRjn,对于reduce任务是TiPR_ r,平均速率为是APR_m、APR_r,如果有j个map任务和k个reduce任务运行在第i个 TaskTracker 上,则 ΤΠπ^ , TiPR_r= , ATPR_m= ,ATPR_r= 【权利要求】1. 一种HADOOP调度法的优化方法,其特征在于,采用任务各阶段进度值选取模块、申 请任务的TaskTracker是否为掉队节点判定模块、掉队任务判定模块、掉队任务排序模块 以及后备任务建立模块; 方法如下: 通过调整hadoop任务各阶段的权值,准确地确定出任务进度值,掌握任务的剩余完成 时间;找到真正的掉队任务,并在正常节点上进行推测执行;根据网络的负载情况,不断改 变后备任务的数量上限值,保证网络的负载均衡,避免因过度执行后备任务导致网络拥塞。2. 根据权利要求1所述的一种HADOOP调度法的优化方法,其特征在于,所述的任务各 阶段进度值选取模块可以自行调整相应参数,使得任务各阶段的进度值更接近实际值,从 而准确地确定任务的进度值与进度速率。3. 本文档来自技高网
...

【技术保护点】
一种HADOOP调度法的优化方法,其特征在于,采用任务各阶段进度值选取模块、申请任务的 TaskTracker 是否为掉队节点判定模块、掉队任务判定模块、掉队任务排序模块以及后备任务建立模块;方法如下:通过调整hadoop任务各阶段的权值,准确地确定出任务进度值,掌握任务的剩余完成时间;找到真正的掉队任务,并在正常节点上进行推测执行;根据网络的负载情况,不断改变后备任务的数量上限值,保证网络的负载均衡,避免因过度执行后备任务导致网络拥塞。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘晶
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1