一种作业调度方法和计算装置制造方法及图纸

技术编号：10075384 阅读：239 留言：0更新日期：2014-05-24 04:42

本发明专利技术提供了一种作业调度方法和计算装置，该方法包括：在检测到计算资源不足以运行当前的队首作业时，计算相应的回填窗口；缩短非队首作业对应的运行时间估计，并根据缩短后的运行时间估计判断所述非队首作业是否能够回填，并在判断为是时，将相应的非队首作业回填；在回填窗口结束且剩余计算资源不足以运行当前的队首作业时，停止当前运行的回填作业，并针对-被终止的回填作业设置检查点；并在再次重启所述回填作业时，根据所述回填作业中的检查点执行未完成部分的计算任务。采用本发明专利技术提供的作业调度方法，能够提高系统资源的利用率，减少作业的等待时间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算装置
，尤其涉及一种作业调度方法和计算装置。
技术介绍
并行作业调度系统一直是超级计算机系统非常重要的组成部分，它根据用户的作业资源请求分配可用的计算节点给并行程序。并行作业会占用分配的计算节点一直到作业运行完成/失败，或由于作业运行时间超过运行脚本所指定的运行估计时间而被系统进程杀死。由于资源有限，并行作业在进入作业队列后一般不能立即得到所申请的计算资源，往往要等待一段时间。并行作业调度系统的主要目标是减少平均作业等待时间，并且最大化系统的资源利用率，同时对所有作业保持一定的公平性。经过几十年的发展，并行作业调度技术已相当成熟，近年少有重大进展。尽管学术界提出了一些新策略和新算法，例如动态分割技术和组调度技术。但这些技术由于实际使用及其它因素的限制并没有得到大规模应用。到目前为止，基于先来先服务（First Come First Served，FCFS）的回填算法依然是多数超级计算机和集群系统广泛采用的并行作业调度算法。该算法首先由美国阿贡国家实验室为当时的IBM SP1并行计算系统设计的，并在EASY调度系统中得以实现。该算法的基本思想非常简单：高性能计算机系统在按照作业优先级调度队列中并行作业运行的时候，系统中会留下一些难以利用的资源“孔洞”，这时系统会从等待队列中找出那些适合的低优先级短作业并在不影响高优先级作业运行的前提下得到提前运行。从而提高了系统的利用率，缩短了作业的平均等待时间。目前主流的并行作业调度系统，如LSF、Moab、Maui、PBS/Torque和LoadLevele...
一种作业调度方法和计算装置

【技术保护点】

【技术特征摘要】
1.一种作业调度方法，其特征在于，包括：
在检测到计算资源不足以运行当前的队首作业时，计算相应的回
填窗口；
缩短非队首作业对应的运行时间估计，并根据缩短后的运行时间
估计判断所述非队首作业是否能够回填，并在判断为是时，将相应的
非队首作业回填；
在回填窗口结束且剩余计算资源不足以运行当前的队首作业时，
停止当前运行的回填作业，并针对-被终止的回填作业设置检查点；
在再次重启所述回填作业时，根据所述回填作业中的检查点执行
未完成部分的计算任务。
2.如权利要求1所述的方法，其特征在于，所述缩短队首作业之
外的其他非队首作业对应的运行时间估计，具体包括：
将所述非队首作业对应的运行时间估计乘以一个预设分割因子
p，其中，0<p<1。
3.如权利要求2所述的方法，其特征在于，所述将所述非队首作
业对应的运行时间估计乘以一个预设分割因子p，具体包括：
在判断所述非队首作业对应的运行时间估计大于预设值时，将所
述非队首作业对应的运行时间估计乘以一个预设分割因子p。
4.如权利要求1所述的方法，其特征在于，所述根据缩短后的运
行时间估计判断所述非队首作业是否能够回填具体包括：
在判断所述非队首作业需要占用的计算资源小于当前剩余的计
算资源，且缩短后的运行时间估计小于所述回填窗口时，判定所述非
队首作业可以回填。
5.如权利要求1所述...

【专利技术属性】
技术研发人员：牛双诚，翟季冬，陈文光，郑纬民，刘明亮，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人