一种Slurm作业调度方法及系统技术方案

技术编号:20915537 阅读:47 留言:0更新日期:2019-04-20 09:29
本发明专利技术实施例公开了一种Slurm作业调度方法及系统,所述方法包括:将集群中存在的物理节点按照不同的优先级设置成第一分区和第二分区,当第一分区作业需要抢占第二分区作业资源时,将节点的剩余资源列入备选资源当中,在Slurm进行模拟抢占时将所述剩余资源列为优先使用资源;按照预定规则区分作业的资源进行优先抢占,实现计算资源的调度。本发明专利技术使得Slurm框架可以更合理的调度资源,提高物理资源的使用率,完善了Slurm框架的调度机制。

A Slurm Job Scheduling Method and System

The embodiment of the present invention discloses a Slurm job scheduling method and system. The method includes: setting physical nodes existing in the cluster into first and second partitions according to different priorities; when the first partition job needs to preempt the second partition job resources, adding the remaining resources of the nodes into the alternative resources; and simulating the preemption of the remaining resources in Slurm. Priority is given to the use of resources, and priority preemption is carried out according to the predetermined rules to distinguish the resources of jobs, so as to realize the scheduling of computing resources. The invention enables the Slurm framework to schedule resources more reasonably, improves the utilization rate of physical resources, and improves the scheduling mechanism of the Slurm framework.

【技术实现步骤摘要】
一种Slurm作业调度方法及系统
本专利技术涉及云计算技术,尤指一种Slurm作业调度方法及系统。
技术介绍
Slurm是一个现有开源的集群作业调度框架,用于为作业指定物理资源、中央处理器(CentralProcessingUnit,CPU)、内存。Slurm工作调度工具是面向Linux和Unix类似内核的免费和开源工作调度程序,为世界上许多超级计算机和计算机集群使用。它提供了三个关键功能。首先,它在一段时间内为用户分配计算资源,如计算机节点的独占和/或非独占访问权限,以便他们可以执行工作。其次,它提供了一个框架,用于在一组分配的节点上启动,执行和监视工作,通常是并行作业任务,例如消息传递接口(Message-Passing-Interface,MPI)。最后,它通过管理待处理作业队列来仲裁资源争用。Slurm作业调度抢占机制存在缺陷:高优先级分区的作业在运行时,如果所需资源不足,则会进行模拟抢占,直到一种抢占方法可以满足高级分区作业的资源需求,此时被抢占的低级分区作业被挂起,高级分区作业运行,这里存在问题,Slurm在进行模拟抢占的时候并没有将节点的剩余资源优先列入模拟抢占的计算方本文档来自技高网...

【技术保护点】
1.一种Slurm作业调度方法,其特征在于,包括:将集群中存在的物理节点按照不同的优先级设置成第一分区和第二分区,当第一分区作业需要抢占第二分区作业资源时,将节点的剩余资源列入备选资源当中,在集群作业调度工具Slurm进行模拟抢占时将所述剩余资源列为优先使用资源;按照预定规则区分作业的资源进行优先抢占,实现计算资源的调度。

【技术特征摘要】
1.一种Slurm作业调度方法,其特征在于,包括:将集群中存在的物理节点按照不同的优先级设置成第一分区和第二分区,当第一分区作业需要抢占第二分区作业资源时,将节点的剩余资源列入备选资源当中,在集群作业调度工具Slurm进行模拟抢占时将所述剩余资源列为优先使用资源;按照预定规则区分作业的资源进行优先抢占,实现计算资源的调度。2.根据权利要求1所述的Slurm作业调度方法,其特征在于,所述按照预定规则区分作业的资源进行优先抢占包括:按第二分区作业运行时长判断,优先抢占运行时长短的作业。3.根据权利要求2所述的Slurm作业调度方法,其特征在于,所述按照预定规则区分作业的资源进行优先抢占还包括:同一运行时长中的作业优先抢占占有节点数少的作业。4.根据权利要求3所述的Slurm作业调度方法,其特征在于,所述按照预定规则区分作业的资源进行优先抢占还包括:当使用节点数相同时,优先抢占启动时间晚的作业的资源。5.根据权利要求1-4任一项所述的Slurm作业调度方法,其特征在于,所述按照预定规则区分作业的资源进行优先抢占还...

【专利技术属性】
技术研发人员:何翔龙
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1