一种作业调度方法、服务器及服务器集群技术

技术编号:37817925 阅读:10 留言:0更新日期:2023-06-09 09:49
本申请提供一种作业调度方法、服务器以及服务器集群,所述方法包括:在所述待调度作业中存在自动调度参数的情况下,查询多个计算节点队列的队列资源情况,并基于所述队列资源情况,从多个计算节点队列中选取到目标队列;将所述待调度作业分配到所述目标队列。本申请能够自动选择队列资源,解决人工选择可能导致的调度失败等问题。调度失败等问题。调度失败等问题。

【技术实现步骤摘要】
一种作业调度方法、服务器及服务器集群
[0001]本申请要求于2023年1月6日提交中国专利局、申请号为2023100177458、申请名称为“一种作业调度方法、服务器及服务器集群”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及服务器集群领域,尤其涉及一种作业调度方法、服务器及服务器集群。

技术介绍

[0003]高性能计算(high

performance computing,HPC)是一个计算机集群系统,通过管理节点对计算任务进行分解,交给不同的计算节点进行计算,以此来解决大型计算问题。在科学研究、气象预报、仿真实验、生物制药、基因测序、图像处理等行业均有广泛的应用。
[0004]目前HPC行业使用Slurm或者OpenPBS调度器时,会将计算节点划分队列。将计算节点分组,不同的组即不同的队列,在队列排队的作业只会在所属队列的计算节点服务器执行。

技术实现思路

[0005]本申请实施例提供了一种作业调度方法、服务器及服务器集群,能够自动选择队列资源,解决人工选择可能导致的调度失败等问题。
[0006]第一方面,本申请实施例提供一种作业调度方法,所述方法包括:获取待调度作业;在待调度作业中存在自动调度参数的情况下,查询多个计算节点队列的队列资源情况,并基于队列资源情况,从多个计算节点队列中选取到目标队列;将待调度作业分配到目标队列。以此本申请实施例提供的作业调度方法能够自动选择队列资源,解决人工选择可能导致的调度失败问题,
[0007]其中一种可能的实现方式中,所述方法还包括:获取已分配到计算节点队列中的作业的排队时长;在排队时长达到时间阈值的情况下,则为所述作业重新分配目标队列。以此,可以自动调度拥塞作业,解决作业在繁忙队列长时间排队问题。
[0008]其中一种可能的实现方式中,在待调度作业中存在自动调度参数的情况下,则查询多个计算节点队列的队列资源情况,并基于队列资源情况,从多个计算节点队列中选取到目标队列,包括:在待调度作业中存在自动调度参数的情况下,解析得到待调度作业的资源请求,并查询多个计算节点队列的队列资源情况;基于队列资源情况和资源请求,从多个计算节点中选取到目标队列。以此,可以触发基于Slurm/OpenPBS的hook插件机制自动计算作业的资源请求,获得待调度作业的资源请求,无需用户人工干预。
[0009]其中一种可能的实现方式中,资源请求包括待调度作业需要的CPU的个数和/或节点个数。以此,可以通过部署在调度器中的AutoQueueServer组件,查询调度器中当前的多个计算节点队列的资源情况,根据队列调度算法选择目标队列。
[0010]其中一种可能的实现方式中,待调度作业包括权限要求,目标队列为满足所述待
调度作业的资源请求和权限要求的计算节点队列。以此,可以获得作业的资源请求和权限要求。
[0011]其中一种可能的实现方式中,队列资源情况包括计算节点队列的空闲率,基于队列资源情况和资源请求,从多个计算节点队列中选取到目标队列,包括:在存在多个满足资源请求的空闲队列的情况下,基于空闲节点的空闲率,从多个满足资源请求的空闲队列中选取到目标队列,目标队列为满足资源请求且空闲率最大的空闲队列,空闲队列为处于空闲状态的计算节点队列;空闲状态是指作业无需排队处理,或者,计算节点队列中不存在正在排队的作业。以此,可以避免调度拥塞,避免造成作业在繁忙队列长时间排队,提高计算的执行效率。
[0012]其中一种可能的实现方式中,基于队列资源情况和资源请求,从多个计算节点队列中选取到目标队列,包括:在存在多个满足资源请求的队列,且多个满足资源请求的队列中不存在空闲队列的情况下,比较多个满足资源请求的队列的队列资源情况,并根据比较结果从多个满足资源请求的队列中,选取得到目标队列。以此,可以查询调度器中当前的多个计算节点队列的资源情况,根据队列调度算法选择目标队列。
[0013]其中一种可能的实现方式中,队列资源情况包括作业排队数量、作业排队时长或者空闲率中的一种或多种。
[0014]第二方面,本申请实施例提供一种服务器,所述服务器用于执行如第一方面所述的方法。其有益效果不再赘述。
[0015]第三方面,本申请实施例提供一种服务器集群,包括管理节点和多个计算节点队列,所述管理节点用于执行如第一方面所述的方法。
[0016]第四方面,本申请提供一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。
[0017]第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被计算机执行时实现第一方面中任一项所述的方法。第六方面,本申请实施例提供一种算机程序产品,包括计算机程序,所述计算机程序被计算机执行时实现第一方面中任一项所述的方法。
附图说明
[0018]为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0019]下面对实施例或现有技术描述中所需使用的附图作简单地介绍。
[0020]图1为本申请实施例提供的一种多个计算节点队列的结构示意图;
[0021]图2为本申请实施例提供的一种服务器集群的结构示意图;
[0022]图3为本申请实施例提供的作业调度方法的流程图;
[0023]图4为本申请实施例1提供的一种作业调度方法的示意图;
[0024]图5为本申请实施例提供的一种作业调度的装置;
[0025]图6是本申请实施例提供的作业调度的系统的示意图;
[0026]图7为本申请提供的一种电子设备示意图;
[0027]图8为本申请实施例提供的一种电子设备集群示意图;
[0028]图9为本申请提供的一种电子设备集群可能的实现方式示意图。
具体实施方式
[0029]为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。
[0030]在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
[0031]在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种作业调度方法,其特征在于,所述方法包括:获取待调度作业;在所述待调度作业中存在自动调度参数的情况下,查询多个计算节点队列的队列资源情况,并基于所述队列资源情况,从多个计算节点队列中选取到目标队列;将所述待调度作业分配到所述目标队列。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取已分配到计算节点队列中的作业的排队时长;在排队时长达到时间阈值的情况下,则为所述作业重新分配目标队列。3.根据权利要求1所述的方法,其特征在于,所述在所述待调度作业中存在自动调度参数的情况下,查询多个计算节点队列的队列资源情况,并基于所述队列资源情况,从多个计算节点队列中选取到目标队列,包括:在所述待调度作业中存在自动调度参数的情况下,解析得到所述待调度作业的资源请求,并查询多个计算节点队列的队列资源情况;基于所述队列资源情况和所述资源请求,从多个所述计算节点中选取到目标队列。4.根据权利要求3所述的方法,其特征在于,所述资源请求包括所述待调度作业需要的CPU的个数和/或节点个数。5.根据权利要求3所述的方法,其特征在于,所述待调度作业包括权限要求,所述目标队列为满足所述待调度作业的资源请求和权限要求的计算节点队列。6.根据权利要求3

...

【专利技术属性】
技术研发人员:吴祥智
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1