一种基于超算的作业调度优化系统及方法技术方案

技术编号:35914159 阅读:10 留言:0更新日期:2022-12-10 10:55
本发明专利技术提供一种基于超算的作业调度优化系统及方法,涉及计算机高性能计算技术领域,该作业调度优化系统通过调度缓存服务器获取并缓存调度系统中当前所有用户的等待作业数量;以及通过作业缓存服务器接收用户提交的作业,将该作业加入到该用户的作业缓存队列的队尾;从调度缓存服务器中获取该用户的等待作业数量,若等待作业数量小于或等于预设的数量阈值,则将作业缓存队列的作业进行排序后依次提交至调度系统,直到该用户的作业缓存数量大于数量阈值,停止提交作业。这样,在超算集群用户规模增大,且作业数量增多的情况下,可以减少调度系统的访问次数,提高其稳定性。提高其稳定性。提高其稳定性。

【技术实现步骤摘要】
一种基于超算的作业调度优化系统及方法


[0001]本专利技术属于计算机高性能计算
,尤其涉及一种基于超算的作业调度优化系统及方法。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]随着高性能计算技术的发展,超算集群的作业调度已经成为超算日常运行中一个十分重要的组成部分。在超算集群的作业调度过程中,用户提交作业给调度系统,由调度系统对超算集群的资源进行分配调度。
[0004]为使超算集群调度稳定运行,目前较为常见的方法是通过调度系统来限制每个用户提交的最大作业数量,以保证调度能够在一定数量的作业中稳定运行。这种方案的局限性在于,随着超算集群用户规模的增大,作业数量也越来越多,这样对调度系统的访问次数不断增多,使得调度系统本身的状态越来越不稳定,从而影响超算集群资源的分配效率。

技术实现思路

[0005]为了解决上述问题,本专利技术提供一种基于超算的作业调度优化系统及方法,以在超算集群用户规模增大,且作业数量增多的情况下,尽可能地减少对调度系统的访问次数,提高调度系统的稳定性。
[0006]为了实现上述目的,本专利技术主要包括以下几个方面:
[0007]第一方面,本专利技术实施例提供一种基于超算的作业调度优化系统,包括调度系统和超算集群,所述调度系统用于对超算集群的资源进行分配调度,还包括:调度缓存服务器和作业缓存服务器;
[0008]所述调度缓存服务器用于获取并缓存调度系统中当前所有用户的等待作业数量;
[0009]所述作业缓存服务器用于接收用户提交的作业,将该作业加入到该用户的作业缓存队列的队尾;从所述调度缓存服务器中获取该用户的等待作业数量,若所述等待作业数量小于或等于预设的数量阈值,则将所述作业缓存队列的作业进行排序后依次提交至调度系统,直到该用户的作业缓存数量大于所述数量阈值,停止提交作业。
[0010]在一种可能的实施方式中,所述作业缓存服务器具体用于针对作业缓存队列的每一个作业,计算作业使用的总进程数与作业排队等待时间的乘积,将该乘积与初始权重的和值确定为作业的权重,将所述作业缓存队列的作业按照所述权重进行排序。
[0011]在一种可能的实施方式中,所述作业缓存服务器在判定该用户的等待作业数量大于数量阈值时,对接收到的作业进行缓存。
[0012]在一种可能的实施方式中,所述调度系统在接收到用户的作业缓存队列时,向所述调度缓存服务器发送更新用户等待作业数量的通知。
[0013]在一种可能的实施方式中,所述调度系统在用户提交的作业完成时,向所述调度
缓存服务器发送更新用户等待作业数量的通知。
[0014]在一种可能的实施方式中,当所述调度缓存服务器获取并缓存用户的等待作业数量时,向所述作业缓存服务器发送缓存服务通知。
[0015]第二方面,本专利技术实施例提供一种基于超算的作业调度优化方法,包括:
[0016]获取并缓存调度系统中当前所有用户的等待作业数量;
[0017]接收用户提交的作业,将该作业加入到该用户的作业缓存队列的队尾;获取该用户的等待作业数量,若所述等待作业数量小于或等于预设的数量阈值,则将所述作业缓存队列的作业进行排序后依次提交至调度系统,直到该用户的作业缓存数量大于所述数量阈值,停止提交作业。
[0018]在一种可能的实施方式中,判定该用户的等待作业数量大于数量阈值时,对接收到的作业进行缓存。
[0019]第三方面,本专利技术实施例提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第二方面和第二方面任一种可能的实施方式中所述的基于超算的作业调度优化方法的步骤。
[0020]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述第二方面和第二方面任一种可能的实施方式中所述的基于超算的作业调度优化方法的步骤。
[0021]以上一个或多个技术方案存在以下有益效果:
[0022]本专利技术所提供的作业调度优化系统,通过调度缓存服务器获取并缓存调度系统中当前所有用户的等待作业数量;以及通过作业缓存服务器接收用户提交的作业,将该作业加入到该用户的作业缓存队列的队尾;从所述调度缓存服务器中获取该用户的等待作业数量,若所述等待作业数量小于或等于预设的数量阈值,则将所述作业缓存队列的作业进行排序后依次提交至调度系统,直到该用户的作业缓存数量大于所述数量阈值,停止提交作业。这样,在超算集群用户规模增大,且作业数量增多的情况下,减少调度系统的访问次数,提高调度系统的稳定性。
[0023]并且根据作业使用的总进程数、作业排队等待时间和用户设置的初始权重,确定作业缓存队列中作业的权重,根据作业的权重调整提交到调度系统的先后顺序,可以满足用户的需求,提高用户的体验度。
附图说明
[0024]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0025]图1是本专利技术实施例一所提供的基于超算的作业调度优化系统的结构示意图;
[0026]图2是本专利技术实施例一所提供的基于超算的作业调度优化方法的流程示意图。
具体实施方式
[0027]下面结合附图与实施例对本专利技术作进一步说明。
[0028]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另
有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0029]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0030]实施例一
[0031]超算集群通常是使用多个超级计算中心处理器或者物理计算机组成的计算系统和环境,调度系统是一种分布式资源管理和调度系统,调度系统通过特定的算法,从外存的作业队列中选取某些作业调入内存,并为它们创建进程、分配资源。为使超算集群调度稳定运行,现阶段通常限制每个用户提交的最大作业数量,但是随着超算集群用户规模的增大以及作业数量的增多,对调度系统的访问次数也不断增多,使得调度系统本身的状态越来越不稳定,影响超算集群资源的分配效率。
[0032]基于此,本专利技术实施例提供一种基于超算的作业调度优化系统,通过对用户提交的作业进行缓存,在用户的等待作业数量小于或等于预设的数量阈值时,对作业缓存队列进行排序并依次提交至调度系统,这样可以尽可能地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于超算的作业调度优化系统,包括调度系统和超算集群,所述调度系统用于对超算集群的资源进行分配调度,其特征在于,还包括:调度缓存服务器和作业缓存服务器;所述调度缓存服务器用于获取并缓存调度系统中当前所有用户的等待作业数量;所述作业缓存服务器用于接收用户提交的作业,将该作业加入到该用户的作业缓存队列的队尾;从所述调度缓存服务器中获取该用户的等待作业数量,若所述等待作业数量小于或等于预设的数量阈值,则将所述作业缓存队列的作业进行排序后依次提交至调度系统,直到该用户的作业缓存数量大于所述数量阈值,停止提交作业。2.如权利要求1所述的基于超算的作业调度优化系统,其特征在于,所述作业缓存服务器具体用于针对作业缓存队列的每一个作业,计算作业使用的总进程数与作业排队等待时间的乘积,将该乘积与初始权重的和值确定为作业的权重,将所述作业缓存队列的作业按照所述权重进行排序。3.如权利要求1所述的基于超算的作业调度优化系统,其特征在于,所述作业缓存服务器在判定该用户的等待作业数量大于数量阈值时,对接收到的作业进行缓存。4.如权利要求1所述的基于超算的作业调度优化系统,其特征在于,所述调度系统在接收到用户的作业缓存队列时,向所述调度缓存服务器发送更新用户等待作业数量的通知。5.如权利要求1所述的基于超算的作业调度优化系统,其特征在于,所述调度系统在用户提...

【专利技术属性】
技术研发人员:涂阳韩昊李国庆
申请(专利权)人:济南超级计算中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1