一种基于强化学习的作业调度方法、装置及设备制造方法及图纸

技术编号:33968067 阅读:24 留言:0更新日期:2022-06-30 01:51
本申请提供一种基于强化学习的作业调度方法、装置及设备,管理节点将不同作业的作业信息输入到深度神经网络,得到作业调度策略和各作业相关联的计算节点队列;按照作业调度策略和计算节点队列调度运行各作业,并依据各作业的调度运行情况,确定用于评估所述深度神经网络的评估参数,依据评估参数和针对各作业已设置的预期参数,更新深度神经网络中的模型参数,以使得对作业调度策略进行调整。可见,应用本实施例提供的技术方案能够根据用户配置的预期参数对作业调度策略进行自适应调整,无需用户耗费冗长的时间选择调度策略,使得既能够自适应性调整作业调度策略,又能够提高作业调度效率。度效率。度效率。

【技术实现步骤摘要】
一种基于强化学习的作业调度方法、装置及设备


[0001]本申请涉及计算机
,尤其涉及一种基于强化学习的作业调度方法、装置及设备。

技术介绍

[0002]随着计算机技术的飞速发展,高性能计算技术应运而生,高性能计算技术的核心是资源管理和作业调度,部署在高性计算能平台的管理节点还部署有为作业提供调度策略的Slurm(Simple Linux Utility for Resource Management)作业调度系统,管理节点依据Slurm作业调度系统确定的作业执行顺序将作业提交至高性能计算平台的计算节点中。
[0003]在实际应用中,Slurm作业调度系统拥有默认的调度策略,用户依据各作业的作业优先级、作业负载等属性配置调度策略参数,从而更为合理利用高性能计算平台中计算节点的硬件资源,手动为作业分配与作业相关的计算节点队列,优化已分配作业所属计算机节点队列中各作业的执行顺序。但是,计算节点队列的选择和该Slurm作业调度系统的调度策略参数均需要用户手动配置,然而手动配置高度依赖用户经验,无法对配置结果进行量化,这样的作业调度有时不但不能起到优化的作用,甚至会对高性能计算平台的运行带来负面的影响。同时,这些调度策略参数产生的调度结果不明晰,没有调度结果分析报告,用户并不知道现有资源参数配置好后作业队列是否能对高性能计算平台中的硬件资源进行合理的利用及优化,一旦提交新的作业或者Slurm作业调度系统发生变化,针对作业的配置参数又需要被重新配置,耗费大量的时间。

技术实现思路

[0004]有鉴于此,本申请提供一种基于强化学习的作业调度方法、装置及设备,以在能够自适应性调整作业调度策略的同时,还能够提高作业调度效率。
[0005]第一方面,本申请实施例一种基于强化学习的作业调度方法,该方法应用于服务器集群中的管理节点,所述服务器集群还包括用于运行作业的至少一个计算节点,所述方法包括:将不同作业的作业信息输入到深度神经网络,得到作业调度策略和各作业相关联的计算节点队列;所述作业调度策略用于调度运行所述不同作业,任一作业相关联的计算节点队列中的至少一个计算节点用于运行该作业;按照所述作业调度策略和各作业相关联的计算节点队列调度运行各作业,并依据各作业的调度运行情况,确定用于评估所述深度神经网络的评估参数;依据所述评估参数和针对所述各作业已设置的预期参数,更新所述深度神经网络中的模型参数,以使得对作业调度策略进行调整。
[0006]第二方面,本申请实施例提供一种基于强化学习的作业调度装置,该装置应用于服务器集群中的管理节点,所述服务器集群还包括用于运行作业的至少一个计算节点,所述装置包括:
策略和队列得到单元,用于将不同作业的作业信息输入到深度神经网络,得到作业调度策略和各作业相关联的计算节点队列;所述作业调度策略用于调度运行所述不同作业,任一作业相关联的计算节点队列中的至少一个计算节点用于运行该作业;评估参数确定单元,用于按照所述作业调度策略和各作业相关联的计算节点队列调度运行各作业,并依据各作业的调度运行情况,确定用于评估所述深度神经网络的评估参数;策略更新单元,用于依据所述评估参数和针对所述各作业已设置的预期参数,更新所述深度神经网络中的模型参数,以使得对作业调度策略进行调整。
[0007]由以上技术方案可知,应用本申请实施例,管理节点将不同作业的作业信息输入到深度神经网络,得到作业调度策略和各作业相关联的计算节点队列;按照作业调度策略和各作业相关联的计算节点队列调度运行各作业,并依据各作业的调度运行情况,确定用于评估所述深度神经网络的评估参数,依据评估参数和针对各作业已设置的预期参数,更新深度神经网络中的模型参数,以使得对作业调度策略进行调整。可见,应用本实施例提供的技术方案在对不同作业进行调度时,不再需要有经验的工作人员参与配置各作业对应的作业调动策略参数,而是通过将不同作业的作业信息输入到深度神经网络中自动输出作业调度策略和各作业相关联的计算节点队列,且在经评估确定深度神经网络确定的调度策略不合理时,则会通过调整深度神经网络的模型参数更新深度神经网络,以动态调整后续输入作业的作业调度策略。可见,本实施例提供的技术方案是根据用户配置的预期参数对作业调度策略进行自适应调整,无需用户耗费冗长的时间选择调度策略,使得既能够自适应性调整作业调度策略,又能够提高作业调度效率。
附图说明
[0008]图1为本申请实施例提供的一种基于强化学习的作业调度方法的流程示意图;图2为本申请实施例提供的一种基于深度神经网络进行作业调度的示意图;图3为本申请实施例提供的一种示例性的深度神经网络训练过程的示意图;图4为本申请实施例提供的一种一种基于强化学习的作业调度装置的结构示意图;图5为本申请实施例提供的一种电子设备的硬件结构图。
具体实施方式
[0009]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0010]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0011]应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这
些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0012]随着计算机技术的飞速发展,高性能计算技术应运而生,目前高性能计算平台技术已广泛应用于各大领域,其核心目标就是合理利用高性能计算集群资源完成作业计算任务,部署在高性计算能平台的管理节点还部署有为作业提供调度策略的Slurm作业调度系统,管理节点依据Slurm作业调度系统确定的作业执行顺序将作业提交至高性能计算平台的计算节点中,不难看出,作业的调度顺序、执行优先级和资源配置都极大程度的影响了该高性能计算平台的性能。
[0013]在实际应用中,Slurm作业调度系统拥有默认的调度策略,用户需要在前端页面上选择作业相关联的计算节点队列,并依据与作业相关的计算机节点队列中各作业的作业优先级、作业负载等属性设置Slurm作业调度系统中是否开启回填、是否抢占等调度策略参数,后台Slurm调度系统会根据设置的调度规则执行提交的作业。
[0014]但是,计算节点队列的选择和该Slurm作业调度系统的调度策略参数均需要用户手动配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的作业调度方法,其特征在于,该方法应用于服务器集群中的管理节点,所述服务器集群还包括用于运行作业的至少一个计算节点,所述方法包括:将不同作业的作业信息输入到深度神经网络,得到作业调度策略和各作业相关联的计算节点队列;所述作业调度策略用于调度运行所述不同作业,任一作业相关联的计算节点队列中的至少一个计算节点用于运行该作业;按照所述作业调度策略和各作业相关联的计算节点队列调度运行各作业,并依据各作业的调度运行情况,确定用于评估所述深度神经网络的评估参数;依据所述评估参数和针对所述各作业已设置的预期参数,更新所述深度神经网络中的模型参数,以使得对作业调度策略进行调整。2.根据权利要求1所述的方法,其特征在于,所述作业信息包括不同作业属性下的属性数据;所述将不同作业的作业信息输入到深度神经网络包括:通过PCA算法,对不同作业属性下的属性数据进行线性降维,得到目标作业数据;将所述目标作业数据输入到深度神经网络。3.根据权利要求1所述的方法,其特征在于,所述评估参数为所有作业的平均延迟时间;所述预期参数为目标延迟时间;依据所述评估参数和针对所述各作业已设置的预期参数,确定所述更新所述深度神经网络中的模型参数之前,所述方法还包括:根据所述平均延迟时间和所述目标延迟时间,确定所述平均延迟时间和所述目标延迟时间之间的偏差值;若所述偏差值大于或等于阈值,则更新所述深度神经网络中的模型参数。4.根据权利要求1所述的方法,其特征在于,所述深度神经网络包括节点权重;所述将不同作业的作业信息输入到深度神经网络,得到作业调度策略和各作业相关联的计算节点队列,具体包括:将不同作业的作业信息输入到深度神经网络,以由所述深度神经网络根据节点权重并经过激活函数softmax确定所述作业调度策略和各作业相关联的计算节点队列;所述更新所述深度神经网络中的模型参数包括:更新深度神经网络中的节点权重。5.根据权利要求 2所述的方法,其特征在于,所述属性数据包括以下属性中的任一组合:属于一个作业中的每个任务所需使用的CPU数量、作业运行在各计算节点时所需使用的GPU数量、提交作业时申请内存的大小、各作业需要的计算节点数量、各作业被赋予的优先级、任务数量、任务组数、表征需要优先提交作业的标识。6.一种基于强化学习的作业调度装置,其特征在于,该装置应用于服务器集群中的管理节点,所述服务器集群还包括用于运行作业的至少一个计算节点,所述装置包括:策略和队列得到...

【专利技术属性】
技术研发人员:黄慧娟吴华运陈拓范嘉烨
申请(专利权)人:新华三人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1