一种基于强化学习的作业调度方法、装置及设备制造方法及图纸

技术编号：33968067 阅读：24 留言：0更新日期：2022-06-30 01:51

本申请提供一种基于强化学习的作业调度方法、装置及设备，管理节点将不同作业的作业信息输入到深度神经网络，得到作业调度策略和各作业相关联的计算节点队列；按照作业调度策略和计算节点队列调度运行各作业，并依据各作业的调度运行情况，确定用于评估所述深度神经网络的评估参数，依据评估参数和针对各作业已设置的预期参数，更新深度神经网络中的模型参数，以使得对作业调度策略进行调整。可见，应用本实施例提供的技术方案能够根据用户配置的预期参数对作业调度策略进行自适应调整，无需用户耗费冗长的时间选择调度策略，使得既能够自适应性调整作业调度策略，又能够提高作业调度效率。度效率。度效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的作业调度方法、装置及设备

[0001]本申请涉及计算机
，尤其涉及一种基于强化学习的作业调度方法、装置及设备。

技术介绍

[0002]随着计算机技术的飞速发展，高性能计算技术应运而生，高性能计算技术的核心是资源管理和作业调度，部署在高性计算能平台的管理节点还部署有为作业提供调度策略的Slurm（Simple Linux Utility for Resource Management）作业调度系统，管理节点依据Slurm作业调度系统确定的作业执行顺序将作业提交至高性能计算平台的计算节点中。
[0003]在实际应用中，Slurm作业调度系统拥有默认的调度策略，用户依据各作业的作业优先级、作业负载等属性配置调度策略参数，从而更为合理利用高性能计算平台中计算节点的硬件资源，手动为作业分配与作业相关的计算节点队列，优化已分配作业所属计算机节点队列中各作业的执行顺序。但是，计算节点队列的选择和该Slurm作业调度系统的调度策略参数均需要用户手动配置，然而手动配置高度依赖用户经验，无法对配置结果进行量化，这样的作业调度有时不但不能起到优化的作用，甚至会对高性能计算平台的运行带来负面的影响。同时，这些调度策略参数产生的调度结果不明晰，没有调度结果分析报告，用户并不知道现有资源参数配置好后作业队列是否能对高性能计算平台中的硬件资源进行合理的利用及优化，一旦提交新的作业或者Slurm作业调度系统发生变化，针对作业的配置参数又需要被重新配置，耗费大量的时间。

技术实现思路

[0004]有鉴于...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的作业调度方法，其特征在于，该方法应用于服务器集群中的管理节点，所述服务器集群还包括用于运行作业的至少一个计算节点，所述方法包括：将不同作业的作业信息输入到深度神经网络，得到作业调度策略和各作业相关联的计算节点队列；所述作业调度策略用于调度运行所述不同作业，任一作业相关联的计算节点队列中的至少一个计算节点用于运行该作业；按照所述作业调度策略和各作业相关联的计算节点队列调度运行各作业，并依据各作业的调度运行情况，确定用于评估所述深度神经网络的评估参数；依据所述评估参数和针对所述各作业已设置的预期参数，更新所述深度神经网络中的模型参数，以使得对作业调度策略进行调整。2.根据权利要求1所述的方法，其特征在于，所述作业信息包括不同作业属性下的属性数据；所述将不同作业的作业信息输入到深度神经网络包括：通过PCA算法，对不同作业属性下的属性数据进行线性降维，得到目标作业数据；将所述目标作业数据输入到深度神经网络。3.根据权利要求1所述的方法，其特征在于，所述评估参数为所有作业的平均延迟时间；所述预期参数为目标延迟时间；依据所述评估参数和针对所述各作业已设置的预期参数，确定所述更新所述深度神经网络中的模型参数之前，所述方法还包括：根据所述平均延迟时间和所述目标延迟时间，确定所述平均延迟时间和所述目标延迟时间之间的偏差值；若所述偏差值大于或等于阈值，则更新所述深度神经网络中的模型参数。4.根据权利要求1所述的方法，其特征在于，所述深度神经网络包括节点权重；所述将不同作业的作业信息输入到深度神经网络，得到作业调度策略和各作业相关联的计算节点队列，具体包括：将不同作业的作业信息输入到深度神经网络，以由所述深度神经网络根据节点权重并经过激活函数softmax确定所述作业调度策略和各作业相关联的计算节点队列；所述更新所述深度神经网络中的模型参数包括：更新深度神经网络中的节点权重。5.根据权利要求 2所述的方法，其特征在于，所述属性数据包括以下属性中的任一组合：属于一个作业中的每个任务所需使用的CPU数量、作业运行在各计算节点时所需使用的GPU数量、提交作业时申请内存的大小、各作业需要的计算节点数量、各作业被赋予的优先级、任务数量、任务组数、表征需要优先提交作业的标识。6.一种基于强化学习的作业调度装置，其特征在于，该装置应用于服务器集群中的管理节点，所述服务器集群还包括用于运行作业的至少一个计算节点，所述装置包括：策略和队列得到...

【专利技术属性】
技术研发人员：黄慧娟，吴华运，陈拓，范嘉烨，
申请(专利权)人：新华三人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人