一种基于TR-DQN的高性能计算集群资源调度方法及系统技术方案

技术编号：40470690 阅读：6 留言：0更新日期：2024-02-26 19:08

本发明专利技术公开了一种基于TR‑DQN的高性能计算集群资源调度方法及系统，首先用户提交任务请求，所有请求进入等待队列等待调度；然后计算提交任务的优先级，并对等待队列进行重排序；接着收集和处理集群的节点信息和任务信息，将处理后的数据输入至TR‑DQN模型进行调度；最后任务调度完成之后进入对应节点运行。TR‑DQN模型将高性能计算集群调度的特点结合到深度强化学习中，并引入两级神经网络结构，第一级神经网络用于选择立即执行或预留执行的任务，第二级神经网络用于选择用于回填的任务，可以提高集群的资源利用率、减少任务的等待时间，并能快速适应集群负载环境的变化，此外，还能最大限度地减少集群的工作饥饿问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机学科中的高性能计算、资源调度和深度强化学习，涉及一种高性能计算集群资源的自动分配方法及系统，具体涉及一种基于tr-dqn的高性能计算集群资源调度方法及系统。

技术介绍

1、高性能计算是计算机科学领域的重要分支，其通过研究集群架构、并行算法和相关软件基础，实现了超越传统计算机的强大性能。高性能计算集群整合了高度并行的计算能力和大容量存储能力，能够高效处理大规模、高维度的数据，并迅速解决复杂问题。该技术在各个领域都有广泛应用，包括大规模科学计算、ai大模型训练、dna测序、计算机建模仿真等。

2、深度强化学习作为一种集成了深度学习与强化学习的技术，具备对环境动态调整的优势和深度学习强大的感知能力，能够处理复杂且高维度的环境特征，自主学习并优化决策策略，使智能体能够在不断变化的环境中做出精准的决策。

3、高性能计算集群由多个高性能计算节点组成，集群通常以异构形式存在，这意味这在集群中包含多种类型的计算节点，如nvidia gpu节点，fpga节点和cpu节点等。这些节点可以根据各个任务的需求进行灵活的组合，以满足任务的要求。高性能计算集群通过充分利用这些节点的处理能力和计算能力，能够有效地处理大量的数据和计算任务。同时，高性能计算集群中的节点通过高速网络进行连接，实现了高效的数据传输和通信，从而实现了大规模的并行计算能力。

4、资源调度是一种为任务分配计算资源的方法，其中计算资源包括cpu、内存、gpu等。在资源调度过程中，需要综合考虑任务的优先级、集群的负载均衡以及任务对资源的

5、传统的基于启发式的调度算法仅能进行静态调度，无法适应集群状态和节点动态变化的需求；传统的基于深度学习或强化学习的调度算法，一方面在解决工作饥饿问题上存在困难，另一方面需要较长的时间和大量的计算资源进行训练，同时性能也存在不稳定的问题。这些限制对于实际部署的可行性造成了一定影响。

技术实现思路

1、为了解决上述技术问题，本专利技术提供了一种基于tr-dqn的高性能计算集群资源调度方法及系统。

2、本专利技术的方法所采用的技术方案是：一种基于tr-dqn的高性能计算集群资源调度方法，包括以下步骤：

3、步骤1：用户提交任务请求，所有请求进入等待队列等待调度；

4、步骤2：计算提交任务的优先级，并对等待队列进行重排序；

5、步骤3：收集和处理集群的节点信息和任务信息；

6、步骤4：将处理后的数据输入至tr-dqn模型进行调度；

7、所述tr-dqn模型，由两级神经网络和深度强化学习组成，利用窗口访问等待队列，每次读取一个窗口的任务后根据集群的节点信息和任务信息进行调度，其中窗口的大小为w，表示窗口包含w个任务；其中，所述两级神经网络，用于选择任务并判断任务的类别，包括就绪任务、预留任务和回填任务；

8、步骤5：任务调度完成之后进入对应节点运行。

9、作为优选，所述优先级rankn计算公式为：

10、rankn＝w1*ln+w2*tn+w3*sn；

11、其中，ln表示第n个任务的长度，tn表示第n个任务的等待时间，sn表示第n个任务的截止时间，w1,w2,w3表示权重。

12、作为优选，步骤3中所述处理集群的节点信息和任务信息，是将收集的节点信息和任务信息转化为tr-dqn模型所需要的形式；其中，节点信息编码为[1,2]向量，包含节点的可用性，节点的资源情况；任务信息编码为[2,2]向量，包含任务大小、任务预计运行时间、优先级和任务排队时间；然后将p个节点信息向量和q个任务信息向量拼接起来作为状态s。

13、作为优选，步骤4中，步骤4中所述tr-dqn模型，由两级神经网络和深度强化学习组成，其中两级神经网络为深度强化学习的智能体部分；在tr-dqn模型中，状态s的定义为由p个节点信息向量和q个任务信息向量拼接起来的向量，动作a的定义为哪些作业被选中进行作业执行，包括立即执行、保留执行和回填执行；所述两级神经网络由第一级神经网络和第二级神经网络组成，第一级神经网络和第二级神经网络均由顺序连接的卷积层、两个全连接层和输出层组成；第一级神经网络的输入大小为[2*w+n,2]，其中w是窗口大小，n是集群中节点的总数，输入向量包含了作业和节点的状态信息，输出是[w,1]的向量，表示每个作业被选中的概率；第一级神经网络用于判断就绪任务和预留任务，当所选择的任务为预留任务时将移动到第二级神经网络；第二级神经网络的输入大小为[2+n,2]，其中n是集群中节点的总数，输出[1,1]向量，表示给定窗口中一个任务的q值；第二级神经网络用于识别回填任务，直到没有更多的候选任务可用于回填时，就移动到第一级神经网络。

14、作为优选，所述就绪任务，指节点的数量大于或等于任务大小，则该任务可以立即执行；所述预留任务，指选择的任务的大小大于可用节点的数量，则该任务被选择为在最早的预留时间开始执行；所述回填任务，指选择任务在预留时间之前填补空缺，即在当前时间和预留时间之间执行。

15、作为优选，所述最早的预留时间，指离当前时间最近的，满足当前被选择的任务的大小小于或等于可用节点的数量的时刻。

16、作为优选，所述tr-dqn模型，为训练好的tr-dqn模型；训练中，采用ε-greedy策略，以ε的概率选择最大q值的动作，以1-ε的概率随机选取一个动作；其中，0≤ε≤1，并且ε随着训练进行以α的速度递减，0<α<1；

17、训练过程中，通过奖励函数对所选取的动作a进行评估，得到奖励r；将输入状态s、动作a、奖励r、下一状态s′组成四元组并作为训练样本放入经验回放缓冲区中；

18、在每一次迭代训练中，tr-dqn模型均通过以下公式计算损失函数：

19、loss＝(rk+γmaxq(sk+1,a)-q(sk,ak))2；

20、其中，q(sk,ak)是在状态sk采取行动ak的预期q值；在采取行动ak后，通过增加即时奖励rk和预期的累积未来奖励计算出更准确的预期q值q(sk+1,ak)，tr-dqn模型通过最小化q(sk+1,ak)和q(sk,ak)之间的差距来学习，即以随机梯度下降的方式更新参数；

21、作为优选，所述奖励函数包括两种；

22、优先处理大型任务并优化资源利用率，其奖励函数为：

23、

24、其中，是任务平均等待时间，tmax为等待队列中最长的等待时间，为任务平均大小，n为系统内任务数，nu为已经占用节点数，gu为已经使用gpu数量，ng为系统内gpu总数；w1、w2、w3、w4为权重，表示对于不同资源在调度中的影响程度；

25、快速的响应时间和较短的等待时间，其奖励函数为：

26、

27、其中j是队列中的任本文档来自技高网...

【技术保护点】

1.一种基于TR-DQN的高性能计算集群资源调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于TR-DQN的高性能计算集群资源调度方法，其特征在于，所述优先级rankn计算公式为：

3.根据权利要求1所述的基于TR-DQN的高性能计算集群资源调度方法，其特征在于：步骤3中所述处理集群的节点信息和任务信息，是将收集的节点信息和任务信息转化为TR-DQN模型所需要的形式；其中，节点信息编码为[1,2]向量，包含节点的可用性，节点的资源情况；任务信息编码为[2,2]向量，包含任务大小、任务预计运行时间、优先级和任务排队时间。

4.根据权利要求1所述的基于TR-DQN的高性能计算集群资源调度方法，其特征在于：步骤4中所述TR-DQN模型，由两级神经网络和深度强化学习组成，其中两级神经网络为深度强化学习的智能体部分；在TR-DQN模型中，状态s的定义为由p个节点信息向量和q个任务信息向量拼接起来的向量，动作a的定义为哪些作业被选中进行作业执行，包括立即执行、保留执行和回填执行；所述两级神经网络由第一级神经网络和第二级神经网络组成，第一级神

5.根据权利要求1所述的基于TR-DQN的高性能计算集群资源调度方法，其特征在于：所述就绪任务，指选择的任务的大小小于或等于可用节点的数量，则该任务可以立即执行；所述预留任务，指选择的任务的大小大于可用节点的数量，则该任务被选择为在最早的预留时间开始执行；所述回填任务，指选择任务在预留时间之前填补空缺，即在当前时间和预留时间之间执行。

6.根据权利要求5所述的基于TR-DQN的高性能计算集群资源调度方法，其特征在于：所述最早的预留时间，指离当前时间最近的，满足当前被选择的任务的大小小于或等于可用节点的数量的时刻。

7.根据权利要求1-6任意一项所述的基于TR-DQN的高性能计算集群资源调度方法，其特征在于：所述TR-DQN模型，为训练好的TR-DQN模型；训练中，采用ε-greedy策略，以ε的概率选择最大Q值的动作，以1-ε的概率随机选取一个动作；其中，0≤ε≤1，并且ε随着训练进行以α的速度递减，0<α<1；

8.根据权利要求7所述的基于TR-DQN的高性能计算集群资源调度方法，其特征在于：所述奖励函数包括两种；

9.一种基于TR-DQN的高性能计算集群资源调度系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于tr-dqn的高性能计算集群资源调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于tr-dqn的高性能计算集群资源调度方法，其特征在于，所述优先级rankn计算公式为：

3.根据权利要求1所述的基于tr-dqn的高性能计算集群资源调度方法，其特征在于：步骤3中所述处理集群的节点信息和任务信息，是将收集的节点信息和任务信息转化为tr-dqn模型所需要的形式；其中，节点信息编码为[1,2]向量，包含节点的可用性，节点的资源情况；任务信息编码为[2,2]向量，包含任务大小、任务预计运行时间、优先级和任务排队时间。

4.根据权利要求1所述的基于tr-dqn的高性能计算集群资源调度方法，其特征在于：步骤4中所述tr-dqn模型，由两级神经网络和深度强化学习组成，其中两级神经网络为深度强化学习的智能体部分；在tr-dqn模型中，状态s的定义为由p个节点信息向量和q个任务信息向量拼接起来的向量，动作a的定义为哪些作业被选中进行作业执行，包括立即执行、保留执行和回填执行；所述两级神经网络由第一级神经网络和第二级神经网络组成，第一级神经网络和第二级神经网络均由顺序连接的卷积层、两个全连接层和输出层组成；第一级神经网络的输入大小为[2*w+n,2]，其中w是窗口大小，n是该集群中节点的总数，输入向量包含了作业和节点的状态信息，输出是[w,1]的向量，表示每个作业被选中的概率；第一级神经网络用于判断就绪任务和预留任务，当所选择的任务为预留任务时将移...

【专利技术属性】
技术研发人员：刘金硕，陈志彬，王欣盛，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人