当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于TR-DQN的高性能计算集群资源调度方法及系统技术方案

技术编号:40470690 阅读:19 留言:0更新日期:2024-02-26 19:08
本发明专利技术公开了一种基于TR‑DQN的高性能计算集群资源调度方法及系统,首先用户提交任务请求,所有请求进入等待队列等待调度;然后计算提交任务的优先级,并对等待队列进行重排序;接着收集和处理集群的节点信息和任务信息,将处理后的数据输入至TR‑DQN模型进行调度;最后任务调度完成之后进入对应节点运行。TR‑DQN模型将高性能计算集群调度的特点结合到深度强化学习中,并引入两级神经网络结构,第一级神经网络用于选择立即执行或预留执行的任务,第二级神经网络用于选择用于回填的任务,可以提高集群的资源利用率、减少任务的等待时间,并能快速适应集群负载环境的变化,此外,还能最大限度地减少集群的工作饥饿问题。

【技术实现步骤摘要】

本专利技术属于计算机学科中的高性能计算、资源调度和深度强化学习,涉及一种高性能计算集群资源的自动分配方法及系统,具体涉及一种基于tr-dqn的高性能计算集群资源调度方法及系统。


技术介绍

1、高性能计算是计算机科学领域的重要分支,其通过研究集群架构、并行算法和相关软件基础,实现了超越传统计算机的强大性能。高性能计算集群整合了高度并行的计算能力和大容量存储能力,能够高效处理大规模、高维度的数据,并迅速解决复杂问题。该技术在各个领域都有广泛应用,包括大规模科学计算、ai大模型训练、dna测序、计算机建模仿真等。

2、深度强化学习作为一种集成了深度学习与强化学习的技术,具备对环境动态调整的优势和深度学习强大的感知能力,能够处理复杂且高维度的环境特征,自主学习并优化决策策略,使智能体能够在不断变化的环境中做出精准的决策。

3、高性能计算集群由多个高性能计算节点组成,集群通常以异构形式存在,这意味这在集群中包含多种类型的计算节点,如nvidia gpu节点,fpga节点和cpu节点等。这些节点可以根据各个任务的需求进行灵活的组合,以满足任务的本文档来自技高网...

【技术保护点】

1.一种基于TR-DQN的高性能计算集群资源调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于TR-DQN的高性能计算集群资源调度方法,其特征在于,所述优先级rankn计算公式为:

3.根据权利要求1所述的基于TR-DQN的高性能计算集群资源调度方法,其特征在于:步骤3中所述处理集群的节点信息和任务信息,是将收集的节点信息和任务信息转化为TR-DQN模型所需要的形式;其中,节点信息编码为[1,2]向量,包含节点的可用性,节点的资源情况;任务信息编码为[2,2]向量,包含任务大小、任务预计运行时间、优先级和任务排队时间。

<p>4.根据权利要求...

【技术特征摘要】

1.一种基于tr-dqn的高性能计算集群资源调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于tr-dqn的高性能计算集群资源调度方法,其特征在于,所述优先级rankn计算公式为:

3.根据权利要求1所述的基于tr-dqn的高性能计算集群资源调度方法,其特征在于:步骤3中所述处理集群的节点信息和任务信息,是将收集的节点信息和任务信息转化为tr-dqn模型所需要的形式;其中,节点信息编码为[1,2]向量,包含节点的可用性,节点的资源情况;任务信息编码为[2,2]向量,包含任务大小、任务预计运行时间、优先级和任务排队时间。

4.根据权利要求1所述的基于tr-dqn的高性能计算集群资源调度方法,其特征在于:步骤4中所述tr-dqn模型,由两级神经网络和深度强化学习组成,其中两级神经网络为深度强化学习的智能体部分;在tr-dqn模型中,状态s的定义为由p个节点信息向量和q个任务信息向量拼接起来的向量,动作a的定义为哪些作业被选中进行作业执行,包括立即执行、保留执行和回填执行;所述两级神经网络由第一级神经网络和第二级神经网络组成,第一级神经网络和第二级神经网络均由顺序连接的卷积层、两个全连接层和输出层组成;第一级神经网络的输入大小为[2*w+n,2],其中w是窗口大小,n是该集群中节点的总数,输入向量包含了作业和节点的状态信息,输出是[w,1]的向量,表示每个作业被选中的概率;第一级神经网络用于判断就绪任务和预留任务,当所选择的任务为预留任务时将移...

【专利技术属性】
技术研发人员:刘金硕陈志彬王欣盛
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1