【技术实现步骤摘要】
本专利技术属于计算机学科中的高性能计算、资源调度和深度强化学习,涉及一种高性能计算集群资源的自动分配方法及系统,具体涉及一种基于tr-dqn的高性能计算集群资源调度方法及系统。
技术介绍
1、高性能计算是计算机科学领域的重要分支,其通过研究集群架构、并行算法和相关软件基础,实现了超越传统计算机的强大性能。高性能计算集群整合了高度并行的计算能力和大容量存储能力,能够高效处理大规模、高维度的数据,并迅速解决复杂问题。该技术在各个领域都有广泛应用,包括大规模科学计算、ai大模型训练、dna测序、计算机建模仿真等。
2、深度强化学习作为一种集成了深度学习与强化学习的技术,具备对环境动态调整的优势和深度学习强大的感知能力,能够处理复杂且高维度的环境特征,自主学习并优化决策策略,使智能体能够在不断变化的环境中做出精准的决策。
3、高性能计算集群由多个高性能计算节点组成,集群通常以异构形式存在,这意味这在集群中包含多种类型的计算节点,如nvidia gpu节点,fpga节点和cpu节点等。这些节点可以根据各个任务的需求进行灵活
...【技术保护点】
1.一种基于TR-DQN的高性能计算集群资源调度方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于TR-DQN的高性能计算集群资源调度方法,其特征在于,所述优先级rankn计算公式为:
3.根据权利要求1所述的基于TR-DQN的高性能计算集群资源调度方法,其特征在于:步骤3中所述处理集群的节点信息和任务信息,是将收集的节点信息和任务信息转化为TR-DQN模型所需要的形式;其中,节点信息编码为[1,2]向量,包含节点的可用性,节点的资源情况;任务信息编码为[2,2]向量,包含任务大小、任务预计运行时间、优先级和任务排队时间。
< ...【技术特征摘要】
1.一种基于tr-dqn的高性能计算集群资源调度方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于tr-dqn的高性能计算集群资源调度方法,其特征在于,所述优先级rankn计算公式为:
3.根据权利要求1所述的基于tr-dqn的高性能计算集群资源调度方法,其特征在于:步骤3中所述处理集群的节点信息和任务信息,是将收集的节点信息和任务信息转化为tr-dqn模型所需要的形式;其中,节点信息编码为[1,2]向量,包含节点的可用性,节点的资源情况;任务信息编码为[2,2]向量,包含任务大小、任务预计运行时间、优先级和任务排队时间。
4.根据权利要求1所述的基于tr-dqn的高性能计算集群资源调度方法,其特征在于:步骤4中所述tr-dqn模型,由两级神经网络和深度强化学习组成,其中两级神经网络为深度强化学习的智能体部分;在tr-dqn模型中,状态s的定义为由p个节点信息向量和q个任务信息向量拼接起来的向量,动作a的定义为哪些作业被选中进行作业执行,包括立即执行、保留执行和回填执行;所述两级神经网络由第一级神经网络和第二级神经网络组成,第一级神经网络和第二级神经网络均由顺序连接的卷积层、两个全连接层和输出层组成;第一级神经网络的输入大小为[2*w+n,2],其中w是窗口大小,n是该集群中节点的总数,输入向量包含了作业和节点的状态信息,输出是[w,1]的向量,表示每个作业被选中的概率;第一级神经网络用于判断就绪任务和预留任务,当所选择的任务为预留任务时将移...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。