System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于强化学习和任务感知随机游走的深度学习任务调度方法和系统技术方案_技高网
当前位置: 首页 > 专利查询>北京大学专利>正文

基于强化学习和任务感知随机游走的深度学习任务调度方法和系统技术方案

技术编号:41328471 阅读:5 留言:0更新日期:2024-05-13 15:06
本发明专利技术涉及一种基于强化学习和任务感知随机游走的深度学习任务调度方法和系统。该方法包括:生成任务序列;定序智能体接收任务序列中的任务状态作为输入,输出任务的调度优先级;定位智能体接收集群的状态作为输入,采用任务感知的随机游走算法为每个任务输出机器节点的放置优先级;所述定序智能体和所述定位智能体是采用强化学习算法训练得到的智能体,所述定序智能体和所述定位智能体之间进行信息共享和交互;根据定序智能体和定位智能体的输出决策对任务序列中的任务进行调度。本发明专利技术通过对两个智能体之间进行信息共享和交互,综合考虑了任务特点和集群的拓扑结构和状态信息,可以协助进行定序和定位决策。

【技术实现步骤摘要】

本专利技术涉及计算机软件,具体为一种基于强化学习和任务感知随机游走的深度学习任务调度方法和系统


技术介绍

1、目前,随着移动网络、智能终端的快速普及,海量的数据正在源源不断的产生。另一方面,得益于深度学习算法和硬件设备的快速迭代发展,多种类型、不同规模的深度学习任务在计算集群上进行训练和推理。为了模型的快速训练迭代并最终服务于用户,如何加快深度学习任务在计算集群上的完成时间关系着用户的体验和公司的商业利润。

2、目前,工业界和学术界设计了一系列针对计算集群的资源管理模块,对等待计算的深度学习任务进行统一调度和资源管理。对于深度学习任务,可供调度的资源包括gpu、cpu、内存、硬盘和网络带宽等。不同于传统的分布式计算任务,深度学习任务,尤其是近年来日益兴起的大规模预训练模型对gpu的要求较高,并且训练和推理的速度主要取决于gpu机器的计算性能和通信拓扑结构,而gpu机器存在着价格、功耗相对于其他计算资源更为昂贵的限制,因此如何对深度学习任务进行有效的调度管理以尽可能缩短计算时间并最大化资源利用率在近年来成为一个关注的热点。

3、在一个计算集群上,对在线提交的任务进行调度和资源分配可抽象为在线装箱问题,其为np难的问题。采用组合优化算法,包括分支定界法、动态规划、线性规划等方法可对其进行求解,然而通常需要遍历所有组合情况,计算复杂度较高。构造法则将在线装箱问题分解为“定序规则”和“定位规则”两个使用启发式规则的子问题来进行求解,其中定序规则是指对任务进行调度排序,包括常见的先进先出、最短任务优先等方法;定位规则是指对机器节点进行任务放置,包括最先匹配、最佳匹配等启发式规则。虽然启发式算法由于其速度快的优点广泛运用到各种资源调度框架中,但其难以满足在不同情况下的调度需求,不能根据任务、集群的状态变化进行自适应调整。元启发式方法包括遗传算法、模拟退火方法,它们可以解决高维度空间、非线性优化的问题,但是由于其收敛速度慢、容易陷入局部最优点的缺点难以被广泛使用。近年来,随着深度强化学习在游戏、自动驾驶、推荐系统等序列决策场景中取得的优异效果,已有研究学者采用强化学习对计算任务进行资源调度和管理。然而,这些基于强化学习的调度算法大多只针对定序规则或者定位规则进行智能体建模,没有协同考虑两部分策略的协作性质;另一方面,不同的深度学习任务对gpu的通信拓扑结构敏感度不同,一个有效的调度算法需要综合考虑任务特征和集群拓扑特征进行任务放置。

4、综上,传统启发式、元启发式算法对环境适应能力差、调试困难;基于强化学习的方法则存在没有同时考虑定序和定位策略之间的协作,以及集群的拓扑状态信息等问题。


技术实现思路

1、为解决以上问题,本专利技术提供一种基于强化学习和任务可感知随机游走的集群资源调度方法和系统。本专利技术提出一种基于多智能体强化学习的方法分别建模定序规则和定位规则,另外提出一种任务可感知的基于随机游走的机器节点排序算法,通过对两个智能体之间进行信息共享和交互,综合考虑了任务特点和集群的拓扑结构和状态信息,可以协助进行定序和定位决策。

2、本专利技术采用的技术方案如下:

3、一种基于强化学习和任务感知随机游走的深度学习任务调度方法,包括以下步骤:

4、生成任务序列;

5、定序智能体接收任务序列中的任务状态作为输入,输出任务的调度优先级;

6、定位智能体接收集群的状态作为输入,采用任务感知的随机游走算法为每个任务输出机器节点的放置优先级;

7、所述定序智能体和所述定位智能体是采用强化学习算法训练得到的智能体,所述定序智能体和所述定位智能体之间进行信息共享和交互;

8、根据定序智能体和定位智能体的输出决策对任务序列中的任务进行调度。

9、进一步地,所述任务序列中的每条任务数据包括运行实例数量、申请gpu数量、申请cpu数量、申请内存数量、提交用户、提交时间,作为任务的观测向量。

10、进一步地,所述定序智能体接收任务序列中的任务状态作为输入,输出任务的调度优先级,包括:

11、定序智能体使用线性层和激活函数对n个待调度任务抽取深层的维度为d的任务特征sj;

12、将任务特征sj作为查询query和值value,将机器节点特征sn作为键值key,并通过自注意力神经网络将机器节点特征融合进新的任务表示

13、对新的任务表示使用伸缩点积注意力计算任务之间的相对关系pj,然后经过线性层和激活函数计算每个待调度任务的定序得分,也即定序智能体的动作决策aj。

14、进一步地,所述新的任务表示和所述相对关系pj采用下式计算:

15、

16、

17、进一步地,所述任务感知的随机游走算法包括:

18、定位智能体对于集群中的m台机器,使用线性层和激活函数抽取机器节点的深层的维度为d的机器节点特征sn;

19、根据每个任务得到任务感知的机器节点表示

20、根据通过使用径向基函数得到对于每个任务的每个机器节点之间的相关性p;

21、对p进行随机游走达到马尔科夫稳态,从而得到对于每个任务的机器节点重要性得分。

22、进一步地,所述任务感知的机器节点表示和所述相关性p采用下式计算:

23、

24、其中,f(a,b)代表对于张量a扩展第b个维度;

25、

26、进一步地,所述定序智能体和定位智能体的训练过程包括:

27、使用定序智能体和定位智能体的输出决策对任务进行调度,等待任务完成并得到奖励值,即平均任务完成时间;

28、对以上决策和调度过程不断重复,得到一系列轨迹,并保存到重放缓冲区中;

29、根据重放缓冲区中的数据,使用maddpg算法对智能体进行优化,其中智能体的网络权重使用策略梯度的方式进行优化,中心化价值网络使用时序差分的方式进行优化。

30、一种基于强化学习和任务感知随机游走的深度学习任务调度系统,包括定序智能体和定位智能体;定序智能体接收任务序列中的任务状态作为输入,输出任务的调度优先级;定位智能体接收集群的状态作为输入,采用任务感知的随机游走算法为每个任务输出机器节点的放置优先级;所述定序智能体和所述定位智能体是采用强化学习算法训练得到的智能体,所述定序智能体和所述定位智能体之间进行信息共享和交互;根据定序智能体和定位智能体的输出决策对任务序列中的任务进行调度。

31、同现有方法相比,本专利技术的积极效果为:

32、本专利技术提出了一种基于多智能体强化学习和任务可感知随机游走的深度学习任务调度方法,可以在定序和定位决策时综合考虑任务和集群的状态信息,其中在定位决策时,进一步考虑了由于不同任务特性对机器节点的不同影响程度,因此提出了任务可感知的随机游走算法,可以针对每个任务计算特定的机器节点匹配得分。本方法由于采用强化学习算法进行策略训练,对不同的任务特征、集群拓本文档来自技高网...

【技术保护点】

1.一种基于强化学习和任务感知随机游走的深度学习任务调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述任务序列中的每条任务数据包括运行实例数量、申请GPU数量、申请CPU数量、申请内存数量、提交用户、提交时间,作为任务的观测向量。

3.根据权利要求1所述的方法,其特征在于,所述定序智能体接收任务序列中的任务状态作为输入,输出任务的调度优先级,包括:

4.根据权利要求3所述的方法,其特征在于,所述新的任务表示和所述相对关系pj采用下式计算:

5.根据权利要求4所述的方法,其特征在于,所述任务感知的随机游走算法包括:

6.根据权利要求5所述的方法,其特征在于,所述任务感知的机器节点表示和所述相关性P采用下式计算:

7.根据权利要求1所述的方法,其特征在于,所述定序智能体和定位智能体的训练过程包括:

8.一种基于强化学习和任务感知随机游走的深度学习任务调度系统,其特征在于,包括定序智能体和定位智能体;定序智能体接收任务序列中的任务状态作为输入,输出任务的调度优先级;定位智能体接收集群的状态作为输入,采用任务感知的随机游走算法为每个任务输出机器节点的放置优先级;所述定序智能体和所述定位智能体是采用强化学习算法训练得到的智能体,所述定序智能体和所述定位智能体之间进行信息共享和交互;根据定序智能体和定位智能体的输出决策对任务序列中的任务进行调度。

9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于强化学习和任务感知随机游走的深度学习任务调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述任务序列中的每条任务数据包括运行实例数量、申请gpu数量、申请cpu数量、申请内存数量、提交用户、提交时间,作为任务的观测向量。

3.根据权利要求1所述的方法,其特征在于,所述定序智能体接收任务序列中的任务状态作为输入,输出任务的调度优先级,包括:

4.根据权利要求3所述的方法,其特征在于,所述新的任务表示和所述相对关系pj采用下式计算:

5.根据权利要求4所述的方法,其特征在于,所述任务感知的随机游走算法包括:

6.根据权利要求5所述的方法,其特征在于,所述任务感知的机器节点表示和所述相关性p采用下式计算:

7.根据权利要求1所述的方法,其特征在于,所述定序智能体和定位智能体的训练过程包括:

【专利技术属性】
技术研发人员:邢铭哲肖臻
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1