System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种GPU计算资源调度方法、装置、设备及存储介质制造方法及图纸_技高网

一种GPU计算资源调度方法、装置、设备及存储介质制造方法及图纸

技术编号:40821547 阅读:3 留言:0更新日期:2024-04-01 14:41
本申请涉及一种GPU计算资源调度方法、装置、设备及存储介质,其中,GPU计算资源调度方法包括:调度器获取集群计算资源信息,并根据所述集群计算资源信息按照公平原则对任务进行全局资源调度;调度器实时监控集群状态,并根据所述集群状态自适应调整资源分配参数。本申请能够有效提升GPU计算资源利用率。

【技术实现步骤摘要】

本申请涉及集群计算资源,尤其涉及一种gpu计算资源调度方法、装置、设备及存储介质。


技术介绍

1、随着深度学习技术的发展,gpu等计算资源的需求越来越多,在算力集群中gpu计算资源十分宝贵,而通用的资源调度策略是为每个任务单独分配一张gpu计算卡。更进一步的调度方式先采用gpu虚拟化技术将gpu进行容器层面的虚拟化,在调度时采用共享模式人工进行gpu资源分配。现有通用k8s集群在进行gpu计算资源调度时,没有针对任务特性进行优化,导致集群资源利用率低下。因此,传统的计算资源调度方法都不能将计算卡最大化利用,容易造成计算资源的浪费。

2、因此,专利技术人提供了一种gpu计算资源调度方法、装置、设备及存储介质。


技术实现思路

1、(1)要解决的技术问题

2、本申请实施例提供了一种gpu计算资源调度方法、装置、设备及存储介质,要解决的技术问题是:传统的计算资源调度方法不能将计算卡最大化利用,容易造成计算资源的浪费。

3、(2)技术方案

4、第一方面,本申请实施例提供了一种gpu计算资源调度方法,包括:

5、调度器获取集群计算资源信息,并根据所述集群计算资源信息按照公平原则对任务进行全局资源调度;

6、调度器实时监控集群状态,并根据所述集群状态自适应调整资源分配参数。

7、在其中一个实施例中,所述调度器获取集群计算资源信息,并根据所述集群计算资源信息按照公平原则对任务进行全局资源调度,包括:

8、调度器获取集群计算资源信息,并将所述集群计算资源信息发送至任务队列;

9、所述任务队列根据所述集群计算资源信息对每个任务进行资源预分配,得到初始分配方案;

10、所述调度器根据所述初始分配方案,按照公平原则对任务进行全局资源调度。

11、在其中一个实施例中,所述任务队列根据所述集群计算资源信息对每个任务进行资源预分配,得到初始分配方案,包括:

12、所述任务队列根据所述集群计算资源信息,按照计算任务所需的数据分片以及数据分片所在的存储节点对每个任务进行资源预分配,得到初始分配方案。

13、在其中一个实施例中,所述调度器根据所述初始分配方案,按照公平原则对任务进行全局资源调度,包括:

14、调度器获取任务以及所述任务所需的资源调度表,计算完成所述任务的全部作业所需的计算资源消耗代价,输出能够使所述任务调度成功且代价最小的一组任务与gpu资源的映射。

15、在其中一个实施例中,所述调度器根据所述初始分配方案,按照公平原则对任务进行全局资源调度之后,还包括:

16、对于每个调度的任务,判断资源是否可用,若不可用则任务队列重新对任务进行资源分配。

17、在其中一个实施例中,所述调度器实时监控集群状态,并根据所述集群状态自适应调整资源分配参数,包括:

18、调度器实时监控集群状态,若资源利用率低于预设值,暂停全部任务并自适应调整资源分配参数;

19、重启任务,在任务暂停的中断点进行续算。

20、在其中一个实施例中,所述调度器实时监控集群状态,若资源利用率低于预设值,暂停全部任务并自适应调整资源分配参数之后,还包括:

21、判断新的资源参数下任务能否进行调度,能则重启任务,否则重新调整资源分配参数。

22、第二方面,本申请实施例提供了一种gpu计算资源调度装置,包括:

23、全局调度模块,用于调度器获取集群计算资源信息,并根据所述集群计算资源信息按照公平原则对任务进行全局资源调度;

24、参数调整模块,用于调度器实时监控集群状态,并根据所述集群状态自适应调整资源分配参数。

25、第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述的gpu计算资源调度方法。

26、第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述的gpu计算资源调度方法。

27、(3)有益效果

28、本申请的上述技术方案具有如下优点:

29、本申请实施例第一方面提供的gpu计算资源调度方法,采用了二阶段调度,第一阶段保证在调度最多任务的情况下计算资源利用率达到最大,第二阶段可根据任务特点自适应调整参数进行资源智能调度,从而达到有效提升gpu计算资源利用率的效果。

30、可以理解的是,上述第二方面、第三方面和第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

本文档来自技高网...

【技术保护点】

1.一种GPU计算资源调度方法,其特征在于,包括:

2.如权利要求1所述的GPU计算资源调度方法,其特征在于,所述调度器获取集群计算资源信息,并根据所述集群计算资源信息按照公平原则对任务进行全局资源调度,包括:

3.如权利要求2所述的GPU计算资源调度方法,其特征在于,所述任务队列根据所述集群计算资源信息对每个任务进行资源预分配,得到初始分配方案,包括:

4.如权利要求2所述的GPU计算资源调度方法,其特征在于,所述调度器根据所述初始分配方案,按照公平原则对任务进行全局资源调度,包括:

5.如权利要求2所述的GPU计算资源调度方法,其特征在于,所述调度器根据所述初始分配方案,按照公平原则对任务进行全局资源调度之后,还包括:

6.如权利要求1所述的GPU计算资源调度方法,其特征在于,所述调度器实时监控集群状态,并根据所述集群状态自适应调整资源分配参数,包括:

7.如权利要求1所述的GPU计算资源调度方法,其特征在于,所述调度器实时监控集群状态,若资源利用率低于预设值,暂停全部任务并自适应调整资源分配参数之后,还包括:

8.一种GPU计算资源调度装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的GPU计算资源调度方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的GPU计算资源调度方法。

...

【技术特征摘要】

1.一种gpu计算资源调度方法,其特征在于,包括:

2.如权利要求1所述的gpu计算资源调度方法,其特征在于,所述调度器获取集群计算资源信息,并根据所述集群计算资源信息按照公平原则对任务进行全局资源调度,包括:

3.如权利要求2所述的gpu计算资源调度方法,其特征在于,所述任务队列根据所述集群计算资源信息对每个任务进行资源预分配,得到初始分配方案,包括:

4.如权利要求2所述的gpu计算资源调度方法,其特征在于,所述调度器根据所述初始分配方案,按照公平原则对任务进行全局资源调度,包括:

5.如权利要求2所述的gpu计算资源调度方法,其特征在于,所述调度器根据所述初始分配方案,按照公平原则对任务进行全局资源调度之后,还包括:

6.如权利要求1所述的gpu计算资...

【专利技术属性】
技术研发人员:骆训浩王振杰刘俊涛王元斌周博
申请(专利权)人:中船智海创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1