一种基于GPU拓扑结构的容器调度方法、装置、介质及设备制造方法及图纸

技术编号:42788353 阅读:12 留言:0更新日期:2024-09-21 00:46
本发明专利技术公开了一种基于GPU拓扑结构的容器调度方法、装置、介质及设备,其中的方法首先接收容器发起的虚拟GPU使用请求,并从集群中获取所有节点的虚拟GPU分配信息和物理GPU之间的拓扑信息;然后根据所述节点的虚拟GPU分配信息与所述虚拟GPU资源申请量之间的关系,筛选出空闲虚拟GPU资源能够满足虚拟GPU使用请求的节点,接着根据可调度节点中的物理GPU之间的拓扑信息筛选出目标计算节点;最后将目标容器绑定至所述目标计算节点,并将所述目标计算节点中的各个空闲虚拟GPU资源挂载至所述目标容器中。本发明专利技术可以实现更精准的分配资源,充分挥多卡GPU之间的数据交换性能,从而提升GPU的整体性能和使用率。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种基于gpu拓扑结构的容器调度方法、装置、介质及设备。


技术介绍

1、随着深度学习技术的发展,出现了各种类型的深度学习模型,模型在各行各业的应用也越来越广泛。如果需要模型取得好的效果,除了数据和算法两个要素外,强大的算力也是必不可少的。但目前主流的 gpu 比较昂贵,并且一般情况下独占卡的模式会对 gpu这种宝贵的计算资源造成浪费,即不同用户对模型的理解深度不同,导致申请了独立的卡却没有把资源用满。因此,为了解决上述问题,通过 gpu 共享的虚拟化技术来提高资源利用率也逐渐成为当下的研究热点。

2、现有技术中采用的基于gpu 共享的虚拟化技术中,基于gpu拓扑结构的容器调度方法,依赖于经典的轮询和binpack(装箱调度)调度策略,该策略未充分发掘和利用gpu内部的拓扑结构优势,这种局限性导致gpu的资源分配时,无法充分使用到这种优势,导致多vgpu(虚拟gpu,每个vgpu在不同的gpu上)之间数据交换效率相对较低,未充分发挥出gpu的性能,降低了gpu的使用率。


技术实现思路

1、针对现有技术中存在的gpu的性能和使用率不高的技术问题,本专利技术提出了一种基于gpu拓扑结构的容器调度方法、装置、介质及设备。

2、本专利技术采用的技术方案如下:

3、第一方面提供了一种基于gpu拓扑结构的容器调度方法,包括:

4、接收容器发起的虚拟gpu使用请求,所述虚拟gpu使用请求包括虚拟gpu资源申请量;

5、从集群中获取所有节点的虚拟gpu分配信息和物理gpu之间的拓扑信息;

6、根据所述节点的虚拟gpu分配信息与所述虚拟gpu资源申请量之间的关系,筛选出空闲虚拟gpu资源能够满足虚拟gpu使用请求的节点,作为可调度节点;

7、根据可调度节点中的物理gpu之间的拓扑信息从所述可调度节点中筛选出目标计算节点,将目标容器绑定至所述目标计算节点,其中,所述目标容器为发起所述虚拟gpu使用请求的容器;

8、将所述绑定至目标容器的目标计算节点的物理gpu按照使用请求挂载到所述目标容器,以对所述目标容器进行调度。

9、在一种实施方式中,节点的虚拟gpu分配信息包括节点上所有物理gpu的分配信息,所述根据所述节点的虚拟gpu分配信息与所述虚拟gpu资源申请量之间的关系,筛选出空闲虚拟gpu资源能够满足虚拟gpu使用请求的节点,包括:

10、根据节点上所有物理gpu的分配信息与虚拟gpu资源申请量,筛选出空闲虚拟gpu资源能够满足虚拟gpu使用请求的物理gpu;

11、根据所述筛选出的空闲虚拟gpu资源能够满足虚拟gpu使用请求的物理gpu的数量与虚拟gpu申请量之间的关系,筛选出可调度节点。

12、在一种实施方式中,所述根据节点上所有物理gpu的分配信息与虚拟gpu资源申请量,筛选出空闲虚拟gpu资源能够满足虚拟gpu使用请求的物理gpu,包括:

13、根据节点上所有物理gpu的分配信息,获取物理gpu的空闲虚拟gpu量;

14、根据所述物理gpu的空闲虚拟gpu量是否大于或等于所述虚拟gpu资源申请量、物理gpu类型与虚拟gpu申请类型是否匹配,筛选出所述节点上空闲虚拟gpu资源能够满足虚拟gpu使用请求的物理gpu。

15、在一种实施方式中,所述根据所述筛选出的空闲虚拟gpu资源能够满足虚拟gpu使用请求的物理gpu的数量与虚拟gpu申请量之间的关系,筛选出可调度节点,包括:

16、对一个节点上包含的满足虚拟gpu使用请求的物理gpu数量进行统计;

17、判断一个节点上满足虚拟gpu使用请求的物理gpu的总数量是否大于或等于虚拟gpu申请量,如果是,则将所述节点作为可调度节点,否则,所述节点为不可调度节点。

18、在一种实施方式中,容器所请求的虚拟gpu资源包括虚拟gpu申请量、显存申请量、算力申请量,gpu申请类型物理gpu的空闲虚拟gpu量包括物理gpu上的剩余虚拟gpu量、剩余显存、剩余算力,所述根据所述物理gpu的空闲虚拟gpu量是否大于或等于所述虚拟gpu资源申请量、物理gpu类型与虚拟gpu申请类型是否匹配,筛选出所述节点上空闲虚拟gpu资源能够满足虚拟gpu使用请求的物理gpu,包括:

19、判断所述物理gpu上的剩余虚拟gpu量是否大于等于所述虚拟gpu申请量、物理gpu上的剩余显存是否大于等于所述显存申请量、物理gpu上的剩余算力是否大于等于所述算力申请量;如果均大于或等于,则判断物理gpu的类型与虚拟gpu申请类型是否匹配,如果匹配,则将所述物理gpu作为节点上满足虚拟gpu使用请求的物理gpu。

20、在一种实施方式中,所述根据可调度节点中的物理gpu之间的拓扑信息筛选出目标计算节点,包括:

21、根据所述虚拟gpu申请量对所述可调度节点上的空闲虚拟gpu剩余量能够满足虚拟gpu使用请求的物理gpu进行分组,并根据分组后的物理gpu之间的拓扑信息对每个分组进行打分,筛选出得分最高的分组作为所述可调度节点的得分;

22、根据可调度节点的得分,从所有可调度节点中筛选出得分最高的节点作为目标计算节点。

23、在一种实施方式中,物理gpu之间的拓扑信息包括物理gpu之间的连接方式,所述根据所述虚拟gpu申请量对所述可调度节点上的空闲虚拟gpu剩余量能够满足虚拟gpu使用请求的物理gpu进行分组,并根据分组后的物理gpu之间的拓扑信息对每个分组进行打分,包括:

24、以所述虚拟gpu申请量作为分组内物理gpu数量,对能够满足虚拟gpu使用请求的物理gpu进行分组;

25、根据物理gpu之间连接方式的类型设置对应的分值;

26、根据两个物理gpu之间的连接方式和设置的分值,对分组内的两个物理gpu进行打分,分组内所有两两物理gpu得分之和作为所述分组的得分。

27、基于同样的专利技术构思,本专利技术第二面提供了一种基于gpu拓扑结构的容器调度方法装置,包括:

28、虚拟gpu使用请求接收模块,用于接收容器发起的虚拟gpu使用请求,所述虚拟gpu使用请求包括虚拟gpu资源申请量;

29、分配信息和拓扑信息获取模块,用于从集群中获取所有节点的虚拟gpu分配信息和物理gpu之间的拓扑信息;

30、可调度节点筛选模块,用于根据所述节点的虚拟gpu分配信息与所述虚拟gpu资源申请量之间的关系,筛选出空闲虚拟gpu资源能够满足虚拟gpu使用请求的节点,作为可调度节点;

31、目标计算节点筛选模块,用于根据可调度节点中的物理gpu之间的拓扑信息从所述可调度节点中筛选出目标计算节点,将目标容器绑定至所述目标计算节点,其中,所述目标容器为发起所述虚拟gpu使用请求的容器;

32、调度模块,用于将所述绑定至目标容器的目标计算节点的物理gpu按照使用本文档来自技高网...

【技术保护点】

1.一种基于GPU拓扑结构的容器调度方法,其特征在于,包括:

2.如权利要求1所述的基于GPU拓扑结构的容器调度方法,其特征在于,节点的虚拟GPU分配信息包括节点上所有物理GPU的分配信息。

3.如权利要求2所述的基于GPU拓扑结构的容器调度方法,其特征在于,所述根据所述节点的虚拟GPU分配信息与所述虚拟GPU资源申请量之间的关系,筛选出空闲虚拟GPU资源能够满足虚拟GPU使用请求的节点,包括:

4.如权利要求3所述的基于GPU拓扑结构的容器调度方法,其特征在于,所述根据节点上所有物理GPU的分配信息与虚拟GPU资源申请量,筛选出空闲虚拟GPU资源能够满足虚拟GPU使用请求的物理GPU,包括:

5.如权利要求3所述的基于GPU拓扑结构的容器调度方法,其特征在于,所述根据所述筛选出的空闲虚拟GPU资源能够满足虚拟GPU使用请求的物理GPU的数量与虚拟GPU申请量之间的关系,筛选出可调度节点,包括:

6.如权利要求2所述的基于GPU拓扑结构的容器调度方法,其特征在于,所述根据可调度节点中的物理GPU之间的拓扑信息筛选出目标计算节点,包括:

7.如权利要求6所述的基于GPU拓扑结构的容器调度方法,其特征在于,物理GPU之间的拓扑信息包括物理GPU之间的连接方式。

8.如权利要求7所述的基于GPU拓扑结构的容器调度方法,其特征在于,所述根据所述虚拟GPU申请量对所述可调度节点上的空闲虚拟GPU剩余量能够满足虚拟GPU使用请求的物理GPU进行分组,并根据分组后的物理GPU之间的拓扑信息对每个分组进行打分,包括:

9.一种基于GPU拓扑结构的容器调度装置,其特征在于,包括:

10.一种非易失性存储介质,其特征在于,所述非易失性存储介质存储有多条指令,所述指令适于由处理器加载并执行权利要求1至8中任意一项所述的基于GPU拓扑结构的容器调度方法。

11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被配置为运行所述计算机程序以执行权利要求1至8任意一项所述的基于GPU拓扑结构的容器调度方法。

...

【技术特征摘要】

1.一种基于gpu拓扑结构的容器调度方法,其特征在于,包括:

2.如权利要求1所述的基于gpu拓扑结构的容器调度方法,其特征在于,节点的虚拟gpu分配信息包括节点上所有物理gpu的分配信息。

3.如权利要求2所述的基于gpu拓扑结构的容器调度方法,其特征在于,所述根据所述节点的虚拟gpu分配信息与所述虚拟gpu资源申请量之间的关系,筛选出空闲虚拟gpu资源能够满足虚拟gpu使用请求的节点,包括:

4.如权利要求3所述的基于gpu拓扑结构的容器调度方法,其特征在于,所述根据节点上所有物理gpu的分配信息与虚拟gpu资源申请量,筛选出空闲虚拟gpu资源能够满足虚拟gpu使用请求的物理gpu,包括:

5.如权利要求3所述的基于gpu拓扑结构的容器调度方法,其特征在于,所述根据所述筛选出的空闲虚拟gpu资源能够满足虚拟gpu使用请求的物理gpu的数量与虚拟gpu申请量之间的关系,筛选出可调度节点,包括:

6.如权利要求2所述的基于gpu拓扑结构的容器调度方法,其特征在...

【专利技术属性】
技术研发人员:胡卓刘鹏王金桥
申请(专利权)人:武汉人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1