共享GPU的资源调度方法及装置制造方法及图纸

技术编号:35101025 阅读:19 留言:0更新日期:2022-10-01 17:07
本发明专利技术提供一种共享GPU的资源调度方法及装置,所述方法包括:将GPU添加到Kubernetes中;在Kubernetes中部署GPU扩展调度器,基于GPU扩展调度器获取GPU显存资源总量信息;基于Kubernetes中每个运行节点所需的GPU显存资源和GPU显存资源总量信息,通过GPU扩展调度器确定GPU分配结果;确定Kubernetes中具有共享GPU需求的运行节点,并确定GPU共享资源;调用Kubernetes,在具有共享GPU需求的运行节点上构建pod,基于GPU分配结果,在pod中下发GPU共享资源。本发明专利技术通过零侵入式架构设计方法实现GPU显存的共享调度,提高GPU的资源利用率。提高GPU的资源利用率。提高GPU的资源利用率。

【技术实现步骤摘要】
共享GPU的资源调度方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种共享GPU的资源调度方法及装置。

技术介绍

[0002]以容器为应用运行载体的Kubernetes平台目前在人工智能(AI,Artificial Intelligence)和机器学习领域得到了广泛应用。在机器学习领域,为了用海量数据训练更好的模型,并加速整个内容分发流程,企业的IT系统需要具备快速和高效调用管理大规模图形处理器(GPU,Graphics Processing Unit)资源的能力。同时,由于算力资源十分昂贵,出于成本控制,也需要最大化GPU的资源利用率。
[0003]为了提高GPU硬件资源的利用率,需要在单张显卡上运行多个容器,并在多个容器间隔离GPU应用。Kubernetes原生支持容器请求GPU资源,但是一个GPU只能分配给一个容器,多个容器之间不能共享GPU。GPU不能共享,算力不能切分,导致GPU资源的浪费。
[0004]因此,如何隔离GPU显存和算力,实现GPU显存的共享调度,提高GPU的资源利用率,成为业界亟需解决的问题。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提供一种共享GPU的资源调度方法方法及装置。
[0006]第一方面,本专利技术提供一种共享GPU的资源调度方法,包括:
[0007]将图形处理器GPU添加到Kubernetes集群中;
[0008]在所述Kubernetes集群中部署GPU扩展调度器,并基于所述GPU扩展调度器,获取GPU显存资源总量信息;
[0009]获取Kubernetes集群中每个运行节点所需的GPU显存资源,并基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息,通过所述GPU扩展调度器确定GPU分配结果;
[0010]确定所述Kubernetes集群中具有共享GPU需求的运行节点,并确定GPU共享资源;
[0011]调用所述Kubernetes集群,在所述具有共享GPU需求的运行节点上构建容器组pod,并基于所述GPU分配结果,在所述容器组pod中下发所述GPU共享资源。
[0012]可选地,根据本专利技术提供的一种共享GPU的资源调度方法,在所述Kubernetes集群中部署GPU扩展调度器,包括:
[0013]在所述Kubernetes集群的原始调度器上部署GPU共享调度插件和GPU设备插件。
[0014]可选地,根据本专利技术提供的一种共享GPU的资源调度方法,基于所述GPU扩展调度器,获取GPU显存资源总量信息,包括:
[0015]控制所述GPU设备插件向kubelet组件上报GPU显存资源总量信息;
[0016]控制所述kubelet组件将所述GPU显存资源总量信息上报至集群接口服务器Kubernetes API Server;
[0017]向所述Kubernetes API Server获取所述GPU显存资源总量信息。
[0018]可选地,根据本专利技术提供的一种共享GPU的资源调度方法,基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息,通过所述GPU扩展调度器确定GPU分配结果,包括:
[0019]基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息,控制所述GPU共享调度插件对GPU进行条件过滤,获取所述GPU分配结果。
[0020]可选地,根据本专利技术提供的一种共享GPU的资源调度方法,基于所述GPU分配结果,在所述容器组pod中下发所述GPU共享资源,包括:
[0021]基于所述GPU分配结果,通过所述GPU共享调度插件绑定所述pod和GPU;
[0022]在确定所述Kubelet组件接收到所述pod和GPU的绑定事件的情况下,控制所述Kubelet组件在所述pod对应的运行节点上创建pod实体,并在所述pod实体中下发所述GPU共享资源。
[0023]可选地,根据本专利技术提供的一种共享GPU的资源调度方法,将图形处理器GPU加入到Kubernetes集群中之前,还包括:
[0024]在所述GPU上安装Nvidia驱动和Nvidia

Docker2组件。
[0025]第二方面,本专利技术还提供一种共享GPU的资源调度装置,包括:
[0026]添加模块,用于将图形处理器GPU添加到Kubernetes集群中;
[0027]部署模块,用于在所述Kubernetes集群中部署GPU扩展调度器,并基于所述GPU扩展调度器,获取GPU显存资源总量信息;
[0028]第一确定模块,用于获取Kubernetes集群中每个运行节点所需的GPU显存资源,并基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息,通过所述GPU扩展调度器确定GPU分配结果;
[0029]第二确定模块,用于确定所述Kubernetes集群中具有共享GPU需求的运行节点,并确定GPU共享资源;
[0030]调用模块,用于调用所述Kubernetes集群,在所述具有共享GPU需求的运行节点上构建容器组pod,并基于所述GPU分配结果,在所述容器组pod中下发所述GPU共享资源。
[0031]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述共享GPU的资源调度方法。
[0032]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述共享GPU的资源调度方法。
[0033]第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述共享GPU的资源调度方法。
[0034]本专利技术提供的共享GPU的资源调度方法及装置,通过在Kubernetes集群的原有调度系统上部署GPU扩展调度器,并基于GPU扩展调度器为Kubernetes集群中的容器调度GPU显存资源,基于零侵入式架构设计方法隔离GPU显存和算力,实现GPU显存的共享调度,提高GPU的资源利用率。
附图说明
[0035]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术
描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本专利技术提供的共享GPU的资源调度方法的流程示意图;
[0037]图2是本专利技术提供的共享GPU的资源调度的架构示意图;
[0038]图3是本专利技术提供的共享GPU的资源调度装置的结构示意图;
[0039]图4是本专利技术提供的电子设备的实体结构示意图。
具体实施方式
[0040]为使本专利技术的目的、技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种共享GPU的资源调度方法,其特征在于,包括:将图形处理器GPU添加到Kubernetes集群中;在所述Kubernetes集群中部署GPU扩展调度器,并基于所述GPU扩展调度器,获取GPU显存资源总量信息;获取Kubernetes集群中每个运行节点所需的GPU显存资源,并基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息,通过所述GPU扩展调度器确定GPU分配结果;确定所述Kubernetes集群中具有共享GPU需求的运行节点,并确定GPU共享资源;调用所述Kubernetes集群,在所述具有共享GPU需求的运行节点上构建容器组pod,并基于所述GPU分配结果,在所述容器组pod中下发所述GPU共享资源。2.根据权利要求1所述的共享GPU的资源调度方法,其特征在于,在所述Kubernetes集群中部署GPU扩展调度器,包括:在所述Kubernetes集群的原始调度器上部署GPU共享调度插件和GPU设备插件。3.根据权利要求2所述的共享GPU的资源调度方法,其特征在于,基于所述GPU扩展调度器,获取GPU显存资源总量信息,包括:控制所述GPU设备插件向kubelet组件上报GPU显存资源总量信息;控制所述kubelet组件将所述GPU显存资源总量信息上报至集群接口服务器Kubernetes API Server;向所述Kubernetes API Server获取所述GPU显存资源总量信息。4.根据权利要求2所述的共享GPU的资源调度方法,其特征在于,基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息,通过所述GPU扩展调度器确定GPU分配结果,包括:基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息,控制所述GPU共享调度插件对GPU进行条件过滤,获取所述GPU分配结果。5.根据权利要求3所述的共享GPU的资源调度方法,其特征在于,基于所述GPU分配结果,在所述容器组pod中下发所述GPU共享资源,包括:基于所述GPU分配结果...

【专利技术属性】
技术研发人员:孙浩
申请(专利权)人:浪潮通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1