共享GPU的资源调度方法及装置制造方法及图纸

技术编号：35101025 阅读：19 留言：0更新日期：2022-10-01 17:07

本发明专利技术提供一种共享GPU的资源调度方法及装置，所述方法包括：将GPU添加到Kubernetes中；在Kubernetes中部署GPU扩展调度器，基于GPU扩展调度器获取GPU显存资源总量信息；基于Kubernetes中每个运行节点所需的GPU显存资源和GPU显存资源总量信息，通过GPU扩展调度器确定GPU分配结果；确定Kubernetes中具有共享GPU需求的运行节点，并确定GPU共享资源；调用Kubernetes，在具有共享GPU需求的运行节点上构建pod，基于GPU分配结果，在pod中下发GPU共享资源。本发明专利技术通过零侵入式架构设计方法实现GPU显存的共享调度，提高GPU的资源利用率。提高GPU的资源利用率。提高GPU的资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】
共享GPU的资源调度方法及装置

[0001]本专利技术涉及计算机
，尤其涉及一种共享GPU的资源调度方法及装置。

技术介绍

[0002]以容器为应用运行载体的Kubernetes平台目前在人工智能(AI，Artificial Intelligence)和机器学习领域得到了广泛应用。在机器学习领域，为了用海量数据训练更好的模型，并加速整个内容分发流程，企业的IT系统需要具备快速和高效调用管理大规模图形处理器(GPU，Graphics Processing Unit)资源的能力。同时，由于算力资源十分昂贵，出于成本控制，也需要最大化GPU的资源利用率。
[0003]为了提高GPU硬件资源的利用率，需要在单张显卡上运行多个容器，并在多个容器间隔离GPU应用。Kubernetes原生支持容器请求GPU资源，但是一个GPU只能分配给一个容器，多个容器之间不能共享GPU。GPU不能共享，算力不能切分，导致GPU资源的浪费。
[0004]因此，如何隔离GPU显存和算力，实现GPU显存的共享调度，提高GPU的资源利用率，成为业界亟需解决的问题。

技术实现思路

[0005]针对现有技术存在的问题，本专利技术提供一种共享GPU的资源调度方法方法及装置。
[0006]第一方面，本专利技术提供一种共享GPU的资源调度方法，包括：
[0007]将图形处理器GPU添加到Kubernetes集群中；
[0008]在所述Kubernetes集群中部署GPU扩展调度器，并基于所述GPU扩展...

【技术保护点】

【技术特征摘要】
1.一种共享GPU的资源调度方法，其特征在于，包括：将图形处理器GPU添加到Kubernetes集群中；在所述Kubernetes集群中部署GPU扩展调度器，并基于所述GPU扩展调度器，获取GPU显存资源总量信息；获取Kubernetes集群中每个运行节点所需的GPU显存资源，并基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息，通过所述GPU扩展调度器确定GPU分配结果；确定所述Kubernetes集群中具有共享GPU需求的运行节点，并确定GPU共享资源；调用所述Kubernetes集群，在所述具有共享GPU需求的运行节点上构建容器组pod，并基于所述GPU分配结果，在所述容器组pod中下发所述GPU共享资源。2.根据权利要求1所述的共享GPU的资源调度方法，其特征在于，在所述Kubernetes集群中部署GPU扩展调度器，包括：在所述Kubernetes集群的原始调度器上部署GPU共享调度插件和GPU设备插件。3.根据权利要求2所述的共享GPU的资源调度方法，其特征在于，基于所述GPU扩展调度器，获取GPU显存资源总量信息，包括：控制所述GPU设备插件向kubelet组件上报GPU显存资源总量信息；控制所述kubelet组件将所述GPU显存资源总量信息上报至集群接口服务器Kubernetes API Server；向所述Kubernetes API Server获取所述GPU显存资源总量信息。4.根据权利要求2所述的共享GPU的资源调度方法，其特征在于，基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息，通过所述GPU扩展调度器确定GPU分配结果，包括：基于所述每个运行节点所需的GPU显存资源和所述GPU显存资源总量信息，控制所述GPU共享调度插件对GPU进行条件过滤，获取所述GPU分配结果。5.根据权利要求3所述的共享GPU的资源调度方法，其特征在于，基于所述GPU分配结果，在所述容器组pod中下发所述GPU共享资源，包括：基于所述GPU分配结果...

【专利技术属性】
技术研发人员：孙浩，
申请(专利权)人：浪潮通信技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人