一种基于Kubernetes的GPU资源调度方法及系统技术方案

技术编号:45905680 阅读:23 留言:0更新日期:2025-07-22 21:30
本发明专利技术公开了一种基于Kubernetes的GPU资源调度方法及系统,属于云原生及算力调度技术领域,该方法基于Kubernetes容器集群管理技术,通过在集群内各GPU节点安装GPU驱动,nvidia‑dockerruntime以及nvidia‑device‑plugin插件,实现GPU信息上报与统计及GPU资源调度。本发明专利技术通过引入Kubernetes集群管理技术和GPU原生插件工具,实现在Kubernetes集群中的GPU资源调度。通过Kubernetes集群中快速部署应用实现对GPU资源的高效调度和管理,满足复杂应用场景下对计算资源的需求。

【技术实现步骤摘要】

本专利技术涉及云原生及算力调度,具体地说是一种基于kubernetes的gpu资源调度方法及系统。


技术介绍

1、随着云计算、人工智能、大数据等技术的迅速发展,gpu作为重要的计算资源,在深度学习、高性能计算等领域得到了广泛应用。然而,传统的计算资源调度方法在面对gpu资源时,往往存在资源利用率低、调度策略单一等问题。因此,如何高效调度和管理gpu资源,成为当前亟待解决的技术难题。

2、kubernetes(简称k8s)是google在2014年6月开源的一个容器集群管理系统,使用go语言开发,用于管理云平台中多个主机上的容器化的应用,kubernetes的目标是让部署容器化的应用简单并且高效,kubernetes提供了资源调度、部署管理、服务发现、扩容缩容、监控,维护等一整套功能,努力成为跨主机集群的自动部署、扩展以及运行应用程序容器的平台。然而,kubernetes原生的调度器主要基于资源分配的静态信息进行决策,可能无法充分利用gpu资源,特别是在多任务共享同一gpu时。


技术实现思路

1、本本文档来自技高网...

【技术保护点】

1.一种基于Kubernetes的GPU资源调度方法,其特征在于,该方法基于Kubernetes容器集群管理技术,通过在集群内各GPU节点安装GPU驱动,nvidia-dockerruntime以及nvidia-device-plugin插件,实现GPU信息上报与统计及GPU资源调度;该方法的实现包括以下步骤:

2.根据权利要求1所述的一种基于Kubernetes的GPU资源调度方法,其特征在于,所述步骤2),GPU设备插件通过远程过程调用将GPU信息发送给Kubernetes API Server。

3.根据权利要求1所述的一种基于Kubernetes的GPU资...

【技术特征摘要】

1.一种基于kubernetes的gpu资源调度方法,其特征在于,该方法基于kubernetes容器集群管理技术,通过在集群内各gpu节点安装gpu驱动,nvidia-dockerruntime以及nvidia-device-plugin插件,实现gpu信息上报与统计及gpu资源调度;该方法的实现包括以下步骤:

2.根据权利要求1所述的一种基于kubernetes的gpu资源调度方法,其特征在于,所述步骤2),gpu设备插件通过远程过程调用将gpu信息发送给kubernetes api server。

3.根据权利要求1所述的一种基于kubernetes的gpu资源调度方法,其特征在于,所述gpu设备的详细信息包括显卡名、显卡id、显存大小。

4.根据权利要求1所述的一种基于kubernetes的gpu资源调度方法,其特征在于,所述步骤4),通过指定resources.limits.nvidia.com/gpu:<数量>来请求特定数量的gpu资源。

5.根...

【专利技术属性】
技术研发人员:刘志远
申请(专利权)人:浪潮通信信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1