GPU制造技术

技术编号:39797206 阅读:6 留言:0更新日期:2023-12-22 02:30
本发明专利技术提供一种

【技术实现步骤摘要】
GPU监控程序的部署方法、监控方法、装置及网络节点


[0001]本专利技术涉及软件开发
,尤其是指一种
GPU
监控程序的部署方法

监控方法

装置及网络节点


技术介绍

[0002]随着人工智能技术的发展,机器学习越来越普及,各个领域都在训练和推理自己的模型

[0003]在进行训练或部署推理模型时,往往会关注系统资源的运行情况,其中对于
CPU、
内存的运行情况,训练模型中的
kubernets
已经提供成熟的监控方案和接口,但对于图形处理器
(graphics processing unit

GPU)
的监控就成了问题,目前各个机器学习的集群中,用的最多的就是英伟达
(nvidia)
系列的
GPU
,英伟达公司提供了原生的
DCGM
软件来进行
GPU
管理,但
DCGM
软件需要在各个节点下载并运行一个
500

MB

docker
镜像,存在大量占用系统资源的问题


技术实现思路

[0004]本专利技术技术方案的目的是提供一种
GPU
监控程序的部署方法

监控方法

装置及网络节点,用于解决现有技术的
GPU
监控方式,存在占用大量系统资源的问题

[0005]本专利技术其中一实施例提供一种图形处理器
GPU
监控程序的部署方法,其中,所述方法包括:
[0006]获取
GPU
监控程序的
docker
镜像文件和在第一节点上运行所述
GPU
监控程序的文件信息;
[0007]根据所述
docker
镜像文件和所述文件信息,生成所述
GPU
监控程序的配置执行文件;
[0008]执行所述配置执行文件的应用命令,通过所述配置执行文件在所述第一节点的目标容器上部署所述
GPU
监控程序

[0009]可选地,所述的部署方法,其中,所述文件信息包括第一节点的
nvidia
库文件的文件位置,和
/
或,用于在所述第一节点获取
GPU
状态信息的命令可执行文件的文件路径

[0010]可选地,所述的部署方法,其中,所述方法还包括:
[0011]获取所述
GPU
监控程序的程序执行文件和
docker
配置文件;
[0012]根据所述程序执行文件和所述
docker
配置文件,生成所述
docker
镜像文件;
[0013]将所述
docker
镜像文件上传并存储至镜像仓库管理服务器

[0014]可选地,所述的部署方法,其中,根据所述
docker
镜像文件和所述文件信息,生成所述
GPU
监控程序的配置执行文件,包括:
[0015]将所述文件信息映射至所述目标容器,获得第一配置部分;
[0016]将所述
GPU
监控程序的镜像设置为上传至所述镜像仓库管理服务器的所述
docker
镜像文件,获得第二配置部分;
[0017]根据所述第一配置部分和所述第二配置部分,生成所述配置执行文件

[0018]可选地,所述的部署方法,其中,通过所述配置执行文件在所述第一节点的目标容器上部署所述
GPU
监控程序,包括:
[0019]通过所述配置执行文件,将所述
docker
镜像文件下载至所述目标容器,以及通过映射获取所述目标容器的所述文件信息

[0020]可选地,所述的部署方法,其中,所述
GPU
监控程序用于根据所述文件信息在所述目标容器的映射,获取
GPU
状态信息,以及,将所述
GPU
状态信息发送至所述第一节点传输的消息队列集群中

[0021]可选地,所述的部署方法,其中,获取在第一节点上运行所述
GPU
监控程序的文件信息,包括:
[0022]通过向所述第一节点发送第一命令,获取所述文件位置;和
/

[0023]通过向所述第一节点发送第二命令,获取所述文件路径

[0024]可选地,所述的部署方法,其中,所述命令可执行文件用于执行
nvidia

smi
命令

[0025]可选地,所述的部署方法,其中,所述方法还包括:
[0026]在监测到第二节点加入所述第一节点所在集群时,在所述第二节点上执行所述配置执行文件,通过所述配置执行文件在所述第二节点的目标容器上部署所述
GPU
监控程序

[0027]本专利技术其中一实施例还提供一种图形处理器
GPU
的监控方法,其中,所述方法包括:
[0028]根据第一节点上运行
GPU
监控程序的文件信息在目标容器的映射,获取
GPU
状态信息;
[0029]将所述
GPU
状态信息发送至所述第一节点传输的消息队列集群中

[0030]可选地,所述的监控方法,其中,所述文件信息包括第一节点的
nvidia
库文件的文件位置,和
/
或,用于在所述第一节点获取
GPU
状态信息的命令可执行文件的文件路径

[0031]可选地,所述的监控方法,其中,所述命令可执行文件用于执行
nvidia

smi
命令

[0032]本专利技术其中一实施例还提供一种图形处理器
GPU
监控程序的部署装置,其中,所述装置包括:
[0033]第一获取模块,用于获取
GPU
监控程序的
docker
镜像文件和在第一节点上运行所述
GPU
监控程序的文件信息;
[0034]文件生成模块,用于根据所述
docker
镜像文件和所述文件信息,生成所述
GPU
监控程序的配置执行文件;
[0035]执行模块,用于执行所述配置执行文件的应用命令,通过所述配置执行文件在所述第一节点的目标容器上部署所述
GPU
监控程序

[0036]本专利技术其中一实施例还提供一种图形处理器...

【技术保护点】

【技术特征摘要】
1.
一种图形处理器
GPU
监控程序的部署方法,其特征在于,所述方法包括:获取
GPU
监控程序的
docker
镜像文件和在第一节点上运行所述
GPU
监控程序的文件信息;根据所述
docker
镜像文件和所述文件信息,生成所述
GPU
监控程序的配置执行文件;执行所述配置执行文件的应用命令,通过所述配置执行文件在所述第一节点的目标容器上部署所述
GPU
监控程序
。2.
根据权利要求1所述的部署方法,其特征在于,所述文件信息包括第一节点的
nvidia
库文件的文件位置,和
/
或,用于在所述第一节点获取
GPU
状态信息的命令可执行文件的文件路径
。3.
根据权利要求1所述的部署方法,其特征在于,所述方法还包括:获取所述
GPU
监控程序的程序执行文件和
docker
配置文件;根据所述程序执行文件和所述
docker
配置文件,生成所述
docker
镜像文件;将所述
docker
镜像文件上传并存储至镜像仓库管理服务器
。4.
根据权利要求3所述的部署方法,其特征在于,根据所述
docker
镜像文件和所述文件信息,生成所述
GPU
监控程序的配置执行文件,包括:将所述文件信息映射至所述目标容器,获得第一配置部分;将所述
GPU
监控程序的镜像设置为上传至所述镜像仓库管理服务器的所述
docker
镜像文件,获得第二配置部分;根据所述第一配置部分和所述第二配置部分,生成所述配置执行文件
。5.
根据权利要求1或2所述的部署方法,其特征在于,通过所述配置执行文件在所述第一节点的目标容器上部署所述
GPU
监控程序,包括:通过所述配置执行文件,将所述
docker
镜像文件下载至所述目标容器,以及通过映射获取所述目标容器的所述文件信息
。6.
根据权利要求1所述的部署方法,其特征在于,所述
GPU
监控程序用于根据所述文件信息在所述目标容器的映射,获取
GPU
状态信息,以及,将所述
GPU
状态信息发送至所述第一节点传输的消息队列集群中
。7.
根据权利要求2所述的部署方法,其特征在于,获取在第一节点上运行所述
GPU
监控程序的文件信息,包括:通过向所述第一节点发送第一命令,获取所述文件位置;和
/
或通过向所述第一节点发送第二命令,获取所述文件路径
...

【专利技术属性】
技术研发人员:曹旭皓
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1