【技术实现步骤摘要】
GPU监控程序的部署方法、监控方法、装置及网络节点
[0001]本专利技术涉及软件开发
,尤其是指一种
GPU
监控程序的部署方法
、
监控方法
、
装置及网络节点
。
技术介绍
[0002]随着人工智能技术的发展,机器学习越来越普及,各个领域都在训练和推理自己的模型
。
[0003]在进行训练或部署推理模型时,往往会关注系统资源的运行情况,其中对于
CPU、
内存的运行情况,训练模型中的
kubernets
已经提供成熟的监控方案和接口,但对于图形处理器
(graphics processing unit
,
GPU)
的监控就成了问题,目前各个机器学习的集群中,用的最多的就是英伟达
(nvidia)
系列的
GPU
,英伟达公司提供了原生的
DCGM
软件来进行
GPU
管理,但
DCGM
软件需要在各个节点下载并运行一个
500
多
MB
的
docker
镜像,存在大量占用系统资源的问题
。
技术实现思路
[0004]本专利技术技术方案的目的是提供一种
GPU
监控程序的部署方法
、
监控方法
、
装置及网络节点,用于解决现有技术的
GPU
监控方式,存在占
【技术保护点】
【技术特征摘要】
1.
一种图形处理器
GPU
监控程序的部署方法,其特征在于,所述方法包括:获取
GPU
监控程序的
docker
镜像文件和在第一节点上运行所述
GPU
监控程序的文件信息;根据所述
docker
镜像文件和所述文件信息,生成所述
GPU
监控程序的配置执行文件;执行所述配置执行文件的应用命令,通过所述配置执行文件在所述第一节点的目标容器上部署所述
GPU
监控程序
。2.
根据权利要求1所述的部署方法,其特征在于,所述文件信息包括第一节点的
nvidia
库文件的文件位置,和
/
或,用于在所述第一节点获取
GPU
状态信息的命令可执行文件的文件路径
。3.
根据权利要求1所述的部署方法,其特征在于,所述方法还包括:获取所述
GPU
监控程序的程序执行文件和
docker
配置文件;根据所述程序执行文件和所述
docker
配置文件,生成所述
docker
镜像文件;将所述
docker
镜像文件上传并存储至镜像仓库管理服务器
。4.
根据权利要求3所述的部署方法,其特征在于,根据所述
docker
镜像文件和所述文件信息,生成所述
GPU
监控程序的配置执行文件,包括:将所述文件信息映射至所述目标容器,获得第一配置部分;将所述
GPU
监控程序的镜像设置为上传至所述镜像仓库管理服务器的所述
docker
镜像文件,获得第二配置部分;根据所述第一配置部分和所述第二配置部分,生成所述配置执行文件
。5.
根据权利要求1或2所述的部署方法,其特征在于,通过所述配置执行文件在所述第一节点的目标容器上部署所述
GPU
监控程序,包括:通过所述配置执行文件,将所述
docker
镜像文件下载至所述目标容器,以及通过映射获取所述目标容器的所述文件信息
。6.
根据权利要求1所述的部署方法,其特征在于,所述
GPU
监控程序用于根据所述文件信息在所述目标容器的映射,获取
GPU
状态信息,以及,将所述
GPU
状态信息发送至所述第一节点传输的消息队列集群中
。7.
根据权利要求2所述的部署方法,其特征在于,获取在第一节点上运行所述
GPU
监控程序的文件信息,包括:通过向所述第一节点发送第一命令,获取所述文件位置;和
/
或通过向所述第一节点发送第二命令,获取所述文件路径
...
【专利技术属性】
技术研发人员:曹旭皓,
申请(专利权)人:京东方科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。