人工智能分布式训练平台的搭建方法及平台技术

技术编号:28622428 阅读:13 留言:0更新日期:2021-05-28 16:18
本发明专利技术涉及人工智能、云平台技术领域,特别是人工智能分布式训练平台的搭建方法及平台;包括总控管理模块、计算机设备模块和镜像构建模块;总控管理模块管理各个计算机的GPU资源,开发人员在此模块创建训练任务,创建的训练任务分发到各台独立的计算机设备上;计算机设备模块是部署在各个计算机设备上,管控计算机的GPU资源,并上报给总控管理模块;镜像构建模块为镜像构建模块,将开发人员提交的算法代码,集合运行环境,构建成一个Docker镜像,总控管理模块获取构建出来的镜像,将镜像部署到计算机设备模块上进行训练;通过此方法,可以集合公司装有显卡的计算机设备,搭建一套训练平台,将所有的显卡作为一个集群服务。

【技术实现步骤摘要】
人工智能分布式训练平台的搭建方法及平台
本专利技术涉及人工智能、云平台
,特别是人工智能分布式训练平台的搭建方法及平台。
技术介绍
当前AI人工智能越来越普及,基于人工智能的算法训练也越来越受到关注。所谓人工只能训练,是数据科学家通过将数据集输入到一个算法代码中,经过算法的训练,生成一个模型。这个模型可以用来作为人工智能识别的支撑。比如拿一张照片,输入到算法中,算法结合模型,能够分辨出这张图片是猫还是狗。人工智能的训练过程是极其耗费计算资源的,而且显卡又非常昂贵。集合有多显卡的设备价格更不是一般小企业所能承受的。
技术实现思路
本专利技术的目的在于提出人工智能分布式训练平台的搭建方法及平台,通过此方法,可以集合公司装有显卡的计算机设备,搭建一套训练平台,将所有的显卡作为一个集群服务。为解决上述的技术问题,本专利技术采用以下技术方案:一种人工智能分布式训练平台的搭建方法,包括如下步骤:1)总控管理模块其实现方式包括如下步骤:步骤1.1:安装docker;步骤1.2:下载并安装kubeadm;步骤1.2.1:添加镜像源;步骤1.2.2安装kubeadm、kubelet、kubectl;步骤1.3:初始化kubemetes环境;步骤1.4:安装GPU设备管控插件;2)计算机设备模块其实现方式包括如下步骤:步骤2.1:搭建基础环境:同上述步骤1中的1.1、1.2,安装docker和kubeadm;步骤2.2:在总控管理模块上,获取加入总控的指令:步骤2.3:将计算机设备作为资源加入总控管理模块中;3)镜像构建模块其实现方式包括如下步骤:步骤3.1:编写Dockerfile文件;步骤3.2:构建镜像;步骤3.3:编写yaml文件,作为部署文件;步骤3.4:开始训练。本专利技术还公开一种人工智能分布式训练平台,包括总控管理模块、计算机设备模块和镜像构建模块。进一步,总控管理模块管理各个计算机的GPU资源,开发人员在此模块创建训练任务,创建的训练任务分发到各台独立的计算机设备上。进一步,计算机设备模块是部署在各个计算机设备上,管控计算机的GPU资源,并上报给总控管理模块。进一步,镜像构建模块为镜像构建模块,将开发人员提交的算法代码,集合运行环境,构建成一个Docker镜像,总控管理模块获取构建出来的镜像,将镜像部署到计算机设备模块上进行训练。与现有技术相比,本专利技术至少具有以下有益效果之一:1.充分利用公司的pc作为计算资源,降低企业成本,提高训练速度。2.屏蔽开发人员对GPU资源的感知。3.做到GPU资源的隔离,每个开发人员只能看到自己使用的GPU资源,不会出现资源抢占冲突。附图说明图1为本专利技术模块系统图。图中,100-总控管理模块;200-计算机设备模块;300-镜像构建模块。具体实施方式如图1示,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例一种人工智能分布式训练平台的搭建方法,包括如下步骤:1)总控管理模块(100)其实现方式包括如下步骤:步骤1.1:安装docker;步骤1.2:下载并安装kubeadm;步骤1.2.1:添加镜像源;步骤1.2.2安装kubeadm、kubelet、kubectl;步骤1.3:初始化kubernetes环境;步骤1.4:安装GPU设备管控插件;2)计算机设备模块(200)其实现方式包括如下步骤:步骤2.1:搭建基础环境:同上述步骤1中的1.1、1.2,安装docker和kubeadm;步骤2.2:在总控管理模块(100)上,获取加入总控的指令:步骤2.3:将计算机设备(200)作为资源加入总控管理模块(100)中;3)镜像构建模块(300)其实现方式包括如下步骤:步骤3.1:编写Dockerfile文件;步骤3.2:构建镜像;步骤3.3:编写yaml文件,作为部署文件;步骤3.4:开始训练。更为具体的实施过程如下:一种人工智能分布式训练平台的搭建方法,包括如下步骤:1)总控管理模块100其实现方式包括如下步骤:步骤1.1:安装docker,apt-getinstalldocker.io;步骤1.2:下载并安装kubeadm;步骤1.2.1:添加镜像源,curl-shttps://packages.cloud.google.com/apt/doc/apt-key.gpg|apt-keyadd-cat<<EOF>/etc/apt/sources.1ist.d/kubernetes.listdebhttp://mirrors.ustc.edu.cn/kubernetes/aptkubemetes-xenialmainEOF;步骤1.2.2安装kubeadm、kubelet、kubectl,apt-getinstallkubeadm=1.14.3-00kubelet=1.14.3-00kubectl=1.14.3-00--allow-unauthenticated;步骤1.3:初始化kubernetes环境,kubeadminit--pod-network-cidr=10.244.0.0/16--image-repositoryregistry.cn-hangzhou.aliyuncs.com/google_containers;步骤1.4:安装GPU设备管控插件,kubectlcreate-fhttps://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/1.0.0-beta4/nvidia-device-plugin.yml:2)计算机设备模块200其实现方式包括如下步骤:步骤2.1:搭建基础环境:同上述步骤1中的1.1、1.2,安装docker和kubeadm;步骤2.2:在总控管理模块100上,获取加入总控的指令,root@ubuntu:~#kubeadmtokencreate--print-join-commandkubeadmjoin192.168.5.31:6443-tokennvvob8.ikonwk1jh99nmx4b--discovery-tokenrt-hashsha256:7be69827ca9c687bc8438015663ad822302dc01d137beac8950a1612c9b25cc3root@ubuntu:~#;步骤2.本文档来自技高网...

【技术保护点】
1.一种人工智能分布式训练平台的搭建方法,其特征在于:包括如下步骤:/n1)总控管理模块(100)其实现方式包括如下步骤:/n步骤1.1:安装docker;/n步骤1.2:下载并安装kubeadm;/n步骤1.2.1:添加镜像源;步骤1.2.2安装kubeadm、kubelet、kubectl;/n步骤1.3:初始化kubernetes环境;/n步骤1.4:安装GPU设备管控插件;/n2)计算机设备模块(200)其实现方式包括如下步骤:/n步骤2.1:搭建基础环境:同上述步骤1中的1.1、1.2,安装docker和kubeadm;步骤2.2:在总控管理模块(100)上,获取加入总控的指令:/n步骤2.3:将计算机设备(200)作为资源加入总控管理模块(100)中;/n3)镜像构建模块(300)其实现方式包括如下步骤:/n步骤3.1:编写Dockerfile文件;/n步骤3.2:构建镜像;/n步骤3.3:编写yaml文件,作为部署文件;/n步骤3.4:开始训练。/n

【技术特征摘要】
1.一种人工智能分布式训练平台的搭建方法,其特征在于:包括如下步骤:
1)总控管理模块(100)其实现方式包括如下步骤:
步骤1.1:安装docker;
步骤1.2:下载并安装kubeadm;
步骤1.2.1:添加镜像源;步骤1.2.2安装kubeadm、kubelet、kubectl;
步骤1.3:初始化kubernetes环境;
步骤1.4:安装GPU设备管控插件;
2)计算机设备模块(200)其实现方式包括如下步骤:
步骤2.1:搭建基础环境:同上述步骤1中的1.1、1.2,安装docker和kubeadm;步骤2.2:在总控管理模块(100)上,获取加入总控的指令:
步骤2.3:将计算机设备(200)作为资源加入总控管理模块(100)中;
3)镜像构建模块(300)其实现方式包括如下步骤:
步骤3.1:编写Dockerfile文件;
步骤3.2:构建镜像;
步骤3.3:编写ya...

【专利技术属性】
技术研发人员:张福强齐宇
申请(专利权)人:西藏宁算科技集团有限公司
类型:发明
国别省市:西藏;54

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1