一种容器化训练方法、装置及电子设备制造方法及图纸

技术编号:41337251 阅读:23 留言:0更新日期:2024-05-20 09:56
本申请涉及云计算技术领域,尤其涉及一种容器化训练方法、装置及电子设备。该方法应用于分布式训练容器化集群系统,系统采用容器集群管理器进行容器化部署。该系统包括主节点以及至少一个工作节点。上述至少一个工作节点为训练集群中实际进行训练的Pod。主节点为训练集群中负责协调调度工作节点的Pod。在训练任务启动时,主节点使用安全外壳协议远程登录到所有的工作节点,将预设的训练资源复制到所有的工作节点中。基于主节点启动的主进程、所有的工作节点以及各工作节点中启动的进程运行训练任务。在训练任务完成后,回收各工作节点占用的训练资源。上述方案,可以实现分布式训练中的安全隔离,避免资源浪费。

【技术实现步骤摘要】

本申请涉及云计算,尤其涉及一种容器化训练方法、装置及电子设备


技术介绍

1、随着机器学习模型的复杂度提升、数据量的不断增加、单机计算由于资源的限制,已经无法满足业务需求。分布式训练是一种利用多台计算机协同完成训练任务的方法。它能够大幅度提高训练效率和模型性能。

2、然而各个机器学习框架分布式训练环境搭建复杂,易出错,牵涉到多个进程之间的协调管理。现有技术中,虽然也有部分工具提供了易用的分布式训练工具,但是都是基于物理机器进行的,无法高效的利用机器资源。而且大量的机器环境初始化比较麻烦,多条业务线无法共用机器资源,甚至可能存在环境依赖冲突。

3、如何在分布式训练中实现安全隔离,避免资源浪费是一种值得商榷的问题。


技术实现思路

1、本申请实施例提供一种容器化训练方法、装置及电子设备,用于在分布式训练中实现安全隔离,避免资源浪费。

2、第一方面,本申请实施例提供一种容器化训练方法,应用于分布式训练容器化集群系统,系统采用容器集群管理器进行容器化部署,系统包括主节点以及至少一个工本文档来自技高网...

【技术保护点】

1.一种容器化训练方法,其特征在于,应用于分布式训练容器化集群系统,所述系统采用容器集群管理器进行容器化部署,所述系统包括主节点以及至少一个工作节点,所述至少一个工作节点为训练集群中实际进行训练的Pod,所述主节点为所述训练集群中负责协调调度所述工作节点的Pod,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述在所述训练任务完成后,回收所述各工作节点占用的训练资源,具体包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述主节点启动的主进程、所述所有的工作节点以及各工作节点中启动的进程运行所述训练任务,具体包括:

<p>4.根据权利要求...

【技术特征摘要】

1.一种容器化训练方法,其特征在于,应用于分布式训练容器化集群系统,所述系统采用容器集群管理器进行容器化部署,所述系统包括主节点以及至少一个工作节点,所述至少一个工作节点为训练集群中实际进行训练的pod,所述主节点为所述训练集群中负责协调调度所述工作节点的pod,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述在所述训练任务完成后,回收所述各工作节点占用的训练资源,具体包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述主节点启动的主进程、所述所有的工作节点以及各工作节点中启动的进程运行所述训练任务,具体包括:

4.根据权利要求1所述的方法,其特征在于,所述训练资源包括预设的数据集、预训练模型、训练代码。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至4中任一所述的方法,其特征在于,所述至少一个工作节点...

【专利技术属性】
技术研发人员:崇传兵朱恩庆刘秦豫
申请(专利权)人:新奥新智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1