分布式训练方法、装置、设备和存储介质制造方法及图纸

技术编号:26307621 阅读:31 留言:0更新日期:2020-11-10 20:08
本发明专利技术提供一种分布式训练方法、装置、设备和存储介质,方法包括:利用Kubernetes的自定义资源类型CRD服务适配器,创建训练节点的配置信息的消息传递接口MPI任务资源自定义对象,并在接收训练请求后,根据所述训练节点的配置信息和训练请求携带的总GPU数量,确定多个由至少三个GPU形成的Ring‑allreduce架构的训练节点;控制每个所述训练节点将所述训练数据通过内含的至少三个GPU进行迭代训练,得到每个所述训练节点对应的迭代结果。缓解原参数服务器架构存在的带宽瓶颈、容易造成网络堵塞的问题。采用本发明专利技术的技术方案,能够提高训练效率,同时,能够提高GPU设置的灵活性,提高分布训练的容错性。

【技术实现步骤摘要】
分布式训练方法、装置、设备和存储介质
本专利技术涉及深度学习
,尤其涉及一种分布式训练方法、装置、设备和存储介质。
技术介绍
深度学习在过去几年中取得了长足的发展,尤其在语音、图像、机器翻译、自然语言处理等领域更是取得了飞跃式的提升,深度学习训练需要海量的数据,这就需要超大规模参数的网络模型拟合。如果训练数据不足,如果网络模型参数太少,会造成欠拟合,模型精度较低。目前常见网络模型参数已经上亿,参数大小达到数GB。数据并行训练方式要求每个图形处理器(GraphicsProcessingUnit,GPU)节点拥有一份完整的模型参数副本,并在融合梯度时发送和接收完整的梯度数据,巨大的通信数据量给多机多卡并行训练带来了极大的网络通信压力。分布式节点可以通过参数服务器架构通信。这种架构下,在每个迭代中,每个节点,计算属于自己的梯度,并将这些梯度发送到一个参数服务器。参数服务器会聚合来自设备的所有梯度,并等待所有设备完成,然后在下一次迭代中计算新模型,再广播给所有设备。这种架构参数服务器的网络带宽存在瓶颈,容易造成网络堵塞。因此,现有技术中分本文档来自技高网...

【技术保护点】
1.一种分布式训练方法,其特征在于,包括:/n利用Kubernetes的自定义资源类型CRD服务适配器,创建消息传递接口MPI任务资源自定义对象;所述MPI任务资源自定义对象包括训练节点的配置信息;/n接收训练请求;所述训练请求携带训练任务的总图形处理器GPU数量、训练任务的训练数据和训练任务的训练脚本;/n根据所述训练节点的配置信息和所述总GPU数量,确定多个训练节点;其中,每个训练节点包括至少3个GPU,且至少三个GPU之间形成环状链路;/n控制每个所述训练节点将所述训练数据通过内含的至少三个GPU进行迭代训练,得到每个所述训练节点对应的迭代结果。/n

【技术特征摘要】
1.一种分布式训练方法,其特征在于,包括:
利用Kubernetes的自定义资源类型CRD服务适配器,创建消息传递接口MPI任务资源自定义对象;所述MPI任务资源自定义对象包括训练节点的配置信息;
接收训练请求;所述训练请求携带训练任务的总图形处理器GPU数量、训练任务的训练数据和训练任务的训练脚本;
根据所述训练节点的配置信息和所述总GPU数量,确定多个训练节点;其中,每个训练节点包括至少3个GPU,且至少三个GPU之间形成环状链路;
控制每个所述训练节点将所述训练数据通过内含的至少三个GPU进行迭代训练,得到每个所述训练节点对应的迭代结果。


2.根据权利要求1所述的分布式训练方法,其特征在于,所述训练请求还携带有训练任务的任务名称;
根据所述训练节点的配置信息和所述总GPU数量,确定多个训练节点之前,还包括:
检测所述训练任务的任务名称是否已存在;
若训练任务的任务名称已存在,输出任务错误的提示信息;
若训练任务的任务名称不存在,检测缓存器中是否存在训练请求对应的请求人员的权限信息;
若不存在请求人员的权限信息,对所述请求人员进行授权;
若存在请求人员的权限信息,加载所述请求人员的权限信息。


3.根据权利要求1所述的分布式训练方法,其特征在于,控制每个所述训练节点将所述训练数据通过内含的至少三个GPU进行迭代训练,得到每个所述训练节点对应的迭代结果之前,还包括:
获取每个训练节点的状态;
若所有训练节点的状态均表示准备运行,启动所有训练节点。


4.根据权利要求1所述的分布式训练方法,其特征在于,还包括:
若所有训练节点均完成迭代训练,删除所有训练节点。


5.根据权利要求1所述的分布式训练方法,其特征在于,所述训练节点的配置信息包括每个训练节点可运行的GPU数目、每个训练节点的最多重试次数和每个训练节点...

【专利技术属性】
技术研发人员:谢远东
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1