AI模型的分布式训练方法和相关设备技术

技术编号:36681405 阅读:25 留言:0更新日期:2023-02-27 19:39
本申请涉及人工智能技术领域,提供了一种AI模型的分布式训练方法和相关设备,其中方法应用于AI平台,所述AI平台与计算资源池相关联,所述计算资源池包括用于所述AI模型分布式训练的多个计算节点,所述多个计算节点中的每个计算节点执行所述AI模型分布式训练的一个训练任务;所述方法包括:对第一计算节点进行故障隔离,所述第一计算节点为所述多个计算节点中发生故障的计算节点;确定第二计算节点,所述第二计算节点为所述计算资源池中除所述多个计算节点之外的计算节点;配置所述第二计算节点,以使所述第二计算节点替代所述第一计算节点执行训练任务。本申请实施例能够降低故障恢复的时长。障恢复的时长。障恢复的时长。

【技术实现步骤摘要】
AI模型的分布式训练方法和相关设备


[0001]本申请实施例涉及人工智能(artificial intelligence,AI)
,尤其涉及一种AI模型的分布式训练方法和相关设备。

技术介绍

[0002]当前AI领域,主要涉及训练数据、AI模型及硬件的算力三个关键方面。AI模型的训练过程是将大量的训练数据输入至部署在硬件上的AI模型,并由AI模型利用硬件的算力支撑对训练数据进行处理和学习的过程。大部分情况下,训练数据越多,学习效果越好,AI模型的准确率越高。而随着利用AI模型解决的问题的规模增大,要求的用于进行AI模型训练的数据量也不断增加,导致对硬件的计算能力的需求也越来越大。例如当前的一些AI模型,其有1700亿的参数,其训练用的训练数据有45T,其完成训练需要355个GPU训练一年。为了减少训练的耗时,通用的做法是提高用于AI模型的训练作业的并行计算资源的规模;例如将该AI模型的训练作业的计算资源的规模提高到4096个GPU,如此,计算资源的规模是原来355个GPU的11倍以上,这使得该AI模型的训练时长可以减少到1个月左右。...

【技术保护点】

【技术特征摘要】
1.一种人工智能AI模型的分布式训练方法,其特征在于,应用于AI平台,所述AI平台与计算资源池相关联,所述计算资源池包括用于所述AI模型分布式训练的多个计算节点,所述多个计算节点中的每个计算节点执行所述AI模型分布式训练的一个训练任务;所述方法包括:对第一计算节点进行故障隔离,所述第一计算节点为所述多个计算节点中发生故障的计算节点;确定第二计算节点,所述第二计算节点为所述计算资源池中除所述多个计算节点之外的计算节点;配置所述第二计算节点,以使所述第二计算节点替代所述第一计算节点执行训练任务。2.根据权利要求1所述的方法,其特征在于,所述AI平台在监测到以下一项或多项的情况下,所述第一计算节点为发生故障的计算节点:所述第一计算节点硬件故障,所述第一计算节点执行的训练任务对应的训练进程退出,所述第一计算节点上报的故障。3.根据权利要求2所述的方法,其特征在于,若所述AI平台监测到所述第一计算节点硬件故障,且未监测到所述第一计算节点执行的训练任务对应的训练进程退出;在所述对第一计算节点进行故障隔离之后,所述方法包括:向所述第一计算节点发送停止训练进程的通知,所述停止训练进程的通知用于指示所述第一计算节点停止执行的训练任务对应的训练进程。4.根据权利要求1

3任一项所述的方法,其特征在于,在所述对第一计算节点进行故障隔离之后,在所述确定第二计算节点之前,所述方法还包括:向第三计算节点发送暂停训练进程的通知,所述第三计算节点为所述多个计算节点中未发生故障的计算节点,所述暂停训练进程的通知用于指示所述第三计算节点暂停所述AI模型分布式训练的训练任务对应的训练进程。5.根据权利要求4所述的方法,其特征在于,所述暂停训练进程的通知具体用于:指示所述第三计算节点在执行完所述AI模型分布式训练的梯度计算之后,暂停所述AI模型分布式训练的训练任务对应的训练进程。6.根据权利要求4或5所述的方法,其特征在于,在所述确定第二计算节点之后,所述方法还包括:向所述第三计算节点发送继续训练的通知,所述继续训练的通知用于指示所述第三计算节点在所述AI模型分布式训练的训练框架中的通讯拓扑中删除所述第一计算节点和增加所述第二计算节点,以及恢复所述AI模型分布式训练的训练任务对应的训练进程,所述通讯拓扑用于所述AI模型分布式训练的梯度同步。7.根据权利要求4或5所述的方法,其特征在于,若未确定到第二计算节点,所述方法还包括:向所述第三计算节点发送继续训练的通知,所述继续训练的通知用于指示所述第三计算节点在所述AI模型分布式训练的训练框架中的通讯拓扑中删除所述第一计算节点,以及恢复所述AI模型分布式训练的训练任务对应的训练进程,所述通讯拓扑用于所述AI模型分布式训练的梯度同步。
8.一种人工智能AI模型的分布式训练装置,其特征在于,应用于AI平台,所述AI平台与计算资源池相关联,所述计算资源池包括用于所述AI模型分布式训练的多个计算节点,所述多个计算节点中的每个计算节点执行所述AI模型分布式训练的一个训练任务;所述装置包括:资源管理模块,用于对第一计算节点进行故障隔离,所述第一计算节点为所述多个计算节点...

【专利技术属性】
技术研发人员:练韵文李亿金小贤
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1