模型训练的方法、服务器、芯片以及系统技术方案

技术编号:34630309 阅读:22 留言:0更新日期:2022-08-24 15:01
本申请提供了一种模型训练的方法、装置以及系统,该方法包括:使用第一训练资源训练模型;在所述第一训练资源故障时,基于所述模型在所述第一训练资源故障时的模型参数,继续使用第二训练资源对所述模型进行训练。上述技术方案可以在硬件训练资源发生故障后,能够快速恢复训练任务,且不损失训练的时间。且不损失训练的时间。且不损失训练的时间。

【技术实现步骤摘要】
模型训练的方法、服务器、芯片以及系统


[0001]本申请涉及人工智能领域,并且更具体地,涉及一种模型训练的方法、服务器、芯片以及系统。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。在AI领域中,模型可以被特定的数据集进行训练后,单独用于完成一项任务或与其他神经网络(或其他功能模块)组合完成一项任务。
[0003]一般而言,模型的精度会随着训练数据量的增加而上升。随着神经网络规模和数据集规模的急剧增长,会使得计算负荷变大,因此,分布式模型训练技术应运而生。分布式模型训练技术旨在通过增加计算资源,并通过多个计算资源对训练的模型进行迭代,以提升模型的训练速度。
[0004]在分布式训练系统中,经常会发生由于某个硬件训练资源故障而导致训练任务异常的情况。相关的技术方案中,在模型训练的过程中,可以周期性地保存模型训练过程数据(也可以称为模型参数)。在某个硬件训练资源故障时,基于周期性保存的模型训练过程数据重新启动训练过程。由于模型训练过程数据的保存周期一般为小时级别,因此,基于周期性保存的模型训练过程数据重新启动训练过程会损失一定的训练时间。

技术实现思路

[0005]本申请提供一种模型训练的方法、服务器、芯片以及系统,可以硬件训练资源发生故障后,快速恢复训练任务,且不损失训练的时间。
[0006]第一方面,提供了一种模型训练的方法,包括:使用第一训练资源训练模型;在所述第一训练资源故障时,基于所述模型在所述第一训练资源故障时的模型参数,继续使用第二训练资源对所述模型进行训练。
[0007]上述技术方案中,在有硬件资源发生故障后,模型训练任务不退出,继续调度新的硬件资源并加载模型在故障时刻的模型参数,并基于该模型参数继续进行模型训练。这样,可以实现新的硬件资源从故障发生时刻继续训练的目的,在硬件训练资源发生故障后,可以快速恢复训练任务,且不损失训练的时间。
[0008]结合第一方面,在第一方面的某些实现方式中,所述方法还包括:在所述第一训练资源故障时,通知与所述第一训练资源共同参与训练所述模型的第三训练资源暂停对所述模型的训练。
[0009]结合第一方面,在第一方面的某些实现方式中,所述模型在所述第一训练资源故障时的模型参数是从所述第三训练资源获取的。
[0010]结合第一方面,在第一方面的某些实现方式中,,所述模型在所述第一训练资源故障时的模型参数包括以下信息中的一种或多种的组合:所述模型的权重信息、偏差信息、梯
度信息、编译信息、算子编译信息、辅助变量信息、训练集数据。
[0011]结合第一方面,在第一方面的某些实现方式中,所述第一训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU;或者,所述第二训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU。
[0012]结合第一方面,在第一方面的某些实现方式中,所述方法还包括:从所述第三训练资源的存储空间获得所述模型在所述第一训练资源故障时的模型参数,所述存储空间来自于所述第三训练资源的内存或者与所述第三训练资源连接的存储器。
[0013]结合第一方面,在第一方面的某些实现方式中,所述方法由集群管理设备执行。
[0014]第二方面,提供了一种模型训练的方法,所述方法包括:在第一训练资源故障时,第二训练资源基于模型在所述第一训练资源故障时的模型参数,继续对所述模型进行训练,所述第一训练资源参与对所述模型的训练。
[0015]结合第二方面,在第二方面的某些实现方式中,所述模型在所述第一训练资源故障时的模型参数是从第三训练资源获取的,所述第三训练资源是与所述第一训练资源共同参与训练所述模型的资源。
[0016]结合第二方面,在第二方面的某些实现方式中,所述模型在所述第一训练资源故障时的模型参数包括以下信息中的一种或多种的组合:所述模型的权重信息、偏差信息、梯度信息、编译信息、算子编译信息、辅助变量信息、训练集数据。
[0017]结合第二方面,在第二方面的某些实现方式中,所述第一训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU;或者,所述第二训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU。
[0018]结合第二方面,在第二方面的某些实现方式中,所述方法还包括:所述第二训练资源从所述第三训练资源的存储空间获得所述模型在所述第一训练资源故障时的模型参数,所述存储空间来自于所述第三训练资源的内存或者与所述第三训练资源连接的存储器。
[0019]第二方面和第二方面的任意一个可能的实现方式的有益效果和第一方面以及第一方面的任意一个可能的实现方式的有益效果是对应的,对此,不再赘述。
[0020]第三方面,提供了一种模型训练的装置,包括:调度模块,用于使用第一训练资源训练模型;在所述第一训练资源故障时,基于所述模型在所述第一训练资源故障时的模型参数,继续使用第二训练资源对所述模型进行训练。
[0021]结合第三方面,在第三方面的某些实现方式中,所述装置还包括:故障管理模块,用于在所述第一训练资源故障时,通知与所述第一训练资源共同参与训练所述模型的第三训练资源暂停对所述模型的训练。
[0022]结合第三方面,在第三方面的某些实现方式中,所述模型在所述第一训练资源故障时的模型参数是从所述第三训练资源获取的。
[0023]结合第三方面,在第三方面的某些实现方式中,所述模型在所述第一训练资源故障时的模型参数包括以下信息中的一种或多种的组合:所述模型的权重信息、偏差信息、梯度信息、编译信息、算子编译信息、辅助变量信息、训练集数据。
[0024]结合第三方面,在第三方面的某些实现方式中,所述第一训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU;或者,所述第二训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU。
[0025]结合第三方面,在第三方面的某些实现方式中,所述故障管理模块还用于:从所述第三训练资源的存储空间获得所述模型在所述第一训练资源故障时的模型参数,所述存储空间来自于所述第三训练资源的内存或者与所述第三训练资源连接的存储器。
[0026]结合第三方面,在第三方面的某些实现方式中,所述装置设置于集群管理设备中。
[0027]第四方面,提供了一种模型训练的装置,所述装置设置于第二训练资源中,包括:训练模块,用于在第一训练资源故障时,基于模型在所述第一训练资源故障时的模型参数,继续对所述模型进行训练,所述第一训练资源参与对所述模型的训练。
[0028]结合第四方面,在第四方面的某些实现方式中,所述模型在所述第一训练资源故障时的模型参数是从第三训练资源获取的,所述第三训练资源是与所述第一训练资源共同参与训练所述模型的资源。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练的方法,其特征在于,所述方法包括:使用第一训练资源训练模型;在所述第一训练资源故障时,基于所述模型在所述第一训练资源故障时的模型参数,继续使用第二训练资源对所述模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述第一训练资源故障时,通知与所述第一训练资源共同参与训练所述模型的第三训练资源暂停对所述模型的训练。3.根据权利要求2所述的方法,其特征在于,所述模型在所述第一训练资源故障时的模型参数是从所述第三训练资源获取的。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述模型在所述第一训练资源故障时的模型参数包括以下信息中的一种或多种的组合:所述模型的权重信息、偏差信息、梯度信息、编译信息、算子编译信息、辅助变量信息、训练集数据。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU;或者,所述第二训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU。6.根据权利要求3至5中任一项所述的方法,其特征在于,所述方法还包括:从所述第三训练资源的存储空间获得所述模型在所述第一训练资源故障时的模型参数,所述存储空间来自于所述第三训练资源的内存或者与所述第三训练资源连接的存储器。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法由集群管理设备执行。8.一种模型训练的方法,其特征在于,所述方法包括:在第一训练资源故障时,第二训练资源基于模型在所述第一训练资源故障时的模型参数,继续对所述模型进行训练,所述第一训练资源参与对所述模型的训练。9.根据权利要求8所述的方法,其特征在于,所述模型在所述第一训练资源故障时的模型参数是从第三训练资源获取的,所述第三训练资源是与所述第一训练资源共同参与训练所述模型的资源。10.根据权利要求8或9所述的方法,其特征在于,所述模型在所述第一训练资源故障时的模型参数包括以下信息中的一种或多种的组合:所述模型的权重信息、偏差信息、梯度信息、编译信息、算子编译信息、辅助变量信息、训练集数据。11.根据权利要求8至10中任一项所述的方法,其特征在于,所述第一训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU;或者,所述第二训练资源为人工智能AI处理器或者图像处理器GPU或者张量处理器TPU。12.根据权利要求9至11中任一项所述的方法,其特征在于,所述方法还包括:所述第二训练资源从所述第三训练资源的存储空间获得所述模型在所述第一训练资源故障时的模型参数,所述存储空间来自于所述第三训练资源的内存或者与所述第三训练资源连接的存储器。13.一种模型训练的装置,其特征在于,包括:调度模块,用于使用第一训练资源训练模型;
所述调度模块,还用于在所述第一训练资源故障时,基于所述模型在所述第一训练资源故障时的模型参数,继续使用第二训练资源对所述模型进行训练。14.根据权利要求13所述的装置,其特征在...

【专利技术属性】
技术研发人员:蔡志方陈育彬郑坤
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1