【技术实现步骤摘要】
模型训练方法、装置、计算机设备及存储介质
[0001]本专利技术实施例涉及模型训练领域,尤其涉及一种模型训练方法、装置、计算机设备及存储介质。
技术介绍
[0002]近年来,深度学习在许多不同的应用领域取得了进展,但是,随着对模型精度的要求越来越高,模型训练的数据集越来越多,模型复杂度越来越高。大型模型通常需要更多的计算和内存资源进行训练。神经网络训练和推理都受到算术带宽、内存带宽或延迟的限制。降低训练精度可以解决其中两个限制。通过使用更少的位来表示值,对于相同数量的数学运算可以降低内存带宽压力,读取或写入内存的字节更少。由于某些处理器提供更高的吞吐量以降低计算精度,因此计算时间也可以降低,并且,除了提高速度外,精度降低的格式还可以减少训练所需的内存量。
[0003]目前,在模型训练阶段使用半精度的方式可以降低内存带宽压力并提高算术吞吐量。但是,模型训练全周期均采用半精度训练,当模型进入收敛阶段后,模型参数离目标值越来越接近,这时候如果仍然使用半精度的方法进行训练可能会影响模型训练精度。因此,如何在不降低模型训练精度 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取预设的超参数信息、基本参数信息以及训练数据信息;基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练;在所述初始模型的第一输出数据达到第一目标条件后,调整所述超参数信息,继续对所述初始模型进行训练,直至所述初始模型的第二输出数据达到第二目标条件,则确定所述初始模型训练完成。2.根据权利要求1所述的方法,其特征在于,所述在所述初始模型的第一输出数据达到第一目标数据后,调整所述超参数信息,包括:获取所述初始模型在训练过程中输出的第一输出数据;基于所述第一输出数据,对比第一预设训练周期内的第一输出数据的第一差值信息;若所述第一差值信息小于或等于第一阈值,则确定调整所述超参数信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述第一差值信息大于第一阈值,则确定对所述初始模型继续训练。4.根据权利要求3所述的方法,其特征在于,所述初始模型的第二输出数据达到第二目标条件,则确定所述初始模型训练完成,包括:获取所述初始模型在调整所述超参数信息后进行训练过程中输出的第二输出数据;基于所述第二输出数据,对于第二预设训练周期内的第二输出数据的第二差值信息;若所述第二差值信息小于或等于第一阈值,则确定所述初始模型训练完成。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述第二差值信息大于第一阈值,则确定对所述初始模型继续训练。6.一种模型训练装置,其特征...
【专利技术属性】
技术研发人员:辛永欣,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。