模型训练方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:28034355 阅读:21 留言:0更新日期:2021-04-09 23:16
本公开公开了模型训练方法、装置、电子设备和计算机可读存储介质,涉及人工智能领域,尤其涉及深度学习领域和人工智能芯片领域。具体实现方案为:通过一个计算单元对一个训练数据集执行前向计算操作序列以及反向计算操作序列中包括的第一反向计算操作,以基于第一反向计算操作确定第一计算结果和模型的第一梯度;至少基于第一梯度,确定第一同步梯度;基于所述第一计算结果对所述一个训练数据集执行所述反向计算操作序列中包括的第二反向计算操作,以基于所述第二反向计算操作至少确定所述模型的第二梯度;至少基于第二梯度,确定第二同步梯度;以及至少基于第一同步梯度和第二同步梯度更新模型的参数。以此方式,实现了高效准确的并行训练。

【技术实现步骤摘要】
模型训练方法、装置、电子设备和计算机可读存储介质
本公开涉及计算机
,尤其涉及深度学习领域和人工智能芯片领域,具体地,涉及模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
随着人工智能技术的发展,模型训练场景对算力的需求越来越大,传统的通过单个计算单元基于训练数据集来完成对模型进行训练的方式逐渐被多个计算单元协同完成训练任务的方式所取代。然而,多个计算单元参与的并行训练过程存在瓶颈,制约了多个计算单元的训练性能的提升。
技术实现思路
本公开提供了一种用于训练模型的方法、装置、电子设备、存储介质以及计算机程序产品。根据本公开的一方面,提供了一种模型训练方法。该方法可以包括通过多个计算单元中的一个计算单元对多个训练数据集中的一个训练数据集执行前向计算操作序列以及反向计算操作序列中包括的第一反向计算操作,以基于第一反向计算操作确定第一计算结果和模型的第一梯度。进而,至少基于第一梯度,确定第一同步梯度。这里,第一同步梯度与多个计算单元的相应第一反向计算操作相关联。该方法还可以包括基于所述第一本文档来自技高网...

【技术保护点】
1.一种模型训练方法,包括:/n通过多个计算单元中的一个计算单元,对多个训练数据集中的一个训练数据集执行前向计算操作序列、以及反向计算操作序列中包括的第一反向计算操作,以基于所述第一反向计算操作确定第一计算结果和所述模型的第一梯度;/n至少基于所述第一梯度,确定第一同步梯度,其中所述第一同步梯度与所述多个计算单元的相应第一反向计算操作相关联;/n基于所述第一计算结果对所述一个训练数据集执行所述反向计算操作序列中包括的第二反向计算操作,以基于所述第二反向计算操作至少确定所述模型的第二梯度;/n至少基于所述第二梯度,确定第二同步梯度,其中所述第二同步梯度与所述多个计算单元的相应第二反向计算操作相关...

【技术特征摘要】
1.一种模型训练方法,包括:
通过多个计算单元中的一个计算单元,对多个训练数据集中的一个训练数据集执行前向计算操作序列、以及反向计算操作序列中包括的第一反向计算操作,以基于所述第一反向计算操作确定第一计算结果和所述模型的第一梯度;
至少基于所述第一梯度,确定第一同步梯度,其中所述第一同步梯度与所述多个计算单元的相应第一反向计算操作相关联;
基于所述第一计算结果对所述一个训练数据集执行所述反向计算操作序列中包括的第二反向计算操作,以基于所述第二反向计算操作至少确定所述模型的第二梯度;
至少基于所述第二梯度,确定第二同步梯度,其中所述第二同步梯度与所述多个计算单元的相应第二反向计算操作相关联;以及
至少基于所述第一同步梯度和所述第二同步梯度更新所述模型的参数。


2.根据权利要求1所述的方法,其中至少基于所述第一梯度确定所述第一同步梯度包括:
将所述第一梯度传输至用于控制所述多个计算单元并行训练所述模型的处理器;以及
接收由所述处理器确定的所述第一同步梯度。


3.根据权利要求2所述的方法,其中至少基于所述第二梯度确定所述第二同步梯度包括:
将所述第二梯度传输至所述处理器;以及
接收由所述处理器确定的所述第二同步梯度。


4.根据权利要求1所述的方法,其中基于所述第一梯度确定所述第一同步梯度包括:
将所述第一梯度传输至用于控制所述多个计算单元并行训练所述模型的处理器;
将所述多个计算单元中的附加计算单元基于所述多个训练数据集中的另一训练数据集确定的第一附加梯度传输至所述处理器;以及
接收由所述处理器基于所述第一梯度与所述第一附加梯度确定的所述第一同步梯度。


5.根据权利要求4所述的方法,其中接收由所述处理器基于所述第一梯度与所述第一附加梯度确定的所述第一同步梯度包括:
接收基于所述第一梯度与所述第一附加梯度的和确定的所述第一同步梯度。


6.根据权利要求1所述的方法,还包括:
基于所述第二反向计算操作确定第二计算结果;
基于所述第二计算结果对所述一个训练数据集执行所述反向计算操作序列中包括的第三反向计算操作,以基于所述第三反向计算操作至少确定所述模型的第三梯度;以及
至少基于所述第三梯度,确定第三同步梯度,其中所述第三同步梯度与所述多个计算单元的相应第三反向计算操作相关联。


7.根据权利要求6所述的方法,还包括:
基于所述第三反向计算操作确定第三计算结果;
基于所述第三计算结果对所述一个训练数据集执行所述反向计算操作序列中包括的第四反向计算操作,以基于所述第四反向计算操作至少确定所述模型的第四梯度;以及
至少基于所述第四梯度,确定第四同步梯度,其中所述第四同步梯度与所述多个计算单元的相应第四反向计算操作相关联。


8.根据权利要求2中任一项所述的方法,其中所述处理器是中央处理器CPU,并且所述计算单元是人工智能芯片或图像处理器GPU。


9.一种模型训练装置,包括:
第一计算操作执行模块,被配置为通过多个计算单元中的一个计算单元对多个训练数据集中的一个训练数据集执行前向计算操作序列以及反向计算操作序列中包括的第一反向计算操作,以基于所述第一反向计算操作确定第一计算结果和所述模型的第一梯度;
第一同步梯度确定模块,被配置为至少基于所述第一梯度确定第一同步梯度,其中所述第一同步梯度与所述多个计算单元的相应第一反向计算操作相关联;
第二计算操作执行模块,被配置为基于所述第一计算结果对所述一个训练数据集执...

【专利技术属性】
技术研发人员:陈庆澍欧阳剑王勇赵志彪
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1