一种模型训练方法和计算设备技术

技术编号:40968368 阅读:22 留言:0更新日期:2024-04-18 20:49
本申请实施例公开了一种模型训练方法和计算设备,属于人工智能技术领域,用于加快人工智能模型训练的速度。该方法包括:将目标模型在前向传播过程中至少一层网络层的计算数据写入目标存储空间;目标存储空间是第一计算设备的内存之外的其他存储空间。在目标模型训练启动反向传播的情况下,从目标存储空间中获取目标模型中第n层对应的计算数据;其中,n是大于或等于1的正整数。基于第n层对应的计算数据,更新n‑1层目标模型的模型参数。

【技术实现步骤摘要】

本申请实施例涉及人工智能,特别涉及一种模型训练方法和计算设备


技术介绍

1、在人工智能模型训练场景中,模型的参数复杂、数据量大。尤其在网络中进行前向传播计算时,会产生巨大的数据量。在前向传播中,上一层的输出数据作为下一层的输入,这些数量庞大的数据往往无法同时保存在内存中。

2、在反向传播过程中,需要从网络的最后一层逐层向前去改变每一层的权重,反向计算每一层的梯度。因此在反向传播时需要用到前向传播每一层产生的数据。由于在前向传播过程产生的数据并不会全部保存,而且缺失的数据并不会固定在哪一层,所以当反向传播至这样的网络节点时,会暂停反向传播,同时再次发起前向传播,通过逐层的计算得到缺失的数据后,继续进行反向传播计算。

3、然而,上述方案中在反向传播更新梯度时,需要进行前向传播来获取数据,再进行梯度的计算,从而需要多次等待,浪费了大量时间,导致人工智能模型训练速度缓慢。


技术实现思路

1、本申请实施例提供了一种模型训练方法和计算设备,可以加快人工智能模型训练的速度。该技术方案如下:

本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法应用于第一计算设备,包括:

2.根据权利要求1所述的方法,其特征在于,所述将目标模型在前向传播过程中至少一层网络层的计算数据写入目标存储空间,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述每一个独立目录中的网络层的所述计算数据是经过压缩处理的数据。

5.根据权利要求1所述的方法,其特征在于,所述从所述目标存储空间中获取所述目标模型中第n层对应的所述计算数据,包括:

6.根据权利要求1所述的方法,其特征在于,所述...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法应用于第一计算设备,包括:

2.根据权利要求1所述的方法,其特征在于,所述将目标模型在前向传播过程中至少一层网络层的计算数据写入目标存储空间,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述每一个独立目录中的网络层的所述计算数据是经过压缩处理的数据。

5.根据权利要求1所述的方法,其特征在于,所述从所述目标存储空间中获取所述目标模型中第...

【专利技术属性】
技术研发人员:郭飞飞
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1