大模型训练方法、装置、电子设备、存储介质和程序产品制造方法及图纸

技术编号:46329037 阅读:25 留言:0更新日期:2025-09-09 19:09
本公开涉及一种大模型训练方法、装置、电子设备、存储介质和程序产品。所述方法包括:对于目标大模型的任意一项训练数据,将所述训练数据切分为多份分段数据,并将多份分段数据存储在非易失性存储器中,其中,多份分段数据依次进行前向传播计算和反向传播计算;对于任意一份分段数据,从非易失性存储器读取所述分段数据至显存,并通过GPU对所述分段数据执行前向传播计算,得到所述分段数据对应的激活值;对于任意一份分段数据,通过GPU基于所述分段数据对应的激活值执行反向传播计算,得到所述分段数据对应的梯度数据,并将所述分段数据对应的梯度数据从显存移动至非易失性存储器或者CPU内存。本公开能够降低激活值的显存占用。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种大模型训练方法、大模型训练装置、电子设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、在人工智能和机器学习领域,大模型训练已成为一个重要的研究方向。随着大模型的规模的增加和训练数据的扩展,大模型的性能和能力得到了显著提升,但同时也带来了一系列技术挑战,尤其是在硬件资源的利用和优化方面。

2、在大模型的训练过程中,显存的占用是限制模型规模和训练效率的关键因素。显存的占用主要由以下几个部分构成:

3、模型数据:包括模型的权重和偏置参数,这些参数在训练过程中需要被存储和更新。

4、优化器数据:用于存储优化算法(如sgd、adam等)的状态,如动量和梯度平方的累积值。

5、模型梯度:在反向传播过程中计算得到的梯度,用于更新模型参数。

6、激活值:在模型的前向传播过程中,每一层的输出(激活值)需要被存储,以便在反向传播中使用。

7、随着训练文本长度的增加,激活值占用的显存比例显著提升,这给超长上下文的大模型训练带来了挑战。


>

技术实本文档来自技高网...

【技术保护点】

1.一种大模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述从所述非易失性存储器读取所述分段数据至显存,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,GPU计算与数据传输能够并行执行;

5.根据权利要求4所述的方法,其特征在于,所述GPU计算通过默认流执行,所述数据传输通过预取流执行,所述默认流域与所述预取流能够并行工作,且所述默认流在对每份分段数据执行GPU计算之前执行创建空张量操作。

6.根据权利要求1至5中任意一项所述的方法,其特...

【技术特征摘要】

1.一种大模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述从所述非易失性存储器读取所述分段数据至显存,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,gpu计算与数据传输能够并行执行;

5.根据权利要求4所述的方法,其特征在于,所述gpu计算通过默认流执行,所述数据传输通过预取流执行,所述默认流域与所述预取流能够并行工作,且所述默认流在对每份分段数据执行gpu计算之前执行创建空张量操作。

6.根据权利要求1至5中任意一项所述的方法,其特征在于,

7.根据权利要求1至5中任意一项所述的方法,其特征在于,所述通过gpu对所述分段数据执行前向传播计算,得到所述分段数据对应的激活值,包括:

8.根据权利要求7所述的方法,其特征在于,所述通过gpu对所述分段数据执行多层感知器计算,得到所述分段数据对应的多层感知器输出结果,包括:

9.根据权利要求1至5中任意一项所述的方法,其特征在于,在所述得到所述...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1