基于细粒度调度的模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号：44589524 阅读：23 留言：0更新日期：2025-03-14 12:48

本申请涉及一种基于细粒度调度的模型训练方法、装置、设备和存储介质，通过获取第一样本序列；将第一样本序列输入至模型进行训练，并在训练过程中为各第一样本序列分配显存空间，以及对各第一样本序列基于单独线程进行运算；在有任一第一样本序列完成反向传播的情况下，释放该第一样本序列占用的显存空间，并将新的第二样本序列输入至模型进行训练；解决了大语言模型在训练过程中存在运算资源浪费的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及模型训练领域，特别是涉及一种基于细粒度调度的模型训练方法、装置、设备和存储介质。

技术介绍

1、目前主流生成式大语言模型，如gpt、llama等，均采用decoder-only transformer架构。此类模型架构中主要部分为多个decoder block(解码模块)。每个decoder block中包括一个多头注意力层，以及全连接层和残差连接层。在模型训练阶段，多头注意力层将样本序列中的每个词元(token)分别和样本序列中处于更前方的各个词元进行计算。因此传统注意力计算的时间复杂度与内存复杂度均为o(n2)级别(n为序列长度)，显著高于其他部分的o(n)级别。如今的大语言模型训练和推理则通常采用flash attention技术。该技术使用分块计算的策略和online-softmax的算法，优化了注意力算子的正反向传播。在正向传播时，每个词元不再和更前方的词元以矩阵乘法的形式同时进行运算，而是依次地和前方每个词元块进行运算，从而将注意力计算正反向传播的内存复杂度降低至了o(n)级别，时间复杂度不变，仍为o(n2)。反向...

【技术保护点】

1.一种基于细粒度调度的模型训练方法，其特征在于，包括：

2.根据权利要求1所述的基于细粒度调度的模型训练方法，其特征在于，在训练过程中为各所述第一样本序列分配显存空间，包括：

3.根据权利要求2所述的基于细粒度调度的模型训练方法，其特征在于，在有任一第一样本序列完成反向传播的情况下，释放该第一样本序列占用的显存空间，包括：

4.根据权利要求1所述的基于细粒度调度的模型训练方法，其特征在于，在有任一第一样本序列完成反向传播的情况下，所述方法还包括：

5.根据权利要求4所述的基于细粒度调度的模型训练方法，其特征在于，在有任一第一样本序列完成反...

【技术特征摘要】

1.一种基于细粒度调度的模型训练方法，其特征在于，包括：

2.根据权利要求1所述的基于细粒度调度的模型训练方法，其特征在于，在训练过程中为各所述第一样本序列分配显存空间，包括：

4.根据权利要求1所述的基于细粒度调度的模型训练方法，其特征在于，在有任一第一样本序列完成反向传播的情况下，所述方法还包括：

5.根据权利要求4所述的基于细粒度调度的模型训练方法，其特征在于，在有任一第一样本序列完成反向传播的情况下，所述方法还包括：

6.根据权利要求5所述的基于细粒度调度的模型训练方法，其特征在于，判断完成反向...

【专利技术属性】
技术研发人员：郑弦喆，汪睿，伍赛，杨智慧，袁巩生，姚畅，唐秀，
申请(专利权)人：杭州高新区滨江区块链与数据安全研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人