基于细粒度调度的模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号:44589524 阅读:23 留言:0更新日期:2025-03-14 12:48
本申请涉及一种基于细粒度调度的模型训练方法、装置、设备和存储介质,通过获取第一样本序列;将第一样本序列输入至模型进行训练,并在训练过程中为各第一样本序列分配显存空间,以及对各第一样本序列基于单独线程进行运算;在有任一第一样本序列完成反向传播的情况下,释放该第一样本序列占用的显存空间,并将新的第二样本序列输入至模型进行训练;解决了大语言模型在训练过程中存在运算资源浪费的问题。

【技术实现步骤摘要】

本申请涉及模型训练领域,特别是涉及一种基于细粒度调度的模型训练方法、装置、设备和存储介质


技术介绍

1、目前主流生成式大语言模型,如gpt、llama等,均采用decoder-only transformer架构。此类模型架构中主要部分为多个decoder block(解码模块)。每个decoder block中包括一个多头注意力层,以及全连接层和残差连接层。在模型训练阶段,多头注意力层将样本序列中的每个词元(token)分别和样本序列中处于更前方的各个词元进行计算。因此传统注意力计算的时间复杂度与内存复杂度均为o(n2)级别(n为序列长度),显著高于其他部分的o(n)级别。如今的大语言模型训练和推理则通常采用flash attention技术。该技术使用分块计算的策略和online-softmax的算法,优化了注意力算子的正反向传播。在正向传播时,每个词元不再和更前方的词元以矩阵乘法的形式同时进行运算,而是依次地和前方每个词元块进行运算,从而将注意力计算正反向传播的内存复杂度降低至了o(n)级别,时间复杂度不变,仍为o(n2)。反向传播时,同样以分块计本文档来自技高网...

【技术保护点】

1.一种基于细粒度调度的模型训练方法,其特征在于,包括:

2.根据权利要求1所述的基于细粒度调度的模型训练方法,其特征在于,在训练过程中为各所述第一样本序列分配显存空间,包括:

3.根据权利要求2所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,释放该第一样本序列占用的显存空间,包括:

4.根据权利要求1所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,所述方法还包括:

5.根据权利要求4所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反...

【技术特征摘要】

1.一种基于细粒度调度的模型训练方法,其特征在于,包括:

2.根据权利要求1所述的基于细粒度调度的模型训练方法,其特征在于,在训练过程中为各所述第一样本序列分配显存空间,包括:

3.根据权利要求2所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,释放该第一样本序列占用的显存空间,包括:

4.根据权利要求1所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,所述方法还包括:

5.根据权利要求4所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,所述方法还包括:

6.根据权利要求5所述的基于细粒度调度的模型训练方法,其特征在于,判断完成反向...

【专利技术属性】
技术研发人员:郑弦喆汪睿伍赛杨智慧袁巩生姚畅唐秀
申请(专利权)人:杭州高新区滨江区块链与数据安全研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1