【技术实现步骤摘要】
本申请涉及模型训练领域,特别是涉及一种基于细粒度调度的模型训练方法、装置、设备和存储介质。
技术介绍
1、目前主流生成式大语言模型,如gpt、llama等,均采用decoder-only transformer架构。此类模型架构中主要部分为多个decoder block(解码模块)。每个decoder block中包括一个多头注意力层,以及全连接层和残差连接层。在模型训练阶段,多头注意力层将样本序列中的每个词元(token)分别和样本序列中处于更前方的各个词元进行计算。因此传统注意力计算的时间复杂度与内存复杂度均为o(n2)级别(n为序列长度),显著高于其他部分的o(n)级别。如今的大语言模型训练和推理则通常采用flash attention技术。该技术使用分块计算的策略和online-softmax的算法,优化了注意力算子的正反向传播。在正向传播时,每个词元不再和更前方的词元以矩阵乘法的形式同时进行运算,而是依次地和前方每个词元块进行运算,从而将注意力计算正反向传播的内存复杂度降低至了o(n)级别,时间复杂度不变,仍为o(n2)。反向
...【技术保护点】
1.一种基于细粒度调度的模型训练方法,其特征在于,包括:
2.根据权利要求1所述的基于细粒度调度的模型训练方法,其特征在于,在训练过程中为各所述第一样本序列分配显存空间,包括:
3.根据权利要求2所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,释放该第一样本序列占用的显存空间,包括:
4.根据权利要求1所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,所述方法还包括:
5.根据权利要求4所述的基于细粒度调度的模型训练方法,其特征在于,在有任
...【技术特征摘要】
1.一种基于细粒度调度的模型训练方法,其特征在于,包括:
2.根据权利要求1所述的基于细粒度调度的模型训练方法,其特征在于,在训练过程中为各所述第一样本序列分配显存空间,包括:
3.根据权利要求2所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,释放该第一样本序列占用的显存空间,包括:
4.根据权利要求1所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,所述方法还包括:
5.根据权利要求4所述的基于细粒度调度的模型训练方法,其特征在于,在有任一第一样本序列完成反向传播的情况下,所述方法还包括:
6.根据权利要求5所述的基于细粒度调度的模型训练方法,其特征在于,判断完成反向...
【专利技术属性】
技术研发人员:郑弦喆,汪睿,伍赛,杨智慧,袁巩生,姚畅,唐秀,
申请(专利权)人:杭州高新区滨江区块链与数据安全研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。