【技术实现步骤摘要】
本专利技术涉及计算机科学人工智能领域,尤其涉及一种大模型流水线并行训练下的二维序列拆分方法及系统。
技术介绍
1、随着人工智能技术的发展,模型的规模和复杂度不断增长,也获得了更强大的性能和更准确的预测结果。这些大型模型,如transformer模型通常包含数亿甚至数十亿个参数,例如最新的开源transformer大模型之一llama3.1-405b包含了超过4000亿个参数。同时大模型方向最新技术(比如rag)的提出也促使大模型训练过程中包含的输入样本长度较以往大幅度提升,就目前最先进的开源大模型deepseek-v3模型来说,其上下文窗口长度就达到了128000个token。模型本身参数的增加带来了对显存容量的巨大需求,使得在单个gpu或cpu上训练这些模型变得非常困难,为了解决这一问题,大模型训练过程中往往引入流水线并行技术,流水线并行技术的核心思想是将一个庞大的模型拆分成多个较小的子模型,每个子模型可以独立地在不同的硬件设备上进行训练和计算,相互之间形成流水线从而高效率发挥设备的潜力。
2、长序列样本的加入使得显存容量
...【技术保护点】
1.一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤S1具体为:
3.根据权利要求2所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述使用任意长度和维度的序列在序列并行组内运行RingAttention算子数轮,选用长度为32k、维度为1024的序列。
4.根据权利要求1所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤S2包括:
5.根据权利要求4所述的一种大模型流
...【技术特征摘要】
1.一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤s1具体为:
3.根据权利要求2所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述使用任意长度和维度的序列在序列并行组内运行ringattention算子数轮,选用长度为32k、维度为1024的序列。
4.根据权利要求1所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤s2包括:
5.根据权利要求4所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤s2.2包括:用于搜索最短冗余序列长度及最短冗余序列长度下最优cpu与gpu冗余序列比例...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。