当前位置: 首页 > 专利查询>浙江大学专利>正文

一种大模型流水线并行训练下的二维序列拆分方法及系统技术方案

技术编号:45094217 阅读:14 留言:0更新日期:2025-04-25 18:31
本发明专利技术公开了一种大模型流水线并行训练下的二维序列拆分方法及系统,属于计算机科学人工智能领域。本发明专利技术包括:数据收集模块获取设备基本信息和模型配置信息,包括GPU间带宽、设备显存大小、设备CPU内存大小、GPU‑CPU间带宽、模型维度、模型层数、输入数据序列长度;决策器根据获取的数据生成最优决策;决策内容包括冗余序列长度、保存在GPU的冗余序列比例、保存在CPU的冗余序列比例、时间维度拆分数;深度学习训练模块将所述最优决策整合于模型训练过程,提高系统整体训练性能。本发明专利技术结合空闲的显存空间和GPU‑CPU之间的带宽实现了时间空间两个维度上的序列拆分及高效训练,同时最大化了流水线并行训练的训练效率。

【技术实现步骤摘要】

本专利技术涉及计算机科学人工智能领域,尤其涉及一种大模型流水线并行训练下的二维序列拆分方法及系统


技术介绍

1、随着人工智能技术的发展,模型的规模和复杂度不断增长,也获得了更强大的性能和更准确的预测结果。这些大型模型,如transformer模型通常包含数亿甚至数十亿个参数,例如最新的开源transformer大模型之一llama3.1-405b包含了超过4000亿个参数。同时大模型方向最新技术(比如rag)的提出也促使大模型训练过程中包含的输入样本长度较以往大幅度提升,就目前最先进的开源大模型deepseek-v3模型来说,其上下文窗口长度就达到了128000个token。模型本身参数的增加带来了对显存容量的巨大需求,使得在单个gpu或cpu上训练这些模型变得非常困难,为了解决这一问题,大模型训练过程中往往引入流水线并行技术,流水线并行技术的核心思想是将一个庞大的模型拆分成多个较小的子模型,每个子模型可以独立地在不同的硬件设备上进行训练和计算,相互之间形成流水线从而高效率发挥设备的潜力。

2、长序列样本的加入使得显存容量重新成为限制tran本文档来自技高网...

【技术保护点】

1.一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤S1具体为:

3.根据权利要求2所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述使用任意长度和维度的序列在序列并行组内运行RingAttention算子数轮,选用长度为32k、维度为1024的序列。

4.根据权利要求1所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤S2包括:

5.根据权利要求4所述的一种大模型流水线并行训练下的二维...

【技术特征摘要】

1.一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤s1具体为:

3.根据权利要求2所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述使用任意长度和维度的序列在序列并行组内运行ringattention算子数轮,选用长度为32k、维度为1024的序列。

4.根据权利要求1所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤s2包括:

5.根据权利要求4所述的一种大模型流水线并行训练下的二维序列拆分方法,其特征在于,所述步骤s2.2包括:用于搜索最短冗余序列长度及最短冗余序列长度下最优cpu与gpu冗余序列比例...

【专利技术属性】
技术研发人员:何水兵张文捷陈平
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1