模型多卡并行式运算方法及装置制造方法及图纸

技术编号：38891172 阅读：30 留言：0更新日期：2023-09-22 14:15

本发明专利技术提供一种模型多卡并行式运算方法及装置，所述方法包括：将待运算模型的每张计算卡上的待运算数据等分为M份；对第i+2份待运算数据进行节点内scatter

全部详细技术资料下载

【技术实现步骤摘要】
模型多卡并行式运算方法及装置

[0001]本专利技术涉及计算机
，尤其涉及一种模型多卡并行式运算方法及装置。

技术介绍

[0002]GPT(Generative Pre
‑
training Transformer)大语言模型是目前生成式AI的重要模型，对于大型的GPT模型，用于模型参数和计算量较大，一般会采用分布式计算，比如在多张计算卡上进行模型并行推理。
[0003]目前，多通过将模型权重均匀分布在各个计算卡的HBM(High Bandwidth Memory)上，并根据模型需求在各个计算卡之间进行交互实现模型运行。其中，对于GPT模型中的projection和FFN计算，每次计算完都需要对分布在各计算卡上的激活数据进行一次allreduce。
[0004]然而，传统的allreduce方法是以统一的速度来进行allreduce设计。在每一个执行步骤中，每个worker都被看成是一致的，以loop的方式进行两卡之间的数据传递。此时若存在节点内连接和跨节点连接的速度差异，则更快的节点卡...

【技术保护点】

【技术特征摘要】
1.一种模型多卡并行式运算方法，其特征在于，包括：将待运算模型的每张计算卡上的待运算数据等分为M份；对第i+2份待运算数据进行节点内scatter
‑
reduce；对节点间allreduce后的第i份待运算数据进行节点内allgather，同时对scatter
‑
reduce后的第i+1份待运算数据进行节点间allreduce，直至对第M份待运算数据完成节点内scatter
‑
reduce，对第M
‑
2份待运算数据完成节点内allgather，以及对第M
‑
1份待运算数据完成节点间allreduce。2.根据权利要求1所述的模型多卡并行式运算方法，其特征在于，在所述第i份待运算数据为第1份数据的情况下，所述对第i+2份待运算数据进行节点内scatter
‑
reduce，之前还包括：对第1份待运算数据进行节点内scatter
‑
reduce；将scatter
‑
reduce后的第1份待运算数据进行节点间allreduce，同时对第2份待运算数据进行节点内scatter
‑
reduce。3.根据权利要求1所述的模型多卡并行式运算方法，其特征在于，所述对第M份待运算数据完成节点内scatter
‑
reduce，对第M
‑
2份待运算数据完成节点内allgather，以及对第M
‑
1份待运算数据完成节点间allreduce，之后还包括：对第M
‑
1份待运算数据进行节点内allgather，同时对第M份待运算数据进行节点间allreduce。4.根据权利要求3所述的模型多卡并行式运算方法，其特征在于，所述对第M
‑
1份待运...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：上海壁仞智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人