模型多卡并行式运算方法及装置制造方法及图纸

技术编号:38891172 阅读:30 留言:0更新日期:2023-09-22 14:15
本发明专利技术提供一种模型多卡并行式运算方法及装置,所述方法包括:将待运算模型的每张计算卡上的待运算数据等分为M份;对第i+2份待运算数据进行节点内scatter

【技术实现步骤摘要】
模型多卡并行式运算方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种模型多卡并行式运算方法及装置。

技术介绍

[0002]GPT(Generative Pre

training Transformer)大语言模型是目前生成式AI的重要模型,对于大型的GPT模型,用于模型参数和计算量较大,一般会采用分布式计算,比如在多张计算卡上进行模型并行推理。
[0003]目前,多通过将模型权重均匀分布在各个计算卡的HBM(High Bandwidth Memory)上,并根据模型需求在各个计算卡之间进行交互实现模型运行。其中,对于GPT模型中的projection和FFN计算,每次计算完都需要对分布在各计算卡上的激活数据进行一次allreduce。
[0004]然而,传统的allreduce方法是以统一的速度来进行allreduce设计。在每一个执行步骤中,每个worker都被看成是一致的,以loop的方式进行两卡之间的数据传递。此时若存在节点内连接和跨节点连接的速度差异,则更快的节点卡间传输会需要等待更慢本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型多卡并行式运算方法,其特征在于,包括:将待运算模型的每张计算卡上的待运算数据等分为M份;对第i+2份待运算数据进行节点内scatter

reduce;对节点间allreduce后的第i份待运算数据进行节点内allgather,同时对scatter

reduce后的第i+1份待运算数据进行节点间allreduce,直至对第M份待运算数据完成节点内scatter

reduce,对第M

2份待运算数据完成节点内allgather,以及对第M

1份待运算数据完成节点间allreduce。2.根据权利要求1所述的模型多卡并行式运算方法,其特征在于,在所述第i份待运算数据为第1份数据的情况下,所述对第i+2份待运算数据进行节点内scatter

reduce,之前还包括:对第1份待运算数据进行节点内scatter

reduce;将scatter

reduce后的第1份待运算数据进行节点间allreduce,同时对第2份待运算数据进行节点内scatter

reduce。3.根据权利要求1所述的模型多卡并行式运算方法,其特征在于,所述对第M份待运算数据完成节点内scatter

reduce,对第M

2份待运算数据完成节点内allgather,以及对第M

1份待运算数据完成节点间allreduce,之后还包括:对第M

1份待运算数据进行节点内allgather,同时对第M份待运算数据进行节点间allreduce。4.根据权利要求3所述的模型多卡并行式运算方法,其特征在于,所述对第M

1份待运...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:上海壁仞智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1