【技术实现步骤摘要】
模型多卡并行式运算方法及装置
[0001]本专利技术涉及计算机
,尤其涉及一种模型多卡并行式运算方法及装置。
技术介绍
[0002]GPT(Generative Pre
‑
training Transformer)大语言模型是目前生成式AI的重要模型,对于大型的GPT模型,用于模型参数和计算量较大,一般会采用分布式计算,比如在多张计算卡上进行模型并行推理。
[0003]目前,多通过将模型权重均匀分布在各个计算卡的HBM(High Bandwidth Memory)上,并根据模型需求在各个计算卡之间进行交互实现模型运行。其中,对于GPT模型中的projection和FFN计算,每次计算完都需要对分布在各计算卡上的激活数据进行一次allreduce。
[0004]然而,传统的allreduce方法是以统一的速度来进行allreduce设计。在每一个执行步骤中,每个worker都被看成是一致的,以loop的方式进行两卡之间的数据传递。此时若存在节点内连接和跨节点连接的速度差异,则更快的节点卡 ...
【技术保护点】
【技术特征摘要】
1.一种模型多卡并行式运算方法,其特征在于,包括:将待运算模型的每张计算卡上的待运算数据等分为M份;对第i+2份待运算数据进行节点内scatter
‑
reduce;对节点间allreduce后的第i份待运算数据进行节点内allgather,同时对scatter
‑
reduce后的第i+1份待运算数据进行节点间allreduce,直至对第M份待运算数据完成节点内scatter
‑
reduce,对第M
‑
2份待运算数据完成节点内allgather,以及对第M
‑
1份待运算数据完成节点间allreduce。2.根据权利要求1所述的模型多卡并行式运算方法,其特征在于,在所述第i份待运算数据为第1份数据的情况下,所述对第i+2份待运算数据进行节点内scatter
‑
reduce,之前还包括:对第1份待运算数据进行节点内scatter
‑
reduce;将scatter
‑
reduce后的第1份待运算数据进行节点间allreduce,同时对第2份待运算数据进行节点内scatter
‑
reduce。3.根据权利要求1所述的模型多卡并行式运算方法,其特征在于,所述对第M份待运算数据完成节点内scatter
‑
reduce,对第M
‑
2份待运算数据完成节点内allgather,以及对第M
‑
1份待运算数据完成节点间allreduce,之后还包括:对第M
‑
1份待运算数据进行节点内allgather,同时对第M份待运算数据进行节点间allreduce。4.根据权利要求3所述的模型多卡并行式运算方法,其特征在于,所述对第M
‑
1份待运...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:上海壁仞智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。