基于分块交错流水线的模型更新方法、装置、设备及产品制造方法及图纸

技术编号:45822023 阅读:13 留言:0更新日期:2025-07-15 22:32
本发明专利技术公开了基于分块交错流水线的模型更新方法、装置、设备及产品,所述方法包括:接收中央处理器当前发送的待更新数据块;其中,待更新数据块包括:模型参数分块和对应的优化器状态分块;根据本次模型迭代计算生成的梯度数据,对待更新数据块进行更新,得到已更新数据块,并将已更新数据块卸载至中央处理器;在卸载已更新数据块时,接收中央处理器发送的下一个待更新数据块,以在图形处理器中完成下一个待更新数据块的更新和卸载处理。本发明专利技术能够显著地减少显存需求,并通过预加载机制,充分利用计算资源和通信资源的时序重叠性,进而有效地提高了数据更新的效率。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种基于分块交错流水线的模型更新方法、装置、计算机可读存储介质、电子设备及计算机程序产品。


技术介绍

1、随着神经网络模型规模的不断增长,模型参数量呈现指数级增加(如模型gpt-3拥有约1750亿个参数),使得显存资源的瓶颈问题变得愈加突出。

2、在模型训练场景中,需要频繁更新模型参数和优化器状态。例如,自适应矩估计(adaptive moment estimation,adam)优化器需要为每个模型参数维护额外的状态信息(即动量和方差估计),这使得优化器状态的存储需求通常是模型参数量的两倍以上,使得显存占用也成倍增加。

3、以175b参数的gpt-3模型为例,图形处理器(graphics processing unit,gpu)在使用16位浮点数格式进行推理计算时,需要350gb的存储空间,相当于8张a6000-48gb gpu或5张a100-80gb gpu。按照同样的参数规模进行模型训练时,权重使用16位浮点数格式,梯度使用32位浮点数格式,同时还需要维护32位浮点数格式的主权重和优化器状态,因本文档来自技高网...

【技术保护点】

1.一种基于分块交错流水线的模型更新方法,其特征在于,应用于人工智能处理器;所述方法包括:

2.如权利要求1所述的基于分块交错流水线的模型更新方法,其特征在于,所述中央处理器按照预设尺寸划分出多个连续的内存块存储目标模型的所述待更新数据块和所述已更新数据块中的至少一者。

3.如权利要求2所述的基于分块交错流水线的模型更新方法,其特征在于,所述预设尺寸通过以下步骤确定:

4.如权利要求1所述的基于分块交错流水线的模型更新方法,其特征在于,所述根据本次模型迭代计算生成的梯度数据,对所述待更新数据块进行更新,得到已更新数据块,包括:>

5.如权利要...

【技术特征摘要】

1.一种基于分块交错流水线的模型更新方法,其特征在于,应用于人工智能处理器;所述方法包括:

2.如权利要求1所述的基于分块交错流水线的模型更新方法,其特征在于,所述中央处理器按照预设尺寸划分出多个连续的内存块存储目标模型的所述待更新数据块和所述已更新数据块中的至少一者。

3.如权利要求2所述的基于分块交错流水线的模型更新方法,其特征在于,所述预设尺寸通过以下步骤确定:

4.如权利要求1所述的基于分块交错流水线的模型更新方法,其特征在于,所述根据本次模型迭代计算生成的梯度数据,对所述待更新数据块进行更新,得到已更新数据块,包括:

5.如权利要求1所述的基于分块交错流水线的模型更新方法,其特征在于,所述将所述已更新数据块卸载至所述中央处理器之前,所述方法还包括:

6.如权利要求2所述的基于分块交错流水线的模型更新方法,其特征在于,所述内存块为锁页内存。

7.如权利要求1...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:广州壁仞集成电路有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1