当前位置: 首页 > 专利查询>南京大学专利>正文

面向大模型混精度训练的PowerSGD通信压缩优化方法技术

技术编号:41764749 阅读:34 留言:0更新日期:2024-06-21 21:43
本发明专利技术提供了一种面向大模型混精度训练的PowerSGD通信压缩优化方法,包括混精度适配、计算优化和通信优化;混精度适配主要针对混精度策略由于切换浮点表示产生的溢出梯度以及损失缩放参数的变化进行了处理,包括了压缩过程中误差补偿公式的修正,对溢出梯度的检测以及处理;计算优化主要针对大模型中有很多重复结构的特点,使相同形状的梯度矩阵在物理存储上连续,并堆叠成一个三维矩阵,以批处理的方式执行PowerSGD中的幂迭代操作,提高GPU的运算效率,并且对PowerSGD压缩所涉及的P矩阵和Q矩阵进行形状调整以提高GPU的访存效率;通信优化则是通过结合自适应压缩方法,基于梯度范数和压缩误差比率的变化速率,决定是否开启压缩率的衰减过程,并在开启后对压缩率执行指数衰减,此外还包括在压缩率变化后对PowerSGD中Q矩阵的形状进行相应的调整。本发明专利技术提供了PowerSGD算法对于混精度策略的支持,并从GPU计算并行性、访存效率、自适应压缩等角度提高了其计算效率以及通信效率。

【技术实现步骤摘要】

本专利技术属于分布式机器学习领域,具体涉及一种面向大模型混精度训练的powersgd通信压缩优化方法。


技术介绍

1、随着transformer架构的出现,机器学习的模型规模得到了飞速的增长,在自然语言处理、机器视觉、音频处理等领域均获得了显著的成功。然而,这些大模型上亿的模型参数以及训练所需的海量数据样本规模给模型的训练与存储带来了巨大的负担,使得单机环境往往难以承受相应的需求。基于数据并行同步通信的分布式训练是目前解决上述问题的一种流行且有效的方法。

2、为了确保模型最终的精度,分布式训练中需要频繁地传输大量梯度参数。这些额外引入的通信开销成为了目前限制训练效率的瓶颈之一。梯度压缩方法是解决这种通信瓶颈问题的主要手段之一。其旨在参与训练的各计算节点发送梯度之前通过某种有损压缩算子进行压缩,从而有效减少所需的梯度通信量,减少通信开销。现有的梯度压缩方法主要可分为3类:梯度稀疏、梯度量化、梯度低秩近似。其中,梯度稀疏方法只传输原先每个梯度向量的一部分维度上的梯度,梯度量化使用更少的比特表示每个维度的梯度值,而梯度低秩近似将满秩的梯度向量降维分解本文档来自技高网...

【技术保护点】

1.面向大模型混精度训练的PowerSGD通信压缩优化方法,用于基于数据并行同步通信的分布式训练,其特征在于,包括:

2.如权利要求1所述的面向大模型混精度训练的PowerSGD通信压缩优化方法,其特征在于:所述基于各节点的损失值对模型参数求导,计算各节点产生的梯度,具体为:

3.如权利要求2所述的面向大模型混精度训练的PowerSGD通信压缩优化方法,其特征在于:所述采用误差补偿机制对节点的梯度进行补偿,具体为:

4.如权利要求3所述的面向大模型混精度训练的PowerSGD通信压缩优化方法,其特征在于:所述采用PowerSGD算法对由补偿后的梯度组成...

【技术特征摘要】

1.面向大模型混精度训练的powersgd通信压缩优化方法,用于基于数据并行同步通信的分布式训练,其特征在于,包括:

2.如权利要求1所述的面向大模型混精度训练的powersgd通信压缩优化方法,其特征在于:所述基于各节点的损失值对模型参数求导,计算各节点产生的梯度,具体为:

3.如权利要求2所述的面向大模型混精度训练的powersgd通信压缩优化方法,其特征在于:所述采用误差补偿机制对节点的梯度进行补偿,具体为:

4.如权利要求3所述的面向大模型混精度训练的powersgd通信压缩优化方法,其特征在于:所述采用powersgd算法对由补偿后的梯度组成的三维矩阵进行分层压缩,具体为:

5.如权利要求4所述的面向大模型混精度训练的powersgd通信压缩优化...

【专利技术属性】
技术研发人员:郑嘉琦张照芃陈浩赵鹏昊李曙鹏
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1