【技术实现步骤摘要】
本专利技术属于分布式机器学习领域,具体涉及一种面向大模型混精度训练的powersgd通信压缩优化方法。
技术介绍
1、随着transformer架构的出现,机器学习的模型规模得到了飞速的增长,在自然语言处理、机器视觉、音频处理等领域均获得了显著的成功。然而,这些大模型上亿的模型参数以及训练所需的海量数据样本规模给模型的训练与存储带来了巨大的负担,使得单机环境往往难以承受相应的需求。基于数据并行同步通信的分布式训练是目前解决上述问题的一种流行且有效的方法。
2、为了确保模型最终的精度,分布式训练中需要频繁地传输大量梯度参数。这些额外引入的通信开销成为了目前限制训练效率的瓶颈之一。梯度压缩方法是解决这种通信瓶颈问题的主要手段之一。其旨在参与训练的各计算节点发送梯度之前通过某种有损压缩算子进行压缩,从而有效减少所需的梯度通信量,减少通信开销。现有的梯度压缩方法主要可分为3类:梯度稀疏、梯度量化、梯度低秩近似。其中,梯度稀疏方法只传输原先每个梯度向量的一部分维度上的梯度,梯度量化使用更少的比特表示每个维度的梯度值,而梯度低秩近似将满
...【技术保护点】
1.面向大模型混精度训练的PowerSGD通信压缩优化方法,用于基于数据并行同步通信的分布式训练,其特征在于,包括:
2.如权利要求1所述的面向大模型混精度训练的PowerSGD通信压缩优化方法,其特征在于:所述基于各节点的损失值对模型参数求导,计算各节点产生的梯度,具体为:
3.如权利要求2所述的面向大模型混精度训练的PowerSGD通信压缩优化方法,其特征在于:所述采用误差补偿机制对节点的梯度进行补偿,具体为:
4.如权利要求3所述的面向大模型混精度训练的PowerSGD通信压缩优化方法,其特征在于:所述采用PowerSGD算法
...【技术特征摘要】
1.面向大模型混精度训练的powersgd通信压缩优化方法,用于基于数据并行同步通信的分布式训练,其特征在于,包括:
2.如权利要求1所述的面向大模型混精度训练的powersgd通信压缩优化方法,其特征在于:所述基于各节点的损失值对模型参数求导,计算各节点产生的梯度,具体为:
3.如权利要求2所述的面向大模型混精度训练的powersgd通信压缩优化方法,其特征在于:所述采用误差补偿机制对节点的梯度进行补偿,具体为:
4.如权利要求3所述的面向大模型混精度训练的powersgd通信压缩优化方法,其特征在于:所述采用powersgd算法对由补偿后的梯度组成的三维矩阵进行分层压缩,具体为:
5.如权利要求4所述的面向大模型混精度训练的powersgd通信压缩优化...
【专利技术属性】
技术研发人员:郑嘉琦,张照芃,陈浩,赵鹏昊,李曙鹏,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。