一种基于三元组的分布式深度学习通信的梯度优化压缩方法技术

技术编号：35870940 阅读：53 留言：0更新日期：2022-12-07 11:05

本发明专利技术公开了一种基于三元组的分布式深度学习通信的梯度优化压缩方法，包括获取参数列表，由参数获取其对应的优化梯度列表；使用随机化的三元组压缩算法对梯度进行编码，将梯度分量压缩为两位二进制数，并存储编码中每个分量所占位数，同时选取扩张值；对编码后的完整数据进行节点间的AllReduce同步，传输时使用三元组的求和方法进行增量位数迭代；按照编码后的完整数据对接收方的缓冲区进行扩张；将编码后的完整数据解码；求取解码后每个梯度的平均值；计算更新参数。可在保证分布式深度学习计算节点的迭代间等待时间不超过基准线的情况下提高单位时间内传输梯度的吞吐量并减少梯度的传输延迟。少梯度的传输延迟。少梯度的传输延迟。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于三元组的分布式深度学习通信的梯度优化压缩方法

[0001]本专利技术属于AllReduce通信
，具体涉及一种基于三元组的分布式深度学习通信的梯度优化压缩方法。

技术介绍

[0002]随着深度学习在各个领域的蓬勃发展，深度学习训练的模型规模和样本规模也在不断扩大，在单GPU训练无法满足计算性能需求与模型存储需求的情况下，使用多节点多GPU进行分布式深度学习已经成为目前的研究热点。但是使用分布式方式进行深度学习势必会集成以往分布式计算的一些缺陷，并行模型理想情况下可以达到串行模型的线性加速比提升，而真实情况下，线性加速比是一个很难实现的目标，而造成加速比偏差的原因，就是在分布式计算模型中，节点间的通信会占用大量的时间开销。
[0003]目前，分布式深度学习的并行模式可以分为数据并行和模型并行，数据并行由于其出色的可编码性和模型融合速度已经成为大多数分布式深度学习开发者的首选模式。在使用模型并行进行的分布式深度学习时，可以根据系统的架构使用两种不同的同步方式，一种是参数服务器(Parameter Server)架构，另一种是AllReduce架构。参数服务器一般是使用除GPU节点以外的计算节点作为汇总所有其他节点计算梯度与分发更新参数的控制服务器，是一种中心化的通信架构，而AllReduce是在所有GPU计算节点之间进行数据传输，在各自计算节点上使用其他所有节点计算的梯度更新参数，是一种典型的去中心化通信架构。由于AllReduce同步方式出色的性能和较为成熟的生态支持，也成为了目前的主流训练方式。...

【技术保护点】

【技术特征摘要】
1.一种基于三元组的分布式深度学习通信的梯度优化压缩方法，其特征在于，包括：步骤1：获取分布式深度学习通信的参数列表，由参数获取其对应的优化梯度列表；步骤2：使用随机化的三元组压缩算法对梯度进行编码，将梯度分量压缩为两位二进制数，并存储编码中每个分量所占位数，同时选取扩张值；步骤3：对步骤2编码后的完整数据进行节点间的AllReduce同步，传输时使用三元组的求和方法进行增量位数迭代；步骤4：AllReduce同步结束后，每个节点拥有所有编码后的完整数据，按照编码后的完整数据对接收方的缓冲区进行扩张；步骤5：调用解压缩算法，结合步骤2的扩张值，将编码后的完整数据解码；步骤6：调用AllReduce的求平均方法求取解码后每个梯度的平均值；步骤7：根据步骤6每个梯度的平均值，计算更新参数。2.根据权利要求1所述的一种基于三元组的分布式深度学习通信的梯度优化压缩方法，其特征在于，所述梯度采用32为浮点数表示。3.根据权利要求1所述的一种基于三元组的分布式深度学习通信的梯度优化压缩方法，其特征在于，所述步骤2具体如下：步骤2.1：所有节点将本轮迭代计算出的最大分量值广播给其余所有节点；步骤2.2：每个节点获取到其他节点的最大分量值后，选取整个系统本轮迭代的最大分量值，作为扩张值存储；步骤2.3：使用扩张值进行概率运算，概率运算的结果代表每个分量在本轮迭代时压缩后的值；步骤2.4：使用概率运算结果和每个分量的符号函数进行乘积操作，得出压缩后的分量值；步骤2.5：对步骤2.4中的压缩结果进行编码，使用UINT8数据类型存储所有分量的二进制编码，合并成为UINT32数据后存储于缓冲区中，同时取一个UINT8格式空间存入分量编码位数。4.根据权利要求3所述的一种基于三元组的分布式深度学习通信的梯度优化压缩方法，其特征在于，所述步骤2.1中，所有节点使用Broadcast通信方法，将本轮迭代计算出的最大分量值广播给其余所有节点。5.根据权利要求1所述的一种基于三元组的分布式深度学习通信...

【专利技术属性】
技术研发人员：肖利民，刘禹廷，王良，贾志斌，郭为，
申请(专利权)人：北京天数微芯半导体科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人