一种自适应维度选择的梯度压缩方法技术

技术编号:39661217 阅读:7 留言:0更新日期:2023-12-11 18:23
本发明专利技术提供一种自适应维度选择的梯度压缩方法,用于解决在分布式训练时传输梯度造成的通信开销问题,应用梯度稀疏化方法来对梯度向量进行压缩

【技术实现步骤摘要】
一种自适应维度选择的梯度压缩方法


[0001]本专利技术涉及深度学习和梯度压缩领域,具体涉及一种自适应维度选择的梯度压缩方法


技术介绍

[0002]分布式机器学习的出现使得多台计算设备可以并行处理训练任务,从而加快了大型神经网络的训练速度,同时也提高了模型的准确性和可靠性

然而在大规模深度学习模型的训练中,网络通信往往是一个非常重要的瓶颈

数据在不同机器设备之间的传输需要消耗大量的网络带宽和通信时间,这将延长训练时间和造成系统资源浪费,从而限制了分布式机器学习的可扩展性

因此,在分布式机器学习中我们需要克服通信瓶颈,优化训练过程中的通信开销

梯度压缩作为一种减少通信开销的方式,已经成为了分布式机器学习领域的研究热点

[0003]在深度学习中,模型的训练需要通过优化损失函数来最小化标签预测值与真实值之间的差距

优化算法通常使用随机梯度下降的方式来更新模型参数,因此梯度值的计算和传递在分布式训练过程中非常重要

[0004]针对上述问题,本专利技术提出了一种自适应维度选择的梯度压缩方法,设计了基于累积加权梯度的活性维度选取方法,实现梯度稀疏化,自适应选取满足条件的梯度维度参与下轮训练


技术实现思路

[0005]本专利技术技术解决问题:提供一种自适应维度选择的梯度压缩方法,以采用梯度稀疏化技术来解决在分布式训练时传输梯度造成的通信开销问题

梯度稀疏化是近年来在分布式训练领域中得到广泛应用的一种技术

该技术是为了解决分布式训练中的通信瓶颈问题而被提出的一种有效方法

其主要思想是通过将梯度中不重要的部分
(
也就是接近于0的部分
)
进行压缩或者直接去掉,只传输一些比较大的梯度值,从而减少所需要传输的数据量大小,减少通信开销

[0006]本专利技术技术解决方案:
[0007]提出了一种自适应维度选择的梯度压缩方法,设计了基于累积加权梯度的活性维度选取方法,实现梯度稀疏化,自适应选择满足条件的梯度维度参与本轮训练

[0008]具体步骤如下:
[0009](1)
基于累积加权梯度的活性维度选取

通过给本轮梯度加权提高其在全局梯度中比重,优先发送本轮中最为重要的梯度维度

[0010](2)
计算累积加权梯度

表示提高本轮梯度在全局梯度中比重的梯度,通过给本轮梯度向量加权的方式来获取

[0011](3)
本专利技术无需全局排序,而是将梯度向量均匀划分为
n
个采样区间,找到每个采样区间的全局梯度的绝对值最大值

再根据步骤
(2)
取得的累积加权梯度值,比较获取满足
条件的梯度值

[0012]所述步骤1中,通过基于累积加权梯度的活性维度选取方法选取生成梯度中本轮最为重要的梯度维度,设计了基于累积加权梯度活性维度选取算法,通过给本轮梯度加权提高其在全局梯度中比重,优先发送本轮中最为重要的梯度维度

[0013]本专利技术中,为了选取活性梯度,需要计算全局梯度
G
和累积加权梯度
H。
累积延迟梯度
r
表示在前
t
‑1轮下积累在本地未被发送的梯度值

其中
G
的计算如下式,
g
为本轮梯度向量:
[0014]G

r+g
[0015]累积加权梯度
H
表示提高本轮梯度在全局梯度中比重的梯度,通过给本轮梯度向量
g
加权的方式来获取,计算方法如下:
[0016]H

wg+r
[0017]其中
r
为累积延迟梯度表示在前
t
‑1轮下积累在本地未被发送的梯度值,
g
为本轮梯度向量,
w
是本轮梯度的权值参数

[0018]本方法无需全局排序,而是将梯度向量均匀划分为多个采样区间,找到每个采样区间的全局梯度的绝对值最大值

其区间内的累积加权梯度值大于此区间绝对值最大值的梯度维度就先添加到预更新序列,用来暂存满足条件的梯度维度索引

全部区间完成上述操作后,对预更新序列中的索引按照其对应的累积加权梯度值的绝对值排序,选取前
K
个梯度维度参与下一轮训练

[0019]通过划分区间的方式,提前过滤掉在本轮训练中影响小的梯度值,并且通过给本轮梯度赋予更高的权重,获取了本轮训练中高活性的梯度值

[0020]本专利技术提供的一种自适应维度选择的梯度压缩方法,具有以下优势:
[0021](1)
本专利技术提出了基于累积加权梯度的活性维度选取方法,通过放大最新梯度获取每次迭代中最具活性梯度维度,有效实现了高维梯度向量的稀疏化,也最大限度地减少了因历史积累梯度值和梯度陈旧性的爆炸而导致模型发散的可能性

[0022](2)
本专利技术通过划分区间的方式,提前过滤掉在本轮训练中影响小的梯度值,并且通过给本轮梯度赋予更高的权重,获取了本轮训练中高活性的梯度值,减小了排序的计算消耗

附图说明
[0023]图1是本专利技术中基于累积加权梯度的活性维度选取方法流程图;
[0024]图2是本专利技术中分布式网络模型

具体实施方式
[0025]下面结合附图和具体实施方式对本专利技术进行描述

其中附图1描述了自适应维度选择的梯度压缩过程

[0026]本专利技术具体的实现步骤:
[0027](1)
基于累积加权梯度的活性维度选取

通过给本轮梯度加权提高其在全局梯度中比重,优先发送本轮中最为重要的梯度维度

[0028](2)
为了选取活性梯度,需要计算全局梯度
G
和累积加权梯度
H。
累积延迟梯度
r

示在前
t
‑1轮下积累在本地未被发送的梯度值

其中
G
的计算如下式,
g
为本轮梯度向量:
[0029]G

r+g
[0030](3)
计算累积加权梯度
H
表示提高本轮梯度在全局梯度中比重的梯度,通过给本轮梯度向量
g
加权的方式来获取,其中
w
是本轮梯度的权值参数

计算方法如下:
[0031]H<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种自适应维度选择的梯度压缩方法,其特征在于以下步骤:
(1)
基于累积加权梯度的活性维度选取

通过给本轮梯度加权提高其在全局梯度中比重,优先发送本轮中最为重要的梯度维度
。(2)
计算累积加权梯度

表示提高本轮梯度在全局梯度中比重的梯度,通过给本轮梯度向量加权的方式来获取
。(3)
本发明无需全局排序,而是将梯度向量均匀划分为
n
个采样区间,找到每个采样区间的全局梯度的绝对值最大值

再根据步骤
(2)
取得的累积加权梯度值,比较获取满足条件的梯度值
。2.
根据权利要求1所述的自适应维度选择的梯度压缩方法,其特征在于:在所述步骤
(1)
中通过基于累积加权梯度的活性维度选取方法选取生成梯度中本轮最为重要的梯度维度,设计了基于累积加权梯度活性维度选取算法,通过给本轮梯度加权提高其在全局梯度中比重,优先发送本轮中最为重要的梯度维度
。3.
在所述步骤
(2)
中,本发明中,为了选取活性梯度,需要计算全局...

【专利技术属性】
技术研发人员:朱素霞陈俊龙孙广路
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1