【技术实现步骤摘要】
神经网络的梯度稀疏方法和梯度稀疏装置
[0001]本申请涉及人工智能
,尤其涉及神经网络的梯度稀疏方法和梯度稀疏装置。
技术介绍
[0002]随着近年来人工智能(artificial intelligence,AI)的不断发展,人工智能已经在全世界的范围内引起一轮新的创新和变革,开始推进人类从信息化向智能化时代发展和转变。与此同时,新的变化也在人工智能领域中不断发生。人工智能技术的发展从学术阶段逐步走向实验阶段,向着学术界产业界协同推进的产业化阶段持续发展着。
[0003]人工智能的关键技术是神经网络。神经网络通过模拟人脑神经细胞连接,将大量的、简单的处理单元(称为神经元)广泛互连,形成复杂的网络系统。当前,大型的深度神经网络普遍使用分布式训练的方法来加快训练速度。训练过程中,分布式训练系统中各节点之间需要频繁进行梯度传输来同步各节点上的模型参数。
[0004]目前,使用分布式训练方法来训练神经网络,一方面,需要节点配置昂贵的高带宽网络,加大硬件成本;另一方面,随着分布式训练系统的节点数增多,分布式训练 ...
【技术保护点】
【技术特征摘要】
1.一种神经网络的梯度稀疏方法,其特征在于,所述梯度稀疏方法应用于分布式训练系统中,所述分布式训练系统用于对所述神经网络进行N轮迭代训练,所述分布式训练系统中包括M个训练装置,所述M个训练装置中的每个训练装置中部署有所述神经网络,N和M为大于1的正整数,所述方法包括:所述M个训练装置中的第一训练装置仅在所述N轮迭代训练中的第i轮迭代训练中,根据当前梯度集合更新存储器中的稀疏阈值,所述当前梯度集合中包含所述第一训练装置在所述第i轮迭代训练中为所述神经网络计算的参数梯度,i为小于N的正整数,且i为m的整数倍,m为小于N且大于1的整数;所述第一训练装置在所述第i轮迭代训练中,使用所述存储器中的稀疏阈值对所述当前梯度集合中的梯度进行稀疏处理,得到所述稀疏梯度。2.根据权利要求1所述的方法,其特征在于,所述第一训练装置在所述第i轮迭代训练中根据所述当前梯度集合更新所述存储器中的稀疏阈值,与所述第一训练装置在所述第i轮迭代训练中使用所述存储器中的稀疏阈值对所述当前梯度集合中的梯度进行稀疏处理,并行执行。3.根据权利要求1或2所述的方法,其特征在于,所述M个训练装置中的第一训练装置仅在所述N轮迭代训练中的第i轮迭代训练中,根据当前梯度集合更新存储器中的稀疏阈值,包括:所述第一训练装置仅在所述第i轮迭代训练中,根据当前梯度均值、历史梯度均值、当前梯度标准差、历史梯度标准差和存储器中的稀疏阈值计算得到新稀疏阈值,并将所述存储器中的稀疏阈值更新为所述新稀疏阈值,所述当前梯度均值为所述当前梯度集合中的梯度的均值,所述历史梯度均值为历史梯度集合中的梯度的均值,所述历史梯度集合中包括所述第一训练装置计算所述存储器中更新前的稀疏阈值所使用的参数梯度,所述当前梯度标准差为所述当前梯度集合中的梯度的标准差,所述历史梯度标准差为所述历史梯度集合中的梯度的标准差,所述存储器中更新前的稀疏阈值和所述历史梯度均值之间的映射关系与所述存储器中更新后的稀疏阈值与所述当前梯度均值之间的映射关系相同。4.根据权利要求3所述的方法,其特征在于,所述新稀疏阈值、所述当前梯度均值、所述历史梯度均值、所述当前梯度标准差、所述历史梯度标准差与所述存储器中更新前的稀疏阈值之间满足如下关系式:其中,th
new
表示所述新稀疏阈值,th表示所述存储器中更新前的稀疏阈值,μ表示所述历史梯度均值,μ
new
表示所述当前梯度均值,σ表示所述当前梯度标准差,σ
new
表示所述历史梯度标准差。5.根据权利要求1或2所述的方法,其特征在于,所述M个训练装置中的第一训练装置仅在所述N轮迭代训练中的第i轮迭代训练中,根据当前梯度集合更新存储器中的稀疏阈值,包括:所述第一训练装置仅在所述第i轮迭代训练中,根据所述当前梯度集合中目标梯度的比例更新存储器中的稀疏阈值,其中,若所述比例大于或等于第一阈值,则所述第一训练装置减小所述存储器中的稀疏阈值,若所述比例小于或等于第二阈值,则所述第一训练装置
增大所述存储器中的稀疏阈值,所述目标梯度包括小于或等于所述存储器中更新前的稀疏阈值的梯度。6.根据权利要求5所述的方法,其特征在于,所述第一训练装置仅在所述第i轮迭代训练中,根据当前梯度集合中目标梯度的比例更新存储器中的稀疏阈值,包括:所述第一训练装置根据所述当前梯度集合和所述存储器中的稀疏阈值生成所述当前梯度集合对应的稀疏掩码矩阵,所述稀疏掩码矩阵中的每个元素的值为1表示所述每个元素对应的梯度大于所述存储器中的稀疏阈值,所述每个元素的值为0表示所述每个元素对应的梯度小于或等于所述存储器中的稀疏阈值;所述第一训练装置根据所述稀疏掩码矩阵中值为0的元素的数量计算所述比例,其中,所述稀疏掩码矩阵中所有元素的和、所述稀疏掩码矩阵中的所有元素的个数和所述比例之间满足如下关系式:sparse ratio=1
‑
sum(mask)/size(mask)如果sparse ratio
‑
sr>ε,则th
new
=th
‑
α*th;如果sparse ratio
‑
sr<
‑
ε,则th
new
=th+α*th;其中,sparse ratio表示所述稀疏掩码矩阵中值为0的元素所占的比例,sum(mask)表示所述稀疏掩码矩阵中所有元素的和,size(mask)表示所述稀疏掩码矩阵中的所有元素的数量,th
new
表示所述新稀疏阈值,th表示所述存储器中更新前的稀疏阈值,sr是预设的稀疏度,α是每次更新阈值的步长,ε是一个预设的超参数。7.一种神经网络的梯度稀疏方法,其特征在于,所述梯度稀疏方法应用于分布式训练系统中,所述分布式训练系统用于对所述神经网络进行N轮迭代训练,所述分布式训练系统中包括M个训练装置,所述M个训练装置中的每个训练装置中部署有所述神经网络,N和M为大于1的正整数,所述方法包括:所述N轮迭代训练中的第i轮迭代训练中,所述M个训练装置中的第一训练装置根据当前梯度集合更新存储器中的稀疏阈值,所述当前梯度集合中包含所述第一训练装置在所述第i轮迭代训练中为所述神经网络计算的参数梯度,i为小于或等于N的正整数,且i大于1;在所述第i轮迭代训练中,所述第一训练装置使用所述存储器中的稀疏阈值对所述当前梯度集合中的梯度进行稀疏处理,得到所述稀疏梯度;并且,在所述第i轮迭代训练中,所述第一训练装置根据所述当前梯度集合更新所述存储器中的稀疏阈值,与所述第一训练装置使用所述存储器中的稀疏阈值对所述当前梯度集合中的梯度进行稀疏处理,并行执行。8.根据权利要求7所述的方法,其特征在于,所述M个训练装置中的第一训练装置根据当前梯度集合更新存储器中的稀疏阈值,包括:所述第一训练装置根据当前梯度均值、历史梯度均值、当前梯度标准差、历史梯度标准差和存储器中的稀疏阈值计算得到新稀疏阈值,并将所述存储器中的稀疏阈值更新为所述新稀疏阈值,所述当前梯度均值为所述当前梯度集合中的梯度的均值,所述历史梯度均值为历史梯度集合中的梯度的均值,所述历史梯度集合中包括所述第一训练装置计算所述存储器中更新前的稀疏阈值所使用的参数梯度,所述当前梯度标准差为所述当前梯度集合中的梯度的标准差,所述历史梯度标准差为所述历史梯度集合中的梯度的标准差,所述存储器中更新前的稀疏阈值和所述历史梯度均值之间的映射关系与所述存储器中更新后的稀
疏阈值与所述当前梯度均值之间的映射关系相同。9.根据权利要求8所述的方法,其特征在于,所述新稀疏阈值、所述当前梯度均值、所述历史梯度均值、所述当前梯度标准差、所述历史梯度标准差与所述存储器中更新前的稀疏阈值之间满足如下关系式:其中,th
new
表示所述新稀疏阈值,th表示所述存储器中更新前的稀疏阈值,μ表示所述历史梯度均值,μ
new
表示所述当前梯度均值,σ表示所述历史梯度标准差,σ
new
表示所述当前梯度标准差。10.根据权利要求7所述的方法,其特征在于,所述M个训练装置中的第一训练装置根据当前梯度集合更新存储器中的稀疏阈值,包括:根据所述当前梯度集合中目标梯度的比例更新存储器中的稀疏阈值,其中,若所述比例大于或等于第一阈值,则所述第一训练装置减小所述存储器中的稀疏阈值,若所述比例小于或等于第二阈值,则所述第一训练装置增大所述存储器中的稀疏阈值,所述目标梯度包括小于或等于所述存储器中更新前的稀疏阈值的梯度。...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。