一种基于线性规划优化的分布式深度学习训练方法及系统技术方案

技术编号:39417082 阅读:9 留言:0更新日期:2023-11-19 16:07
本发明专利技术公开了一种基于线性规划优化的分布式深度学习训练方法及系统,该方法包括:获取训练模型的环境参数及网络参数;基于环境参数及网络参数构建梯度通信的各项时间约束,并组建线性规划模型;利用线性规划求解器求解线性规划模型,得到耗时最短的梯度发送方案。该系统包括:参数获取模块、模型构建模块和模型求解模块。通过使用本发明专利技术,能够根据网络和梯度特征自动选择最佳通信方案,减少通信消耗,提升分布式训练性能。本发明专利技术可广泛应用于深度学习技术领域。学习技术领域。学习技术领域。

【技术实现步骤摘要】
一种基于线性规划优化的分布式深度学习训练方法及系统


[0001]本专利技术涉及深度学习
,尤其涉及一种基于线性规划优化的分布式深度学习训练方法及系统。

技术介绍

[0002]随着深度学习在计算机视觉、自然语言处理等领域的广泛应用,构建更加复杂的神经网络模型以取得更高的算法性能成为重要趋势。但是复杂的大模型意味着需要大量的训练数据和计算资源。因此,使用多台计算设备进行分布式并行训练成为一个关键技术。目前主流的分布式训练算法包括数据并行和模型并行,但都存在着通信效率低下的问题。尤其是随着参与训练的设备数量增加,梯度通信越来越成为训练时间的瓶颈。因此研究高效的分布式训练算法以减少通信成本,使之更好地规模化,是提升深度学习训练效率的重要方向。
[0003]目前分布式深度学习训练中,参数服务器和Ring

Allreduce都是常用的通信架构。参数服务器存在单点瓶颈问题,Ring

Allreduce的固定梯度传输频率又无法适应不同规模梯度的最优传输方案。现有算法大多依赖经验超参数设置通信频率,未能充分考虑网络和动态梯度变化对通信方案的影响。

技术实现思路

[0004]为了解决上述技术问题,本专利技术的目标是提供一种基于线性规划优化的分布式深度学习训练方法及系统,能够根据网络和梯度特征自动选择最佳通信方案,减少通信消耗,提升分布式训练性能。
[0005]本专利技术所采用的第一技术方案是:一种基于线性规划优化的分布式深度学习训练方法,包括以下步骤:
>[0006]获取训练模型的环境参数及网络参数;
[0007]基于环境参数及网络参数构建梯度通信的各项时间约束,并组建线性规划模型;
[0008]利用线性规划求解器求解线性规划模型,得到耗时最短的梯度发送方案。
[0009]进一步,所述环境参数包括带宽、计算能力、通信额外成本和固定成本;所述网络参数包括训练模型中每一层的梯度计算量、梯度通信量、发送状态、梯度计算开始时间。
[0010]进一步,所述基于环境参数及网络参数构建梯度通信的各项时间约束,并组建线性规划模型这一步骤,其具体包括:
[0011]基于当前层的梯度计算量和计算能力构建梯度计算时间约束;
[0012]基于当前层的梯度通信量和带宽构建梯度通信理论时长约束;
[0013]基于当前层的梯度计算时间和上一层的梯度通信结束时间构建梯度通信开始时间约束;
[0014]基于梯度通信开始时间、当前层通信理论持续时间、通信额外成本和固定成本构建梯度通信结束时间约束;
[0015]基于梯度通信理论时长、上一层缓冲区的值和发送状态构建缓冲区约束;
[0016]基于发送状态、上一层缓冲区的值和梯度通信理论时长构建梯度通信的理论持续时间约束;
[0017]基于当前层缓冲区的值、梯度通信理论时长和缓冲阈值构建发送状态判断约束。
[0018]通过该优选步骤,利用线性规划模型对训练模型的梯度数据传输流程进行优化。
[0019]进一步,所述梯度通信结束时间约束,其表达式如下:
[0020]Te
com
(i)≥(Ts
com
(i)+T
tal
(i)
·
(1+Ex)+Cost)
[0021]其中,Te
com
(i)表示第i层梯度通信结束时间,Ts
com
(i)表示第i层梯度通信开始时间,T
tal
(i)表示第i层通信理论持续时间,Ex表示通信额外成本,Cost表示固定成本。
[0022]进一步,所述缓冲区约束,其表达式如下:
[0023]Bf(i)≥(Bf(i

1)+T(i))
·
(1

State(i))
[0024]其中,Bf(i)表示第i层缓冲区的值,Bf(i

1)表示第i

1层缓冲区的值,T(i)表示第i层梯度通信理论时长,State(i)表示第i层的发送状态。
[0025]进一步,所述梯度通信的理论持续时间约束,其表达式如下:
[0026]T
tal
(i)≥(Bf(i

1)+T(i))
·
State(i)
[0027]其中,T
tal
(i)表示第i层梯度通信的理论持续时间,Bf(i

1)表示第i

1层缓冲区的值,T(i)表示第i层梯度通信理论时长,State(i)表示第i层的发送状态。
[0028]进一步,所述发送状态判断约束,其表达式如下:
[0029][0030]其中,State(i)表示第i层的发送状态,Buffer表示缓冲阈值,T(i)表示第i层梯度通信理论时长,Bf(i)表示第i层缓冲区的值。
[0031]进一步,所述利用线性规划求解器求解线性规划模型,得到耗时最短的梯度发送方案这一步骤,其具体包括:
[0032]根据当前层的梯度规模,动态调整当前层的发送状态;
[0033]在求解过程中将最后一层梯度通信结束时间最小化作为优化目标,得到耗时最短的梯度发送方案。
[0034]通过该优选步骤,可以自动适应不同规模梯度,动态确定最优方案;当需要传输多个小批量梯度时,梯度发送方案会进行融合传输;当遇到大批量梯度时,梯度发送方案会根据梯度准备时间动态调整传输时机,避免固定频率带来的等待时间。
[0035]本专利技术所采用的第二技术方案是:一种基于线性规划优化的分布式深度学习训练系统,包括:
[0036]参数获取模块,用于获取训练模型的环境参数及网络参数;
[0037]模型构建模块,基于环境参数及网络参数构建梯度通信的各项时间约束,并组建线性规划模型;
[0038]模型求解模块,利用线性规划求解器求解线性规划模型,得到耗时最短的梯度发送方案。
[0039]本专利技术方法及系统的有益效果是:本专利技术根据训练模型的环境参数及网络参数构建线性规划模型;以最小化总传输时间为目标,利用线性规划求解器求解线性规划模型,得
到梯度数据的最佳发送方案;从而减少通信消耗,提升分布式训练性能。
附图说明
[0040]图1是本专利技术一种基于线性规划优化的分布式深度学习训练方法的步骤流程图;
[0041]图2是本专利技术一种基于线性规划优化的分布式深度学习训练系统的结构框图;
[0042]图3是本专利技术一种基于线性规划优化的分布式深度学习训练方法的程序流程图;
[0043]图4是本专利技术一种基于线性规划优化的分布式深度学习训练方法的通信计算管道时空图图。
具体实施方式
[0044]下面结合附图和具体实施例对本专利技术做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于线性规划优化的分布式深度学习训练方法,其特征在于,包括以下步骤:获取训练模型的环境参数及网络参数;基于环境参数及网络参数构建梯度通信的各项时间约束,并组建线性规划模型;利用线性规划求解器求解线性规划模型,得到耗时最短的梯度发送方案。2.根据权利要求1所述一种基于线性规划优化的分布式深度学习训练方法,其特征在于,所述环境参数包括带宽、计算能力、通信额外成本和固定成本;所述网络参数包括训练模型中每一层的梯度计算量、梯度通信量、发送状态、梯度计算开始时间。3.根据权利要求1所述一种基于线性规划优化的分布式深度学习训练方法,其特征在于,所述基于环境参数及网络参数构建梯度通信的各项时间约束,并组建线性规划模型这一步骤,其具体包括:基于当前层的梯度计算量和计算能力构建梯度计算时间约束;基于当前层的梯度通信量和带宽构建梯度通信理论时长约束;基于当前层的梯度计算时间和上一层的梯度通信结束时间构建梯度通信开始时间约束;基于梯度通信开始时间、当前层通信理论持续时间、通信额外成本和固定成本构建梯度通信结束时间约束;基于梯度通信理论时长、上一层缓冲区的值和发送状态构建缓冲区约束;基于发送状态、上一层缓冲区的值和梯度通信理论时长构建梯度通信的理论持续时间约束;基于当前层缓冲区的值、梯度通信理论时长和缓冲阈值构建发送状态判断约束。4.根据权利要求3所述一种基于线性规划优化的分布式深度学习训练方法,其特征在于,所述梯度通信结束时间约束,其表达式如下:Te
com
(i)≥(Ts
com
(i)+T
tal
(i)
·
(1+Ex)+Cost)其中,Te
com
(i)表示第i层梯度通信结束时间,Ts
com
(i)表示第i层梯度通信开始时间,T
tal
(i)表示第i层通信理论持续时间,Ex表示通信额外成本,Cost表示固定成本。5.根据权利要求3所述一种基于线性规划优化的分布式深度学习训练方法,其特征在...

【专利技术属性】
技术研发人员:王卓薇郑铭强杨乐陈勇生王瑞升
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1