当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于双向分割的神经网络流水线并行训练方法及系统技术方案

技术编号:37291326 阅读:25 留言:0更新日期:2023-04-21 03:21
本发明专利技术公开了一种基于双向分割的神经网络流水线并行训练方法及系统,所述方法包括:对神经网络模型进行实机测试,获得神经网络模型的相关参数;基于神经网络模型的相关参数,以及分布式各个节点的硬件约束,通过以找到一个使得流水线执行时间最小的最优分割方案为目标的双向模型分割算法得出每个节点上需要计算的前向传播以及反向传播范围,作为模型分割的结果;根据模型分割的结果,在每个节点上部署相应部分的神经网络模型,根据前向传播和反向传播分别分割的结果,进行迭代训练,直至神经网络模型收敛。本发明专利技术提高了流水线模型并行训练系统的训练效率。行训练系统的训练效率。行训练系统的训练效率。

【技术实现步骤摘要】
一种基于双向分割的神经网络流水线并行训练方法及系统


[0001]本专利技术涉及分布式计算
,具体涉及一种神经网络流水线并行训练方法及系统。

技术介绍

[0002]人工智能技术经过近几十年的发展,已经成为了计算机科学中重要的研究领域。深度神经网络凭借大数据时代的海量数据驱动,作为人工智能领域研究中的重要成果,已经促进了一系列应用领域的巨大进步,包括图像识别、语音识别和机器翻译等。
[0003]随着深度神经网络研究的发展,研究者们不断提出的精度更高,表达能力更强的深度神经网络模型。这些深度神经网络模型发展的趋势是深度更深,参数规模更大。例如在自然语言处理领域中,近年处理任务表现最好的模型的参数规模由2018年ELMo的9400万参数,到2019年GPT

2的15亿参数,再到2020年GPT

3拥有1750亿参数。由此可见,深度神经网络参数规模大小逐年迅速增长。
[0004]参数规模日益庞大的神经网络虽然带来了更好的性能表现,但也使得训练它们的计算成本越来越高。目前硬件设备GPU(Grap本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双向分割的神经网络流水线并行训练方法,其特征在于,包括以下步骤:对神经网络模型进行实机测试,获得神经网络模型的相关参数;基于神经网络模型的相关参数,以及分布式各个节点的硬件约束,通过以找到一个使得流水线执行时间最小的最优分割方案为目标的双向模型分割算法得出每个节点上需要计算的前向传播以及反向传播范围,作为模型分割的结果;根据模型分割的结果,在每个节点上部署相应部分的神经网络模型,根据前向传播和反向传播分别分割的结果,进行迭代训练,直至神经网络模型收敛。2.根据权利要求1所述的方法,其特征在于,所述双向模型分割算法以A(i1,j1,i2,j2,m)代表在m个节点上执行神经网络训练前向传播范围从第i1层到第j1层、反向传播范围从第i2层到第j2层的执行时间,其中1≤i1,j1,i2,j2≤L,L为神经网络层数最大值,通过动态规划的思想,将求解问题A(i1,j1,i2,j2,m)分解为求解两个子问题A(i1,s1,i2,s2,m

m

)和A(s1+1,j1,s2+1,j2,m

),其中利用三元组(s1,s2,m

)对母问题进行分割,i1≤s1≤j1,i2≤s2≤j
2,
1≤m

≤m,s1分割了前向计算范围[i1,j1],s2分割了反向计算范围[i2,j2],m

分割了设备数量。3.根据权利要求2所述的方法,其特征在于,对问题A(i1,j1,i2,j2,m)的求解公式表示为:其中a
s1
表示对于前向计算在s1处进行分割输出的激活值大小,a
s2
表示对于后向计算在s2处进行分割输出的激活值大小。4.根据权利要求3所述的方法,其特征在于,所述双向模型分割算法包括:当m=1时,通过直接计算设备前向传播和反向传播所包含的层的计算时间得到所有合法的A(i1,j1,i2,j2,1);从m=2开始,逐个计算所有合法的A(i1,j1,i2,j2,m),并且遍历所有合法的三元组(s1,s2,m

),通过动态规划的思想,利用三元组(s1,s2,m

)分割A(i1,j1,i2,j2,m)得到两个子问题A(i1,s1,i2,s2,m

m

)和A(s1+1,j1,s2+1,j2,m

),穷举所有的三元组(s1,s2,m

)找到令A(i1,j1,i2,j2,m)所代表的流水线执行时间最短的那一个三元组,然后记录下该最优的A(i1,j1,i2,j2,m)的值作为后续求解其余A(i1,j1,i2,j2,m)的子问题的值,并且记录下该最优值对应的三元组(s1,s2,m

)代表该次分割点;最终,得到A(1,L,1,L,m)后,该时间就是通过动态规划求解后的流水线并行执行时间最小时间,通过递归的方式,对该值对应的五元组(1,L,1,L,m)进行回溯,得出每个值对应的三元组的值(s1,s2,m

),即为模型分割方案的结果。5.根据权利要求1所述的方法,其特征在于,训练神经网络模型使用1F1B的策略,同时输入节点数量batch数据,流水线中的节点在做完一次前向计算后立刻进行一次反向计算,两个计算的batch数据不同。6.一种基于双向分割的神经网络流水线并行训练系统,其特征在于,包...

【专利技术属性】
技术研发人员:叶保留崔凌云屈志昊
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1