一种基于神经网络的参数更新方法、分布式训练平台系统技术方案

技术编号：29791934 阅读：16 留言：0更新日期：2021-08-24 18:11

本发明专利技术提供一种基于神经网络的参数更新方法、分布式训练平台系统。其中，根据设备内和设备间GPU的分阶段聚合，以及在设备间首节点GPU(Leader GPU)采用高效的Allreduce方式进行参数聚合，以避免中心化的PS(Parameter Server)参数聚合通信模型对多机多GPU集群可扩展性的限制；另外也可避免去中心化的Ring‑Allreduce方式在超大规模GPU集群需求下数据通信存在延时开销的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络的参数更新方法、分布式训练平台系统
本专利技术涉及深度学习领域中深度学习神经网络的参数更新技术；具体地，涉及一种基于神经网络的参数更新方法、分布式训练平台系统。
技术介绍
近年来，人工智能，特别是深度学习，在图像识别，语言处理等领域取得重大突破，并且开始广泛应用于商业活动中。深度学习能够取得如此重大突破的一个关键原因是深度学习在训练过程中处理了大量样本，从样本中学习到样本之中包含的众多特征。人工神经网络(ArtificialNeuralNetwork，ANN，以下简称神经网络)在本领域被提及时，其通常是指由一定数量的高度互联的单一处理单元(processingelements，也即节点(nodes))组成的计算系统；其中，这些处理单元通过其对外部输入的动态状态响应来处理信息。其中，深度神经网络(DeepNeuralNetwork，DNN)是人工神经网络中的一种；其在输入层和输出层之间具有多个隐藏层。与浅层ANN相似，深度神经网络能够对复杂的非线性关系建模。和大多数机器学习算法通过生成符合训练数据的模型进而在以生成的模型对输入数据进行预测一样，深度学习算法，也需要通过深度神经网络的模型训练，来找到符合的模型参数值，以使深度学习算法模型可以提供准确的预测。其中，一种深度学习神经网络训练方法的过程，包括了前向传播(forwardpasspropagation)和后向传播(backpropagation)的使用。其中，前向传播通过的损失值(loss)来评估模型性能，而反向传播则用于生成对应当前...

【技术保护点】
1.一种基于神经网络的参数更新方法，其特征在于，/n确定设备内、设备间GPU分阶段聚合；其中包括，/n设备内GPU间的参数聚合：/n对于任一设备，确定其中的一个GPU为首节点GPU；/n使设备内的各个GPU以Allreduce方式进行参数聚合；/n和之后的各个设备首节点GPU间的基于矩阵拓扑的Allreduce参数聚合：/n构建一个矩阵拓扑，将其包括所述的各个首节点GPU；/n1)在水平方向上执行reduce-scatter操作，使各行的各个GPU分别获得对应的行GPU合并参数子集；/n2)在垂直方向上分别对各列的行GPU合并参数子集执行all-reduce操作，使各列的各个GPU分别获得对应的矩阵GPU合并参数子集；/n3)在水平方向上执行all-gather操作，同步上述的矩阵GPU合并参数子集，以及标准化运算，使矩阵中的所有GPU的参数集达到完全一致的状态；/n以及之后的使设备内首节点GPU将其更新后的参数集向其他GPU的反向广播，最终实现各个设备各个GPU间的参数更新。/n

【技术特征摘要】
1.一种基于神经网络的参数更新方法，其特征在于，
确定设备内、设备间GPU分阶段聚合；其中包括，
设备内GPU间的参数聚合：
对于任一设备，确定其中的一个GPU为首节点GPU；
使设备内的各个GPU以Allreduce方式进行参数聚合；
和之后的各个设备首节点GPU间的基于矩阵拓扑的Allreduce参数聚合：
构建一个矩阵拓扑，将其包括所述的各个首节点GPU；
1)在水平方向上执行reduce-scatter操作，使各行的各个GPU分别获得对应的行GPU合并参数子集；
2)在垂直方向上分别对各列的行GPU合并参数子集执行all-reduce操作，使各列的各个GPU分别获得对应的矩阵GPU合并参数子集；
3)在水平方向上执行all-gather操作，同步上述的矩阵GPU合并参数子集，以及标准化运算，使矩阵中的所有GPU的参数集达到完全一致的状态；
以及之后的使设备内首节点GPU将其更新后的参数集向其他GPU的反向广播，最终实现各个设备各个GPU间的参数更新。

2.根据权利要求1所述的基于神经网络的参数更新方法，其特征在于，
其中的不同设备的首节点GPU间的参数更新，采用RDMA网络通信。

3.根据权利要求1-2任一所述的基于神经网络的参数更新方法，其特征在于，
其中确定首节点GPU时，选择与用于跨设备通信的网络设备最近的、跳数最少的GPU作为该机器设备的首节点GPU。

4.根据权利要求3所述的基于神经网络的参数更新方法，其特征在于，
选择能够直接对所述网络设备直接进行存取操作的GPU，作为所述的首节点GPU。

【专利技术属性】
技术研发人员：张曼妮，李杨，张翔宇，孙军欢，
申请(专利权)人：深圳致星科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人