一种基于模型结构特性的分布式深度学习通信方法和系统技术方案

技术编号:23853846 阅读:51 留言:0更新日期:2020-04-18 10:02
本发明专利技术公开了一种基于模型结构特性的分布式深度学习通信方法和系统,属于深度学习领域。包括:使用分布式集群预训练深度神经网络模型,对于每台机器,计算各层网络之前所有层的前向计算与后向计算所用时间总和T

A distributed deep learning communication method and system based on the characteristics of model structure

【技术实现步骤摘要】
一种基于模型结构特性的分布式深度学习通信方法和系统
本专利技术属于深度学习
,更具体地,涉及一种基于模型结构特性的分布式深度学习通信方法和系统。
技术介绍
随着训练数据集的规模增大,以及深度神经网络模型的层数越来越深,在单台机器中训练模型常常会受到机器性能的限制,无论是在数据还是模型规模上都存在无法达到实际应用需求的问题。在这样的背景之下,越来越多的人开始关注将深度学习和分布式系统结合在一起。其中一个关键问题就是如何才能高效利用分布式集群中的资源来训练模型。在基于PS架构的大规模深度学习分布式训练中,通常有多个worker及多个server,训练数据被切分到每个worker上,每个server负责一部分网络的权值参数的更新。worker节点训练网络,计算梯度并将梯度推送至参数服务器server端。server用累积梯度更新权值参数,随后worker从server端拉取最新的权值进行下一轮迭代计算。节点训练得到的梯度推送至参数服务器进行同步主要用到两种并行机制:同步并行和异步并行。在一个有N台机器的集群中,如果使用同步并行机本文档来自技高网...

【技术保护点】
1.一种基于模型结构特性的分布式深度学习通信方法,其特征在于,该方法包括以下步骤:/nS1.使用N台机器构成的分布式集群,预训练M层深度神经网络模型,对于每台机器,计算各层网络之前所有层的前向计算与后向计算所用时间总和T

【技术特征摘要】
1.一种基于模型结构特性的分布式深度学习通信方法,其特征在于,该方法包括以下步骤:
S1.使用N台机器构成的分布式集群,预训练M层深度神经网络模型,对于每台机器,计算各层网络之前所有层的前向计算与后向计算所用时间总和Tij,i=1,2…,N,j=1,2,…,M;
S2.对于每个server,对在[min{ti′j},min{ti′j+Ti′j})期间收集到的第j层网络梯度,在min{ti′j+Ti′j}时间点进行累加,并用第j层网络的累加梯度更新第j层网络的权值参数,ti′j表示第i′台机器提交第j层网络梯度的时间点,i′∈{n|n是当前提交了该层网络梯度的机器节点号}。


2.如权利要求1所述的方法,其特征在于,步骤S1包括以下步骤:
S11.对于第i台机器,记录训练第j层网络时的前向计算forward与后向计算backward分别所用时间tfij与tbij;
S12.对于第i台机器,计算该层网络之前所有层的前向计算与后向计算所用时间总和,记为Tij,


3.如权利要求1或2所述的方法,其特征在于,在梯度累加之前,基于worker节点的个数N和该梯度的陈旧度,对梯度进行缩放。


4.如权利要求3所述的方法,其特征在于,所述对梯度进行缩放,包括以下步骤:
(1)记录第i′台机器上一次提交第j层网络梯度与这次提交第j层网络梯度期间第j层网络的权值参数被更新过的次数,作为此次提交第j层网络梯度gradi′j的陈旧度stali′j;
(2)根据worker节点的个数N和梯度gradi′j的陈旧度stali′j,计算梯度gradi′j的缩放因子;



(3)用该梯度缩放因子对梯度gradi′j进行缩放
gradi′j=gradi′j*f(stali′j)。


5.一种基于模型结构特性的分布式深度学习通信系统,其特征在于,该系统包括:
预训练模块,用于使用N台机器构成的分布式集...

【专利技术属性】
技术研发人员:蒋文斌金海彭晶刘湃祝简刘博
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1