【技术实现步骤摘要】
一种神经网络的训练方法、存储介质和设备
本专利技术涉及深度学习
,特别是涉及一种神经网络的训练方法、存储介质和设备。
技术介绍
随着深度学习、深度强化学习等智能化算法所面临问题复杂性的日益增强,深度神经网络的训练所需的数据规模和训练计算量剧烈增长,单机训练时长也逐渐趋于爆炸。尽管近年来GPU硬件的发展取得了长足进展,并在一定程度上为深度神经网络的训练提供了支撑,但单机训练深度神经网络的时长仍然过长。在此条件下,深度神经网络的分布式训练被提出,并逐渐引起研究人员关注。现有技术中的深度神经网络的分布式训练主要存在三种模式:模型并行、数据并行、以及模型和数据并行。模型并行主要是采用不同的计算机/计算节点对同一个深度神经网络的不同部分进行训练,以提升整个模型的训练效率,模型并行模式主要针对体量庞大的深度神经网络模型,得益于GPU硬件的快速发展,目前规模的深度神经网络在单机或单卡上基本能够得到良好支撑。数据并行则是将同一个深度神经网络模型复制为多份,分别采用不同的计算机对深度神经网络模型副本进行训练,训练 ...
【技术保护点】
1.一种神经网络的训练方法,其特征在于,包括以下步骤:/nS1、构建分布式训练框架,所述分布式训练框架包括参数节点及若干个训练节点,所述参数节点与所述若干个训练节点分别具有神经网络模型;/nS2、将所述若干训练节点的神经网络参数与所述参数节点的神经网络参数进行更新;/nS3、各训练节点基于各自的训练数据,对各自的神经网络模型进行训练,以分别更新各训练节点的神经网络参数和/或神经网络累积梯度;/nS4、各训练节点每隔预设的训练步数分别向所述参数节点发送各训练节点的神经网络参数和/或神经网络累积梯度;/nS5、参数节点分别对各训练节点的神经网络参数和/或神经网络累积梯度进行融合 ...
【技术特征摘要】
1.一种神经网络的训练方法,其特征在于,包括以下步骤:
S1、构建分布式训练框架,所述分布式训练框架包括参数节点及若干个训练节点,所述参数节点与所述若干个训练节点分别具有神经网络模型;
S2、将所述若干训练节点的神经网络参数与所述参数节点的神经网络参数进行更新;
S3、各训练节点基于各自的训练数据,对各自的神经网络模型进行训练,以分别更新各训练节点的神经网络参数和/或神经网络累积梯度;
S4、各训练节点每隔预设的训练步数分别向所述参数节点发送各训练节点的神经网络参数和/或神经网络累积梯度;
S5、参数节点分别对各训练节点的神经网络参数和/或神经网络累积梯度进行融合,以得到融合后的神经网络参数和/或神经网络累积梯度,并据其更新参数节点的神经网络参数和/或神经网络累积梯度;
S6、判断是否满足预设的模型训练终止条件,若满足则转入步骤S8,否则转入步骤S7;
S7、参数节点将融合后的神经网络参数和/或神经网络累积梯度发送给各训练节点,各训练节点根据所述融合后的神经网络参数和/或神经网络累积梯度再次训练,以分别再次更新各训练节点的神经网络参数和/或神经网络累积梯度,并转入步骤S4;
S8、参数节点输出其神经网络模型。
2.根据权利要求1所述的训练方法,其特征在于,步骤S2中所述若干训练节点的神经网络参数与所述参数节点的神经网络参数设置为同步更新。
3.根据权利要求1所述的训练方法,其特征在于,所述模型训练终止条件为:参数节点的神经网络模型的训练精度达到预设的精度的期望值。
4.根据权利要求1所述的训练方法,其特征在于,所述参数节点分别对各训练节点的神经网络参数和/或神经网络累积梯度进行融合,以得到融合后的神经网络参数和/或神经网络累积梯度进一步包括:
将各训练节点的神经网络参数或神经网络累积梯度设置为X1,X2,....,Xn,各训练节点的神经网络参数和/或神经...
【专利技术属性】
技术研发人员:贾政轩,庄长辉,肖莹莹,林廷宇,曾贲,李鹤宇,田子阳,
申请(专利权)人:北京仿真中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。