一种深度置信网的流水线式预训练方法技术

技术编号：18498115 阅读：45 留言：0更新日期：2018-07-21 20:40

本发明专利技术提供了一种基于DNN的蒙古语声学模型的训练方法。用DNN深度神经网络代替GMM高斯混合模型，实现对蒙古语声学状态的后验概率进行估算，构建DNN‑HMM声学模型，并公开了该模型的训练方法。本发明专利技术可有效降低词识别的错误率和字识别的错误率，提高模型使用性能。本发明专利技术涉及一种深度置信网的流水线式预训练方法，以解决深度置信网逐层训练耗时、效率低的问题。在逐层无监督预训练算法中，采用了堆叠RBM的方式来完成深度神经网络的预训练，在下层隐含层完成全部训练数据的拟合之前，不开始上层隐含层的训练任务的，因为上层隐含层的输入来自于下层隐含层的输出，这就是隐含层间的数据依赖。

A pipelined pre training method for deep belief network

The invention provides a training method of Mongolian acoustic model based on DNN. Using the DNN deep neural network instead of the GMM Gauss mixture model, the posterior probability of the Mongolian acoustic state is estimated, and the DNN HMM acoustic model is constructed, and the training method of the model is disclosed. The invention can effectively reduce the error rate of word recognition and the error rate of word recognition, and improve the performance of the model. The invention relates to a pipeline pre training method for deep confidence network, which solves the problem of time-consuming and low efficiency of deep confidence network by layer by layer training. In the layer by layer unsupervised pre training algorithm, the stack RBM is used to complete the pre training of the deep neural network. The training task of the upper hidden layer is not started before the underlying layer is fitted to complete the fitting of all the training data, because the input of the upper layer comes from the output of the underlying layer, which is the hidden layer. Data dependence between them.

全部详细技术资料下载

【技术实现步骤摘要】
一种深度置信网的流水线式预训练方法
本专利技术涉及一种深度置信网的流水线式预训练方法，以解决深度置信网逐层训练耗时、效率低的问题。
技术介绍
在采用逐层无监督预训练算法进行深度神经网络初始化过程中，深度神经网络可以看作是一系列隐含层的有序堆叠，每个隐含层通过对其输入进行非线性变化，完成对输入数据的特征提取。然而，逐层无监督预训练算法由于其内在的逐层有序学习过程，每次只能有一个隐含层进行训练学习，即上层的隐含层由于对下层存在着数据依赖，必须等待下层隐含层训练完成后，才能得到输入数据，从而开始自身的训练，因此逐层无监督预训练算法的扩展性受到了很大的限制。随着网络层数、隐含层节点数目的增多以及训练数据的增长，即使采用高性能GPU和高效的优化策略，深度神经网络的训练也极为耗时。现有技术对加速深度神经网络的训练，主要工作集中在如何利用分布式集群实现深度神经网络的并行化训练，从而提高网络的训练效率。深度神经网络的并行化训练主要分为模型并行和数据并行两类。模型并行表示整个深度神经网络模型分别存储在框架中的机器上，即模型参数被分布式存储在多台机器上，每台机器仅保存和训练一部分模型参数。因此，训练过程中要求模型的各节点间进行大量的通信和同步操作，从而使模型并行策略的效果并不明显。数据并行表示整个深度神经网络的模型参数存储于主节点上，各从节点通过随机的选取训练样本计算梯度从而完成对主节点模型参数的更新较为适合主从式分布式集群，在数据并行策略中。相比模型并行，数据并行更加有效和易于实现。
技术实现思路
本专利技术为解决深度置信网逐层训练耗时、效率低的问题，提供了一种深度置信网的流水...

【技术保护点】
1.一种深度置信网的流水线式预训练方法，其特征在于：流式预训练学习算法主要完成过程如下：(1)根据计算节点数目以及网络结构对深度神经网络进行划分。(2)完成深度神经网络的分布式划分后，由深度神经网络的底层开始进行预训练。(3)重复进行过程(2)直到所有的隐含层训练完毕。隐含层训练完毕后，收集各机器节点上的模型参数，便可以开始进行网络模型的调优。流式预训练框架：流式预训练框架采用主从式集群结构设计，主节点负责实现训练任务初始化、计算资源分配以及网络训练过程中的调度；从节点负责具体的隐含层训练工作以及与其它节点通信。该训练框架采用Python实现，节点间的通信通过socket通信实现的，而各计算节点上RBM的训练是通过Theano实现的。

【技术特征摘要】
1.一种深度置信网的流水线式预训练方法，其特征在于：流式预训练学习算法主要完成过程如下：(1)根据计算节点数目以及网络结构对深度神经网络进行划分。(2)完成深度神经网络的分布式划分后，由深度神经网络的底层开始进行预训练。(3)重复进行过程(2)直到所有的隐含层训练完毕。隐含层训练完毕后，收集各机器节点上的模型参数，便可以开始进行网络模型的调优。流式预训练框架：流式预训练框架采用主从式集群结构设计，主节点负责实现训练任务初始化、计算资源分配以及网络训练过程中的调度；从节点负责具体的隐含层训练工作以及与其它节点通信。该训练框架采用Python实现，节点间的通信通过socket通信实现的，而各计算节点上RBM的训练是通过Theano实现的。2.如权利要求1所述的一种深度置信网的流水线式预训练方法，其特征在于：深度神经网路的划分包括以下两种情况：当计算节点数不小于网络层数时，每个RBM将被分配到某个专属的计算节点上，即每个隐含层将在独有的机器上完成训练任务；否则，会存在相邻RBM分配到相同计算节点的情况，即多个隐含层将在同一台机器上完成训练任务。由于相邻RBM间共享网络层并存在数据依赖，为了实现深度神经网络的分布式划分，需要在相邻RBM间增加一个额外的隐含层，该隐含层是对下层RBM隐含层的复制，即二者的神经单元数、神经单元激励函数均完全相同，且会定时地利用下层RBM隐含层参数对...

【专利技术属性】
技术研发人员：马杰，马志强，杨双涛，
申请(专利权)人：内蒙古工业大学，
类型：发明
国别省市：内蒙古,15

全部详细技术资料下载我是这个专利的主人