一种基于Maxout神经元的深度双向LSTM声学模型制造技术

技术编号:16470456 阅读:47 留言:0更新日期:2017-10-28 21:12
本发明专利技术请求保护一种基于深度双向长短时记忆(DBLSTM)递归神经网络(RNN)的声学模型,DBLSTM网络主要分为三部分:在DBLSTM的全连接部分,使用Maxout神经元代替原来的Sigmoid神经元来解决RNN中常出现的梯度消失和爆炸的问题;同时使用Dropout正则化训练算法避免了神经网络在训练过程中出现过拟合。在多层BLSTM部分,为适应DBLSTM对每个时间步长的双向依赖性,提出了上下文敏感块的随时间反向传播(CSC‑BPTT)算法来训练该网络。在多层BLSTM部分之后采用一层选择链接层,用于对DBLSTM的输出进行变换得到全连接部分的输入。本发明专利技术可得到更高的语音识别率。

A deep bidirectional LSTM acoustic model based on Maxout neurons

The invention provides a bidirectional memory depth length based on recurrent neural network (DBLSTM) (RNN) of the acoustic model, DBLSTM network is divided into three parts: in the connection part of the DBLSTM, the use of Maxout neurons instead of Sigmoid neurons to solve gradient disappeared and explosion problems often appear in RNN; at the same time use the Dropout regularized training algorithm avoid nerve overfitting in the training process. In the multilayer BLSTM part, in order to adapt to the mutual dependence of DBLSTM for each time step, the context sensitive block with time back-propagation (CSC BPTT) algorithm to train the network. After the multi layer BLSTM part, a selective link layer is used to transform the output of the DBLSTM to get the input of the full connection part. The invention can obtain higher speech recognition rate.

【技术实现步骤摘要】
一种基于Maxout神经元的深度双向LSTM声学模型
本专利技术属于人工智能语音识别领域,主要涉及深度神经网络在语音声学模型中的应用。
技术介绍
深度神经网络(Deepneuralnetwork,DNN)的研究与应用极大的推动了自动语音识别(Automaticspeechrecognition,ASR)技术的发展。在大词汇量连续语音识别(Largevocabularycontinuousspeechrecognition,LVCSR)系统中,相比于传统的高斯混合模型-隐马尔科夫模型(Gaussianmixturemodels-hiddenmarkovmodels,GMM-HMM)声学模型,基于DNN的声学模型表现出更好的优势。SeideF等人将基于DNN-HMM声学模型用于Switchboard电话转录任务,其字错误率(Worderrorrate,WER)相对下降了33%。DNN-HMM声学模型的研究和扩展给ASR技术带来了前所未有的发展。以前的研究主要集中在用于处理固定长度输入窗的上下文声学特征的前馈神经网络上。然而实际的语音信号具有动态特性,DNN不能很好地表征语音帧之间的长时依赖特性。所以,像循环神经网络(Recurrentneuralnetwork,RNN)这样的更强大的序列信号模型再次引起了研究者的关注。最近,RNN在提高语音识别率上的性能优越性已得到证明,RNN的隐含层中具有循环结构,可捕获到更长的时间动态特性。但是标准的RNN仍然受限于梯度消失和爆炸问题,因此提出长短时记忆(Longshort-termmemory,LSTM)RNN模型,该模型中的输入信号、循环信号和输出信号都由门信号控制,在一定程度上克服了这些问题。GravesA等人建立了基于LSTMRNN的语音识别系统,在TIMIT音素识别任务中取得了很好的成果。SakH等人将混合深度LSTM-HMM语音识别系统通过帧级交叉熵(Crossentropy,CE)训练和序列级鉴别训练获得更好的识别结果。此后,研究了许多LSTM网络的变体,并针对多种ASR任务进行了有效的实验验证。JaitlyN等人提出深度双向长短时记忆-隐马尔科夫模型(Deepbidirectionallongshorttermmemory-hiddenmarkovmodels,DBLSTM-HMM)声学模型,并在TIMIT和WSJ语料库中验证了其识别性能。ChenK等人提出在LVCSR中使用上下文敏感块-随时间反向传播(Context-sensitive-chunkBack-propagationthroughtime,CSC-BPTT)算法来训练DBLSTM声学模型。DBLSTM能够在模型内部存储某一帧的前后语音信息,训练被分类帧两侧的上下文声学特征。在神经网络训练阶段,LSTM可以通过标准RNN的基于梯度的算法进行训练,如实时循环学习(Real-timerecurrentlearning,RTRL)、随时间反向传播(Back-propagationthroughtime,BPTT)以及其多种变体。但是,由于DBLSTM在每个时间步长上的双向依赖性,上述的训练算法不能直接应用于DBLSTM训练。因为在LVCSR中,DBLSTM不适合于低延迟识别,可能会导致整个语音识别的延迟。ChenK等人提出一种CSC-HMM训练算法,它将每个序列分解为多个具有上下文敏感的组块,并行处理这些组块,这样只是在一小段语音中延迟,而不是整个语句。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种解决RNN训练过程中梯度消失和爆炸问题,以及应用CSC-HMM训练算法满足DBLSTM在每个时间步长上的双向依赖性的特点,实现更好是语音识别性能的基于Maxout神经元的深度双向LSTM声学模型。本专利技术的技术方案如下:一种基于Maxout神经元的深度双向LSTM声学模型,其该模型包括:多个双向长短时记忆网络BLSTM层形成的多层DBLSTM深度双向长短时记忆网络、选择连接层、全连接层和隐马尔可夫模型,其中,所述多层DBLSTM深度双向长短时记忆网络用于语音识别的声学模型,所述选择连接层用于对多个双向长短时记忆网络BLSTM层的输出进行加权变换,所述全连接层用于对加权变换后的值进行非线性变换,最终得到隐马尔可夫模型所需的后验概率,所述隐马尔可夫模型用于得到语音识别概率;将语音特征输入多层DBLSTM网络进行非线性变换,得到具有上下文语音帧信息的特征矢量,多层DBLSTM网络采用CSC-BPTT上下文敏感块的随时间反向传播训练算法进行网络参数训练;多层BLSTM网络输出的数据采用选择连接层对其进行加权变换后再作为全连接层的输入;全连接层对输入数据进行变换,全连接层部分采用Maxout单元代替原来的Sigmoid单元,并且利用Dropout正则化训练算法对其进行参数训练,再通过Softmax输出层得到声学模型中HMM模型所需的后验概率;前端DBLSTM神经网络得到后验概率后,在经过HMM模型最终输出得到声学模型得分。进一步的,所述DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息,然后前馈到同一个输出层,DBLSTM网络中含有两个LSTM层,一层从前到后迭代计算前向隐含层向量另一层从后向前迭代计算后向隐含层向量然后,更新输出序列y=(y1,y2,...,yt,...,yT),该网络的迭代过程如下:by表示输出层的偏置向量,yt表示输出值,H表示输出层的激活函数,表示LSTM中的权值矩阵,表示前向隐含层的偏置向量,表示后向隐含层的偏置向量。进一步的,所述DBLSTM递归神经网络(深度双向长短时记忆递归神经网络)计算方法为:首先,对于标准的RNN,给定一个输入序列x=(x1,x2,...,xT),通过t=1到T迭代计算出RNN隐含层的状态向量h=(h1,h2,...,hT)和输出向量y=(y1,y2,...,yT),即ht=H(Wxhxt+Whhht-1+bh)yt=Whyht+by其中,W代表各层间的权值矩阵;bh和by分别为隐含层和输出层的偏置向量;H为输出层的激活函数,Wxh表示输如层和隐含层之间的权值矩阵,Whh表示隐含层与隐含层之间的权值矩阵,Why表示隐含层和输入层之间的权值矩阵。LSTM单元中,激活函数H通过下列公式实现:it=σ(Wxixt+Whiht-1+Wcict-1+bi)ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)ht=ottanh(ct)其中,σ为标准sigmoid函数;i、f、o和c分别为输入门、遗忘门、输出门和内存单元;bi、bf、bo和bc分别为输入门、遗忘门、输出门和内存单元的偏置向量;W为各单元与门矢量之间的权值矩阵,如Wxi为网络输入和输入门之间的权重矩阵。进一步的,所述选择连接层的计算方法为:yt表示输出值该层是将DBLSTM最后一层BLSTM隐含层输出的两个矢量数据按照上述公式进行加权求和,最终得到一个矢量作为全连接层的输入信号。进一步的,所述全连接层中Maxout神经元的计算方法为:在Maxout神本文档来自技高网
...
一种基于Maxout神经元的深度双向LSTM声学模型

【技术保护点】
一种基于Maxout神经元的深度双向LSTM声学模型,其特征在于,该模型包括:多个双向长短时记忆网络BLSTM层形成的多层DBLSTM深度双向长短时记忆网络、选择连接层、全连接层和隐马尔可夫模型,其中,所述多层DBLSTM深度双向长短时记忆网络用于语音识别的声学模型,所述选择连接层用于对多个双向长短时记忆网络BLSTM层的输出进行加权变换,所述全连接层用于对加权变换后的值进行非线性变换,最终得到隐马尔可夫模型所需的后验概率,所述隐马尔可夫模型用于得到语音识别概率;将语音特征输入多层DBLSTM网络进行非线性变换,得到具有上下文语音帧信息的特征矢量,多层DBLSTM网络采用CSC‑BPTT上下文敏感块的随时间反向传播训练算法进行网络参数训练;多层BLSTM网络输出的数据采用选择连接层对其进行加权变换后再作为全连接层的输入;全连接层对输入数据进行变换,全连接层部分采用Maxout单元代替原来的Sigmoid单元,并且利用Dropout正则化训练算法对其进行参数训练,再通过Softmax输出层得到声学模型中HMM模型所需的后验概率;前端DBLSTM神经网络得到后验概率后,在经过HMM模型最终输出得到声学模型得分。...

【技术特征摘要】
1.一种基于Maxout神经元的深度双向LSTM声学模型,其特征在于,该模型包括:多个双向长短时记忆网络BLSTM层形成的多层DBLSTM深度双向长短时记忆网络、选择连接层、全连接层和隐马尔可夫模型,其中,所述多层DBLSTM深度双向长短时记忆网络用于语音识别的声学模型,所述选择连接层用于对多个双向长短时记忆网络BLSTM层的输出进行加权变换,所述全连接层用于对加权变换后的值进行非线性变换,最终得到隐马尔可夫模型所需的后验概率,所述隐马尔可夫模型用于得到语音识别概率;将语音特征输入多层DBLSTM网络进行非线性变换,得到具有上下文语音帧信息的特征矢量,多层DBLSTM网络采用CSC-BPTT上下文敏感块的随时间反向传播训练算法进行网络参数训练;多层BLSTM网络输出的数据采用选择连接层对其进行加权变换后再作为全连接层的输入;全连接层对输入数据进行变换,全连接层部分采用Maxout单元代替原来的Sigmoid单元,并且利用Dropout正则化训练算法对其进行参数训练,再通过Softmax输出层得到声学模型中HMM模型所需的后验概率;前端DBLSTM神经网络得到后验概率后,在经过HMM模型最终输出得到声学模型得分。2.根据权利要求1所述的基于Maxout神经元的深度双向LSTM声学模型,其特征在于,所述DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息,然后前馈到同一个输出层,DBLSTM网络中含有两个LSTM层,一层从前到后迭代计算前向隐含层向量另一层从后向前迭代计算后向隐含层向量然后,更新输出序列y=(y1,y2,...,yt,...,yT),该网络的迭代过程如下:by表示输出层的偏置向量,yt表示输出值,H表示输出层的激活函数,表示LSTM中的权值矩阵,表示前向隐含层的偏置向量,表示后向隐含层的偏置向量。3.根据权利要求2所述的基于Maxout神经元的深度双向LSTM声学模型,其特征在于,所述DBLSTM深度双向长短时记忆递归神经网络计算方法为:首先,对于标准的RNN,给定一个输入序列x=(x1,x2,...,xT),通过t=1到T迭代计算出RNN隐含层的状态向量h=(h1,h2,...,hT)和输出向量y=(y1,y2,...,yT),即ht=H(Wxhxt+Whhht-1+bh)yt=Whyht+by其中,W代表各层间的权值矩阵;bh和by分别为隐含层和输出层的偏置向量;H为输出层的激活函数,Wxh表示输如层和隐含层之间的权值矩阵,Whh表示隐含层与隐含层之间的权值矩阵,Why表示隐含层和输入层之间的权值矩阵;LSTM单元中,激活函数H通过下列公式实现:it=σ(Wxixt+Whiht-1+Wcict-1+bi)ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)ct...

【专利技术属性】
技术研发人员:罗元刘宇张毅
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1