一种利用长短期记忆模型递归神经网络的语音识别方法技术

技术编号：14420663 阅读：311 留言：0更新日期：2017-01-12 22:55

本发明专利技术中提出了一种利用长短期记忆模型递归神经网络的语音识别方法，其主要内容包括：训练和识别，其训练过程为，首先导入语音和文本数据，从而产生一个共同训练的声学和语言模型。接着使用RNN传感器进行解码形成模型参数。其识别过程为，首先将语音输入通过傅立叶变换转化为频谱图，再利用含长短期记忆模型(LSTM)递归神经网络进行定向搜索解码，最后产生识别结果。本发明专利技术采用递归神经网络(RNNs)，通过端到端的训练方法，采用连接时间分类(CTC)训练RNNs，这些结合长短期记忆LSTM单元，效果很好。结合多层表达在深度网络中证明有效，使用灵活。从语音特征(输入端)到文字串(输出端)就只有一个神经网络模型(这就叫“端到端”模型)，可以直接用WER的某种代理作为目标函数来训练这个神经网络，避免了花费无用功去优化个别的目标函数。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别领域，尤其是涉及了一种利用长短期记忆模型递归神经网络的语音识别方法。
技术介绍
语音识别常用于各种智能设备智能家居等领域中，迄今为止语音识别的误差较大，效果不理想。递归神经网络(RNNs)模型可以用来对两个序列之间的关系进行建模。但是，传统的RNNs，标注序列和输入的序列是一一对应的。不适合语音识别中的序列建模：识别出的字符序列或者音素序列长度远小于输入的特征帧序列。所以不能直接用RNN来建模。本专利技术采用递归神经网络(RNNs)，通过端到端的训练方法，采用连接时间分类(CTC)训练RNNs，这些结合长短期记忆模型LSTM单元，效果很好。结合多层表达在深度网络中证明有效，使用灵活。根据TIMIT语音识别基准，深长短期记忆RNNs实现16.8％的测试集误差。传统的语音识别系统，是由语音模型、词典、语言模型构成的，而其中的语音模型和语言模型是分别训练的，这就造成每一部分的训练目标都与整个系统的训练目标不一致。而本专利从语音特征(输入端)到文字串(输出端)就只有一个神经网络模型(这就叫“端到端”模型)，可以直接用WER的某种代理作为目标函数来训练这个神经网络，避免花费无用功去优化个别的目标函数。
技术实现思路
针对网络性能在语音识别的问题和传统语音识别系统每一部分的训练目标都与整个系统的训练目标不一致等问题，本专利技术的目的在于提供一种利用长短期记忆模型递归神经网络的语音识别方法，可以通过训练获取模型参数，之后用于语音和文本数据的识别。为解决上述问题，本专利技术提供一种利用长短期记忆模型递归神经网络的语音识别方法，其主要内容包括：(一)训练...

【技术保护点】
一种利用长短期记忆模型递归神经网络的语音识别方法，其特征在于，主要包括训练(一)和识别(二)。

【技术特征摘要】
1.一种利用长短期记忆模型递归神经网络的语音识别方法，其特征在于，主要包括训练(一)和识别(二)。2.基于权利要求书1所述的一种利用长短期记忆模型递归神经网络的语音识别方法，其特征在于，通过端到端的训练方法，和长短期记忆模型(LSTM)结合，实现了16.8％的测试集误差，使用灵活，效果好。3.基于权利要求书1所述的递归神经网络(RNNs)，其特征在于，包括给定输入序列x＝(x1，...，xT)，计算隐藏的向量序列h＝(h1，...，hT)，通过以下方程t＝1～T输出向量序列y＝(y1，...，yT)，yt＝Whyht+byW表示重量矩阵，Wxh代表输入-隐藏重量矩阵，b代表偏差向量，bh是指隐藏偏差向量，是指隐藏层功能，通常是一个sigmoid函数的对应元素的应用。4.基于权利要求书1所述的LSTM单元，其特征在于，使用的是双向LSTM，得到双向LSTM的步骤如下：(1)长短期记忆模型(LSTM)架构，使用内置的存储单元来存储信息，更好地发现和利用深度范围的内容，是由以下的复合函数实现：it＝σ(Wxixt+Whiht-1+Wcict-1+bi)ft＝σ(Wxfxt+Whfht-1+Wcfct-1+bf)ct＝ftct-1+ittanh(Wxcxt+Whcht-1+bc)ot＝σ(Wxoxt+Whoht-1+Wcoct+bo)ht＝ottanh(ct)σ是逻辑sigmoid函数，I，f，o和c分别为输入门，forget门，输出门和激活载体，所有这些都和隐藏的向量h相同的大小；(2)深度卷积RNNs的一个缺点是他们只能够利用以前的背景，在语音识别中，所有的话语都一次被转录，双向RNNs(BRNNs)在两个方向上有两个独立的隐藏层处理数据，然后提供给相同的输出层；BRNN计算前置隐藏序列向后隐藏序列输出序列y通过重复后置层，t＝1～T，前置层t＝1～T然后更新输出层：yt=Wh→yh→t+Wh←yh←t+by]]>结合BRNNS和LSTM给出了双向LSTM，在两个输入方向上获得远距离内容，深度RNNs可以通过堆叠彼此的顶部的多个递归神经网络隐层来获得，随着一个层的输出序列，形成下一个的输入序列；(3)假设相同的隐藏层函数用于堆叠中的所有n层，隐藏的向量序列hn通过n＝1～N和t＝1～T的迭代计算获得：定义h0＝x，网络输出ytyt=WhNyhtN+by]]>双向深RNNs通过更换每一个隐藏序列hn前向序列和后向序列实现，保证每一个隐藏层收到前向层和后向层的输入；如果LSTM应用于隐藏层，我们得到双向LSTM，是这里用到的主要的结构，双向LSTM效果明显好于单向LSTM。5.基于权利要求书1所述的训练(一)，其特征在于，主要步骤包括1)语音数据和文本数据，对语音数据和文本数据进行训练；2)将语音数据和文本数据利用声学模型和语言模型处理；3)RNN传感器RNN传感器预测每个音素和之前音素的对应，从而产生一个共同训练的声学和语言模型，RNN传感器对每一个输入间隔t和输出时间间隔u的每个组合确定了一个单独的分布Pr(k|t,u)，对于一个长度U和目标序列z，全套的TU共同决定了x和z之间的所有可能的排列，可以通过向前-向后的算法来决定RNN传感器可以从随机初始权重训练；4)解码RNN传感器通过定向搜索解码，产生一个转录的n-best列表，定向搜索作为传感器，随着输出标签概率Pr(k|t...

【专利技术属性】
技术研发人员：夏春秋，
申请(专利权)人：深圳市唯特视科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人