当前位置: 首页 > 专利查询>清华大学专利>正文

基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法技术

技术编号:11581636 阅读:192 留言:0更新日期:2015-06-10 15:00
一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,通过在深度长短期记忆循环神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔;通过对包含Cross-talk噪声的大量语音数据进行训练获得的上述神经网络声学模型,可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的;该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

【技术实现步骤摘要】

本专利技术属于音频
,特别涉及一种基于选择性注意原理的深度长短期记忆 循环神经网络声学模型的构建方法。
技术介绍
随着信息技术的迅速发展,语音识别技术已经具备大规模商业化的条件。目前 语音识别主要采用基于统计模型的连续语音识别技术,其主要目标是通过给定的语音序 列寻找其所代表的概率最大的词序列。基于统计模型的连续语音识别系统的任务是根据 给定的语音序列寻找其所代表的概率最大的词序列,通常包括构建声学模型和语言模型 及其对应的搜索解码方法。随着声学模型和语言模型的快速发展,语音识别系统的性能 在理想声学环境下已经大为改善,现有的深度神经网络-隐马尔科夫模型(De印Neural Network-HiddenMarkovModel,DNN_HMM)初步成熟,通过机器学习的方法可以自动提取有 效特征,并能对多帧语音对应的上下文信息建模,但是此类模型每一层都有百万量级的参 数,且下一层的输入是上一次的输出,因此需要使用GPU设备来训练DNN声学模型,训练时 间长;高度非线性以及参数共享的特性也使得DNN难以进行参数自适应。 循环神经网络(RecurrentNeuralNetwork,RNN)是一种单元之间存在有向循 环来表达网络内部动态时间特性的神经网络,在手写体识别和语言模型等方面得到广泛应 用。语音信号是复杂的时变信号,在不同时间尺度上具有复杂的相关性,因此相比于深度神 经网络而言,循环神经网络具有的循环连接功能更适合处理这类复杂时序数据。 作为循环神经网络的一种,长短期记忆(LongShort-TermMemory,LSTM)模型比 循环神经网络更适合处理和预测事件滞后且时间不定的长时序列。多伦多大学提出的增加 了记忆模块(memoryblock)的深度LSTM-RNN声学模型则将深度神经网络的多层次表征能 力与循环神经网络灵活利用长跨度上下文的能力结合,使得基于TIMIT库的音素识别错误 率降至17. 1%。 但是循环神经网络中使用的梯度下降法存在梯度消散(vanishinggradient) 问题,也就是在对网络的权重进行调整的过程中,随着网络层数增加,梯度逐层消散,致使 其对权重调整的作用越来越小。谷歌提出的两层深度LSTM-RNN声学模型,在以前的深 度LSTM-RNN模型中增加了线性循环投影层(RecurrentProjectionLayer),用于解决梯 度消散问题。对比实验表明,RNN的帧正确率(FrameAccuracy)及其收敛速度明显逊于 LSTM-RNN和DNN;在词错误率及其收敛速度方面,最好的DNN在训练数周后的词错误率为 11. 3%;而两层深度LSTM-RNN模型在训练48小时后词错误率降低至10. 9%,训练100/200 小时后,词错误率降低至10. 7/10. 5 (%)。 慕尼黑大学提出的深度双向长短期记忆循环神经网络(DeepBidirectional LongShort-TermMemoryRecurrentNeuralNetworks,DBLSTM-RNN)声学模型,在神经 网络的每个循环层中定义了相互独立的前向层和后向层,并使用多隐藏层对输入的声学特 征进行更高层表征,同时对噪声和混响进行有监督学习实现特征投影和增强。此方法在 2013?45041〇^1^数据集上,在信噪比范围内实现了词错误率从基线的55% 降低到22%。 但实际声学环境的复杂性仍然严重影响和干扰连续语音识别系统的性能,即使利 用目前主流的DNN声学模型方法,在包括噪声、音乐、口语、重复等复杂环境条件下的连续 语音识别数据集上也只能获得70%左右的识别率,连续语音识别系统中声学模型的抗噪性 和鲁棒性仍有待改进。 随着声学模型和语言模型的快速发展,语音识别系统的性能在理想声学环境下已 经大为改善,现有的DNN-HMM模型初步成熟,通过机器学习的方法可以自动提取有效特征, 并能对多帧语音对应的上下文信息建模。然而大多数识别系统对于声学环境的改变仍然十 分敏感,特别是在cross-talk噪声(两人或多人同时说话)干扰下不能满足实用性能的要 求。与深度神经网络声学模型相比,循环神经网络声学模型中的单元之间存在有向循环,可 以有效的描述神经网络内部的动态时间特性,更适合处理具有复杂时序的语音数据。而长 短期记忆神经网络比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列,因 此用于构建语音识别的声学模型能够取得更好的效果。 人脑在处理复杂场景的语音时存在选择性注意的现象,其主要原理为:人脑具 有听觉选择性注意的能力,在听觉皮层区域通过自上而下的控制机制,来实现抑制非目 标流和增强目标流的目的。研宄表明,在选择性注意的过程中,听觉皮层的短期可塑性 (Short-TermPlasticity)效应增加了对声音的区分能力。在注意力非常集中时,在初级听 觉皮层可以在50毫秒内开始对声音目标进行增强处理。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于选择性注意原理 的深度长短期记忆循环神经网络声学模型的构建方法,建立了基于选择性注意原理的深度 长短期记忆循环神经网络声学模型,通过在深度长短期记忆循环神经网络声学模型中增加 注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处 在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时 间序列上存在间隔。通过对包含cross-talk噪声的大量语音数据进行训练获得的上述神 经网络声学模型,可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通 过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的。 为了实现上述目的,本专利技术采用的技术方案是: 一种基于选择性注意原理的连续语音识别方法,包括如下步骤: 第一步,构建基于选择性注意原理的深度长短期记忆循环神经网络 从输入到隐藏层定义为一个长短期记忆循环神经网络,深度指的是每个长短期记 忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入,如此重复,最后一个长 短期记忆循环神经网络的输出作为整个系统的输出;在每一个长短期记忆循环神经网络 中,语音信号\为t时刻的输入,Xt_i为t-1时刻的输入,以此类推,总时间长度上的输入为 X= 其中te,T为语音信号的总时间长度;t时刻的长短期记忆循环神 经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成,t-1 时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、 乘法器组成;总时间长度上的隐藏层输出为y= ; 第二步,构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型 在第一步的基础上,每间隔s时刻对应的深度长短期记忆循环神经网络存在注意 门,其他时刻的深度长短期记忆循环神经网络不存在注意门,即,基于选择性注意原理的深 度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络 组成。 如何在复杂环境干扰,特别是在cross-talk噪声干扰下进行识别,一直是语音识 别的难点之一,阻碍了语音识别的大规模应用。与现有技术相比,本专利技术借鉴人脑在处理复 本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/21/CN104700828.html" title="基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法原文来自X技术">基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法</a>

【技术保护点】
一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,包括如下步骤:第一步,构建基于选择性注意原理的深度长短期记忆循环神经网络从输入到隐藏层定义为一个长短期记忆循环神经网络,深度指的是每个长短期记忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入,如此重复,最后一个长短期记忆循环神经网络的输出作为整个系统的输出;在每一个长短期记忆循环神经网络中,语音信号xt为t时刻的输入,xt‑1为t‑1时刻的输入,以此类推,总时间长度上的输入为x=[x1,...,xT]其中t∈[1,T],T为语音信号的总时间长度;t时刻的长短期记忆循环神经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成,t‑1时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成;总时间长度上的隐藏层输出为y=[y1,...,yT];在t∈[1,T]时刻的参数按照如下公式计算:Gatten_t=sigmoid(Waxxt+Wammt‑1+WacCellt‑1+ba)Ginput_t=sigmoid(WiaGatten_t+Wimmt‑1+WicCellt‑1+bi)Gforget_t=sigmoid(WfaGatten_t+Wfmmt‑1+WfcCellt‑1+bf)Cellt=Gforget_t⊙Cellt‑1+Ginput_t⊙tanh(WcaGatten_t+Wcmmt‑1+bc)Goutput_t=sigmoid(WoaGatten_t+Wommt‑1+WocCellt‑1+bo)mt=Goutput_t⊙tanh(Cellt)yt=soft maxk(Wymmt+by)其中Gatten_t为t时刻注意门的输出,Ginput_t为t时刻输入门的输出,Gforget_t为t时刻遗忘门的输出,Cellt为t时刻记忆细胞的输出,Goutput_t为t时刻输出门的输出,mt为t时刻隐藏层的输入,yt为t时刻的输出;xt为t时刻的输入,mt‑1为t‑1时刻隐藏层的输入,Cellt‑1为t‑1时刻记忆细胞的输出;Wax为t时刻注意门a与t时刻输入x之间的权重,Wam为t时刻注意门a与t‑1时刻隐藏层输入m之间的权重,Wac为t时刻注意门a与t‑1时刻记忆细胞c之间的权重,Wia为t时刻输入门i与t时刻注意门a之间的权重,Wim为t时刻输入门i与t‑1时刻隐藏层输入m之间的权重,Wic为t时刻输入门i与t‑1时刻记忆细胞c之间的权重,Wfa为t时刻遗忘门f与t时刻注意门a之间的权重,Wfm为t时刻遗忘门f与t‑1时刻隐藏层输入m之间的权重,Wfc为t时刻遗忘门f与t‑1时刻记忆细胞c之间的权重,Wca为t时刻记忆细胞c与t时刻注意门a之间的权重,Wcm为t时刻记忆细胞c与t‑1时刻隐藏层输入m之间的权重,Woa为t时刻输出门o与t时刻注意门a之间的权重,Wom为t时刻输出门o与t‑1时刻隐藏层输入m之间的权重,Woc为t时刻输出门o与t‑1时刻记忆细胞c之间的权重;ba为注意门a的偏差量,bi为输入门i的偏差量,bf为遗忘门f的偏差量,bc为记忆细胞c的偏差量,bo为输出门o的偏差量,by为输出y的偏差量,不同的b代表不同的偏差量;且有sigmoid(x)=11+e-x,tanh(x)=ex-e-xex+e-x,softmaxk(x)=exkΣl=1Kexl,]]>其中xk表示第k∈[1,K]个sof tmax函数的输入,l∈[1,K]用于对全部求和;⊙代表矩阵元素相乘;第二步,构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型在第一步的基础上,每间隔s时刻对应的深度长短期记忆循环神经网络存在注意门,其他时刻的深度长短期记忆循环神经网络不存在注意门,即,基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。...

【技术特征摘要】

【专利技术属性】
技术研发人员:杨毅孙甲松
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1