基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法技术

技术编号：11581636 阅读：192 留言：0更新日期：2015-06-10 15:00

一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法，通过在深度长短期记忆循环神经网络声学模型中增加注意门单元，来表征听觉皮层神经元的瞬时功能改变，注意门单元与其他门单元不同之处在于，其他门单元与时间序列一一对应，而注意门单元体现的是短期可塑性效应，因此在时间序列上存在间隔；通过对包含Cross-talk噪声的大量语音数据进行训练获得的上述神经网络声学模型，可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建，通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的；该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于音频
，特别涉及一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法。
技术介绍
随着信息技术的迅速发展，语音识别技术已经具备大规模商业化的条件。目前语音识别主要采用基于统计模型的连续语音识别技术，其主要目标是通过给定的语音序列寻找其所代表的概率最大的词序列。基于统计模型的连续语音识别系统的任务是根据给定的语音序列寻找其所代表的概率最大的词序列，通常包括构建声学模型和语言模型及其对应的搜索解码方法。随着声学模型和语言模型的快速发展，语音识别系统的性能在理想声学环境下已经大为改善，现有的深度神经网络-隐马尔科夫模型（De印Neural Network-HiddenMarkovModel，DNN_HMM)初步成熟，通过机器学习的方法可以自动提取有效特征，并能对多帧语音对应的上下文信息建模，但是此类模型每一层都有百万量级的参数，且下一层的输入是上一次的输出，因此需要使用GPU设备来训练DNN声学模型，训练时间长；高度非线性以及参数共享的特性也使得DNN难以进行参数自适应。循环神经网络（RecurrentNeuralNetwork，RNN)是一种单元之间存在有向循环来表达网络内部动态时间特性的神经网络，在手写体识别和语言模型等方面得到广泛应用。语音信号是复杂的时变信号，在不同时间尺度上具有复杂的相关性，因此相比于深度神经网络而言，循环神经网络具有的循环连接功能更适合处理这类复杂时序数据。作为循环神经网络的一种，长短期记忆（LongShort-TermMemory，LSTM)模型比循环神...
<a href="http://www.xjishu.com/zhuanli/21/CN104700828.html" title="基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法原文来自X技术">基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法</a>

【技术保护点】
一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法，包括如下步骤：第一步，构建基于选择性注意原理的深度长短期记忆循环神经网络从输入到隐藏层定义为一个长短期记忆循环神经网络，深度指的是每个长短期记忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入，如此重复，最后一个长短期记忆循环神经网络的输出作为整个系统的输出；在每一个长短期记忆循环神经网络中，语音信号xt为t时刻的输入，xt‑1为t‑1时刻的输入，以此类推，总时间长度上的输入为x＝[x1,...,xT]其中t∈[1,T]，T为语音信号的总时间长度；t时刻的长短期记忆循环神经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成，t‑1时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成；总时间长度上的隐藏层输出为y＝[y1,...,yT]；在t∈[1,T]时刻的参数按照如下公式计算：Gatten_t＝sigmoid(Waxxt+Wammt‑1+WacCellt‑1+ba)Ginput_t＝sigmoid(WiaGatten_t+Wimmt‑1...

【技术特征摘要】

【专利技术属性】
技术研发人员：杨毅，孙甲松，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人