当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于深度长短期记忆循环神经网络的连续语音识别方法技术

技术编号:11333371 阅读:434 留言:0更新日期:2015-04-23 00:49
一种鲁棒深度长短期记忆循环神经网络声学模型的构建方法,将带噪语音信号和原始纯净语音信号作为训练样本,构建两个结构完全相同的深度长短期记忆循环神经网络模块,在这两个模块的每一层深度长短期记忆层之间通过交叉熵计算获得两者差异,并用线性循环投影层对交叉熵参数进行更新,最终得到对环境噪声鲁棒的深度长短期记忆循环神经网络声学模型;本发明专利技术提出的方法,通过构建深度长短期记忆循环神经网络声学模型,提高了对带噪连续语音信号的语音识别率,避免了深度神经网络参数规模大导致大部分计算工作需要在GPU设备上完成的问题,具有计算复杂度低、收敛速度快等特点,可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

【技术实现步骤摘要】

本专利技术属于音频
,特别设及一种基于深度长短期记忆循环神经网络的连 续语音识别方法。
技术介绍
随着信息技术的迅速发展,语音识别技术已经具备大规模商业化的条件。目前语 音识别主要采用基于统计模型的连续语音识别技术,其主要目标是通过给定的语音序列寻 找其所代表的概率最大的词序列。连续语音识别系统通常包括声学模型、语言模型及解码 方法,声学建模方法作为连续语音识别的核屯、技术,近年来获得快速发展。常用的声学模 型为混合高斯模型-隐马尔科夫模型(Gaussian Mix1:ure Model-Hidden Markov Model, GMM-HMM),其原理为:训练混合高斯模型得到每帖特征属于每个音素状态的概率,训练隐马 尔科夫模型得到音素状态之间及自身的转移概率,据此得到每个音素状态序列产生当前语 音特征矢量序列的概率。考虑到协同发音(Coarticulation)现象,进一步将音素根据不同 的上下文(Context Dependent)分为不同的建模单元,称为CD-GMM-HMM方法。[000引微软在2011年提出用深度神经网络(Deep Neural Network, DNN)取代传统声学 模型中的混合高斯模型,构成了新的CD-DNN-HMM模型,将D順模型的表达能力与CD-HMM模 型的顺序建模能力结合,其核屯、是对声学特征进行多层变换,并将特征提取和声学建模在 同一网络进行优化。与传统的GMM-HMM模型框架相比,DNN-HMM模型在英文连续语音识别 库上的错误率降低了 30%左右。但是D順的每一层都有百万量级的参数,且下一层的输入 是上一次的输出,因此一般计算代价较大,且在说话速度不同W及需要对长时序列进行处 理时效果不佳。 循环神经网络巧e州;Trent Neural Network, RNN)是一种单元之间存在有向循环 来表达网络内部动态时间特性的神经网络,在手写体识别和语言模型等方面得到广泛应 用。语音信号是复杂的时变信号,在不同时间尺度上具有复杂的相关性,因此相比于深度 神经网络而言,循环神经网络具有的循环连接功能更适合处理该类复杂时序数据。作为 循环神经网络的一种,长短期记忆(Long化ort-Term Memo巧,LSTM)模型比循环神经网 络更适合处理和预测事件滞后且时间不定的长时序列。多伦多大学提出的增加了记忆模 块(memory block)的深度LSTM-RNN声学模型则将深度神经网络的多层次表征能力与循 环神经网络灵活利用长跨度上下文的能力结合,使得基于TIMIT库的音素识别错误率降至 17. 1%。 但是循环神经网络中使用的梯度下降法存在梯度消散(vanishing gradient) 问题,也就是在对网络的权重进行调整的过程中,随着网络层数增加,梯度逐层消散,致使 其对权重调整的作用越来越小。谷歌提出的两层深度LSTM-脚W声学模型,在W前的深 度LSTM-RNN模型中增加了线性循环投影层化ecurrent Projection Layer),用于解决梯 度消散问题。对比实验表明,RNN的帖正确率(prame Ac州racy)及其收敛速度明显逊于 LSTM-R順和面N ;在词错误率及其收敛速度方面,最好的D順在训练数周后的词错误率为 11. 3%;而两层深度LSTM-脚W模型在训练48小时后词错误率降低至10. 9%,训练100/200 小时后,词错误率降低至10. 7/10. 5 (% )。 但实际声学环境的复杂性仍然严重影响和干扰连续语音识别系统的性能,即使利 用目前最好的深度神经网络方法,在包括噪声、音乐、口语、重复等复杂条件下的连续语音 识别数据集上也只能获得70%左右的识别率,连续语音识别系统中声学模型的抗噪性和鲁 椿性有待改进。此外深度神经网络方法参数规模大,大部分计算工作需要在GPU设备上完 成,普通CPU难W胜任,因此该类方法距离大规模商业化的要求还有一定的距离。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于深度长短期记忆 循环神经网络的连续语音识别方法,提高了对带噪连续语音信号的语音识别率,并且具有 计算复杂度低、收敛速度快等特点,适合在普通CPU上实现。[000引为了实现上述目的,本专利技术采用的技术方案是: ,包括: 步骤一,建立两个结构完全相同的包括多个长短期记忆层和线性循环投影层的深 度长短期记忆循环神经网络模块; 步骤二,分别将原始纯净语音信号和带噪信号作为输入送至步骤一的两个模块; 步骤=,对两个模块中对应的长短期记忆层的所有参数计算交叉滴来衡量两个模 块之间的信息分布差异,并通过线性循环投影层二实现交叉滴参数更新; 步骤四,通过比较最终的更新结果与W原始纯净语音信号为输入的深度长短期记 忆循环神经网络模块的最终输出,实现连续语音识别。 所述深度长短期记忆循环神经网络模块中,语音信号X = 作为整个 模块的输入,同时也作为第一个长短期记忆层的输入,第一个长短期记忆层的输出作为第 一个线性循环投影层的输入,第一个线性循环投影层的输出作为下一个线性循环投影层的 输入,下一个线性循环投影层的输出再作为下下一个线性循环投影层的输入,依次类推,其 中,W原始纯净语音信号为输入的深度长短期记忆循环神经网络模块中,最后一个线性循 环投影层的输出作为整个深度长短期记忆循环神经网络模块的输出y = [y。...,yj,T为 语音信号的时间长度,而W带噪信号为输入的深度长短期记忆循环神经网络模块中,最后 一个线性循环投影层的输出舍弃。 所述长短期记忆层由记忆细胞、输入口、输出口、遗忘口、tanh函数W及乘法器组 成,其中长短期记忆层即长短期记忆神经网络子模块,在t G 时刻长短期记忆神经网 络子模块中的参数按照如下公式计算: G地化=sigmoid(W h x+Wic Cell'+bi) G抗r昨t= sigmoid(Wfx x+Wfc Cell'+bf)[001 引 Cell = m' +Gf0"et? Cell' +G input? tanh (W cx X) ? m' +bc [00W G0utwt= sigmoid (W ox x+W0c Cell'+b0) m = tanh(G〇utput〇 Cell ? m')[002U y = soft maXk(Wym m+by)[00巧其中Ghput为输入口的输出,Gf"wt为遗忘口的输出,Cell为记忆细胞的输出,Cell' 为t-1时刻记忆细胞的输出,G"tput为输出口的输出,G'《tput为t-1时刻输出口的输出,m为 线性循环投影层的输出,m'为t-1时刻线性循环投影层的输出;X为整个长短期记忆循环 神经网络模块的输入,y为一个长短期记忆循环神经网络子模块的输出;bi为输入口 i的偏 差量,bf为遗忘口 f的偏差量,b。为记忆细胞C的偏差量,b。为输出口 0的偏差量,b y为输 出y的偏差量,不同的b代表不同的偏差量;Wh为输入口 i与输入X之间的权重,W 为输 入口 i与记忆细胞C之间的权重,Wh为遗忘口 f与输入X之间的权重,Wf。为遗忘口 f与记 忆细胞C之间的权重,W。。为输出口 0与记忆细胞C之间的权重,Wym为输出y与输出m之间 的本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/21/CN104538028.html" title="一种基于深度长短期记忆循环神经网络的连续语音识别方法原文来自X技术">基于深度长短期记忆循环神经网络的连续语音识别方法</a>

【技术保护点】
一种基于深度长短期记忆循环神经网络的连续语音识别方法,其特征在于,包括:步骤一,建立两个结构完全相同的包括多个长短期记忆层和线性循环投影层的深度长短期记忆循环神经网络模块;步骤二,分别将原始纯净语音信号和带噪信号作为输入送至步骤一的两个模块;步骤三,对两个模块中对应的长短期记忆层的所有参数计算交叉熵来衡量两个模块之间的信息分布差异,并通过线性循环投影层二实现交叉熵参数更新;步骤四,通过比较最终的更新结果与以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块的最终输出,实现连续语音识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨毅孙甲松
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1