一种基于声学模型阵列的鲁棒语音识别方法技术

技术编号：11116698 阅读：108 留言：0更新日期：2015-03-06 13:54

本发明专利技术公开一种基于声学模型阵列的鲁棒语音识别方法，包括训练阶段和测试阶段。在训练阶段，根据语音的最高频率为训练语音设定多个上限频率，提取多组特征向量，并进行模型训练，得到声学模型阵列。在测试阶段，首先根据测试环境下的少量自适应语音，估计测试语音的上限频率；然后从声学模型阵列中选取与测试语音上限频率匹配的声学模型，并对其参数进行调整，得到测试环境声学模型；最后根据测试语音上限频率进行特征提取，得到含噪测试语音的特征向量，并用测试环境声学模型对其进行声学解码，得到识别结果。本发明专利技术可以提高噪声环境中语音识别系统的性能，提高系统的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
-种基于声学模型阵列的鲁棒语音识别方法
本专利技术属于语音识别
，具体涉及到根据多个语音上限频率，提取多组不同频率范围的特征向量，构建声学模型阵列，并对与测试语音上限频率相匹配的声学模型进行补偿，提高语音识别系统鲁棒性的模型自适应方法。
技术介绍
在语音识别系统的实际应用中，由于环境噪声等语音变异性的影响，预先训练的声学模型往往与测试环境下提取的特征参数不匹配，这会导致语音识别系统性能的严重下降。因此，有必要对环境失配进行补偿，提高语音识别系统的识别性能。在语音信号处理中，语音被分成一系列前后有部分采样值重叠的帧。对于大部分帧来说，语音信号的基音及各次谐波只存在于频谱的低频部分；高频部分只含有少量语音成分。因而，可以将语音信号的频谱划分为低频谐波部分和高频非周期部分。高频非周期部分对安静环境下的语音识别有一定作用，因此被包含在特征参数中。然而，语音频谱的高频部分能量较小，在噪声环境下，容易被噪声覆盖，因此在含噪测试环境下，含噪语音频谱的高频部分为噪声成分，不仅不能给语音识别提供有效作用，而且会给后端的模型自适应带来不利影响。因此，在噪声环境下，有必要估计含噪语音频谱中有效语音成分的上限频率，然后根据该上限频率，去处高频部分，保留低频周期部分，用于语音识别。一般来说，由于不同语音音节的发音强弱不同，即使在同一种含噪测试环境下，不同帧的语音上限频率也是不同的。而语音识别系统一般采用隐马尔可夫模型（HMM:Hidden MarkovModel)作为声学模型，用于训练生成HMM的特征向量的频...
一种基于声学模型阵列的鲁棒语音识别方法

【技术保护点】
一种基于声学模型阵列的鲁棒语音识别方法，其特征在于：包括训练阶段和测试阶段两部分；在训练阶段，首先根据语音的最高频率为训练语音设定N个上限频率；然后分别以这N个频率为语音频谱的最高频率，提取特征向量，并进行模型训练，得到声学模型阵列；在测试阶段，首先根据测试环境下的少量自适应语音，估计当前测试环境下语音的上限频率；然后从声学模型阵列中选取与测试语音上限频率匹配的声学模型，并对其参数进行调整，得到测试环境声学模型；最后根据测试语音上限频率进行特征提取，得到含噪测试语音的特征向量，并用测试环境声学模型对其进行声学解码，得到识别结果。

【技术特征摘要】
1. 一种基于声学模型阵列的鲁棒语音识别方法，其特征在于：包括训练阶段和测试阶段两部分；在训练阶段，首先根据语音的最高频率为训练语音设定N个上限频率；然后分别以这N个频率为语音频谱的最高频率，提取特征向量，并进行模型训练，得到声学模型阵列；在测试阶段，首先根据测试环境下的少量自适应语音，估计当前测试环境下语音的上限频率；然后从声学模型阵列中选取与测试语音上限频率匹配的声学模型，并对其参数进行调整，得到测试环境声学模型；最后根据测试语音上限频率进行特征提取，得到含噪测试语音的特征向量，并用测试环境声学模型对其进行声学解码，得到识别结果。2. 根据权利要求1所述的基于声学模型阵列的鲁棒语音识别方法，其特征在于：训练阶段 (1) 根据语音的最高频率为训练语音设定N个上限频率，这N个上限频率在Mel频域等间距分布； (2) 分别以N个上限频率为语音频谱的最高频率，提取N组不同上限频率的特征向量：特征1、特征2，…，特征N ; (3) 分别用特征1、特征2,…，特征N进行模型训练，得到N组不同的声学模型：声学模型1、声学模型2，…，声学模型N，组成声学模型序列；声学模型序列中的每组声学模型除了包括全部语音单元的声学模型外，还包括其特征对应的上限频率，用于后端的声学模型选取。3. 根据权利要求2所述的基于声学模型阵列的鲁棒语音识别方法，其特征在于：测试阶段 (4) 根据测试环境下的自适应语音估计当前测试环境...

【专利技术属性】
技术研发人员：吕勇，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人