一种基于口音识别的鲁棒语音识别方法技术

技术编号：19553912 阅读：90 留言：0更新日期：2018-11-24 22:27

本发明专利技术公开一种基于口音识别的鲁棒语音识别方法，用多类口音的声学模型预测目标说话人的口音特性。在训练阶段，将发音特性相近的口音合并为一类，为每类口音训练生成一个高斯混合模型和一组隐马尔可夫模型；在测试阶段，首先从目标说话人的测试语音中提取共振峰；然后根据共振峰特征，对说话人的口音进行识别，并根据识别结果选取该类口音对应的声学模型，对声学模型的参数进行调整，使之与目标说话人的发音特性相匹配；最后，用自适应后的声学模型对测试语音特征向量进行识别，得到识别结果。本发明专利技术可以减小口音对语音识别系统的影响，提高口音改变条件下模型自适应的准确性。

A Robust Speech Recognition Method Based on Accent Recognition

The invention discloses a robust speech recognition method based on accent recognition, which predicts the accent characteristics of the target speaker by using acoustic models of multiple accents. In the training stage, the accents with similar pronunciation characteristics are merged into one group to generate a Gauss mixture model and a set of hidden Markov models for each type of accent training. In the testing stage, the formant is extracted from the target speaker's test speech at first, and then the speaker's accent is recognized according to the formant characteristics. According to the recognition results, the acoustic model corresponding to this kind of accent is selected, and the parameters of the acoustic model are adjusted to match the pronunciation characteristics of the target speaker. Finally, the adaptive acoustic model is used to recognize the test speech feature vector and the recognition results are obtained. The invention can reduce the influence of accent on speech recognition system and improve the accuracy of model adaptation under the condition of accent change.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于口音识别的鲁棒语音识别方法
本专利技术属于语音识别领域，具体涉及到用高斯混合模型描述口音的共振峰向量分布，在测试环境下用预先训练的高斯混合模型对测试语音进行口音识别，选取与当前说话人的口音最匹配的声学模型，并对其参数进行说话人自适应，得到测试环境声学模型的鲁棒语音识别方法。
技术介绍
语音识别系统一般以美尔频率倒谱系数(MFCC：MelFrequencyCepstralCoefficient)为特征向量，以隐马尔可夫模型(HMM：HiddenMarkovModel)为声学模型。为了能够反映目标说话人的语音特性，声学模型一般用大量说话人的训练语音训练而成。然后，通过增加训练语音来减小说话人改变的影响是非常困难的。这是因为不同人的说话方式都存在差别，且说话人的数量巨大，难以在训练阶段覆盖太多的说话人。另一方面，训练的说话人过多还会导致声学模型过于“平坦”，与每个说话人的特性差距增大，反而会导致系统识别率的下降。目前，多数语音识别系统对标准普通话发音可以取得很高的识别率。但是，在实际生活中，能将普通话说得很标准的人毕竟是少数，大部分人的发音或多或少会带有地域性的口音。说话人自适应可以根据测试环境下的少量测试语音，对预先训练的声学模型的参数进行变换，使之与测试环境尽量匹配。然后，训练环境与测试环境之间的变换关系是未知的，而且是非线性的。为了便于实现，在说话人自适应中，一般都假设这种环境映射关系为线性变换。这会导致自适应得到的声学模型与理想声学模型之间存在较大的差异。尤其当训练语音与目标说话人的发音特性相差较大时，这种差异更加明显。
技术实现思路
专利技术目的：...

【技术保护点】
1.一种基于口音识别的鲁棒语音识别方法，其特征在于，在训练阶段，获取各类口音的训练语音，为每类口音训练生成一个高斯混合模型（GMM）和一组隐马尔可夫模型；在测试阶段，首先从目标说话人的测试语音中提取共振峰；然后根据共振峰特征，对说话人的口音进行识别，并根据识别结果选取该类口音对应的声学模型，对声学模型的参数进行调整，使之与目标说话人的发音特性相匹配，得到自适应后的声学模型；最后，用自适应后的声学模型对测试语音特征向量进行识别，得到识别结果。

【技术特征摘要】
1.一种基于口音识别的鲁棒语音识别方法，其特征在于，在训练阶段，获取各类口音的训练语音，为每类口音训练生成一个高斯混合模型（GMM）和一组隐马尔可夫模型；在测试阶段，首先从目标说话人的测试语音中提取共振峰；然后根据共振峰特征，对说话人的口音进行识别，并根据识别结果选取该类口音对应的声学模型，对声学模型的参数进行调整，使之与目标说话人的发音特性相匹配，得到自适应后的声学模型；最后，用自适应后的声学模型对测试语音特征向量进行识别，得到识别结果。2.如权利要求1所述的基于口音识别的鲁棒语音识别方法，其特征在于，为每类口音训练生成一个GMM模型和HMM模型的具体做法为：（1）将发音特性相近的口音合并为一类，得到各类口音的训练语音；（2）对每类口音的训练语音加窗，分帧，得到帧信号；（3）对每类训练语音的浊音帧信号，提取共振峰，并将前三个共振峰组成共振峰向量；（4）对每类训练语音的共振峰向量进行GMM训练，得到该类口音的GMM模型；（5）对每类训练语音进行特征提取，得到美...

【专利技术属性】
技术研发人员：吕勇，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人