当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于口音识别的鲁棒语音识别方法技术

技术编号:19553912 阅读:90 留言:0更新日期:2018-11-24 22:27
本发明专利技术公开一种基于口音识别的鲁棒语音识别方法,用多类口音的声学模型预测目标说话人的口音特性。在训练阶段,将发音特性相近的口音合并为一类,为每类口音训练生成一个高斯混合模型和一组隐马尔可夫模型;在测试阶段,首先从目标说话人的测试语音中提取共振峰;然后根据共振峰特征,对说话人的口音进行识别,并根据识别结果选取该类口音对应的声学模型,对声学模型的参数进行调整,使之与目标说话人的发音特性相匹配;最后,用自适应后的声学模型对测试语音特征向量进行识别,得到识别结果。本发明专利技术可以减小口音对语音识别系统的影响,提高口音改变条件下模型自适应的准确性。

A Robust Speech Recognition Method Based on Accent Recognition

The invention discloses a robust speech recognition method based on accent recognition, which predicts the accent characteristics of the target speaker by using acoustic models of multiple accents. In the training stage, the accents with similar pronunciation characteristics are merged into one group to generate a Gauss mixture model and a set of hidden Markov models for each type of accent training. In the testing stage, the formant is extracted from the target speaker's test speech at first, and then the speaker's accent is recognized according to the formant characteristics. According to the recognition results, the acoustic model corresponding to this kind of accent is selected, and the parameters of the acoustic model are adjusted to match the pronunciation characteristics of the target speaker. Finally, the adaptive acoustic model is used to recognize the test speech feature vector and the recognition results are obtained. The invention can reduce the influence of accent on speech recognition system and improve the accuracy of model adaptation under the condition of accent change.

【技术实现步骤摘要】
一种基于口音识别的鲁棒语音识别方法
本专利技术属于语音识别领域,具体涉及到用高斯混合模型描述口音的共振峰向量分布,在测试环境下用预先训练的高斯混合模型对测试语音进行口音识别,选取与当前说话人的口音最匹配的声学模型,并对其参数进行说话人自适应,得到测试环境声学模型的鲁棒语音识别方法。
技术介绍
语音识别系统一般以美尔频率倒谱系数(MFCC:MelFrequencyCepstralCoefficient)为特征向量,以隐马尔可夫模型(HMM:HiddenMarkovModel)为声学模型。为了能够反映目标说话人的语音特性,声学模型一般用大量说话人的训练语音训练而成。然后,通过增加训练语音来减小说话人改变的影响是非常困难的。这是因为不同人的说话方式都存在差别,且说话人的数量巨大,难以在训练阶段覆盖太多的说话人。另一方面,训练的说话人过多还会导致声学模型过于“平坦”,与每个说话人的特性差距增大,反而会导致系统识别率的下降。目前,多数语音识别系统对标准普通话发音可以取得很高的识别率。但是,在实际生活中,能将普通话说得很标准的人毕竟是少数,大部分人的发音或多或少会带有地域性的口音。说话人自适应可以根据测试环境下的少量测试语音,对预先训练的声学模型的参数进行变换,使之与测试环境尽量匹配。然后,训练环境与测试环境之间的变换关系是未知的,而且是非线性的。为了便于实现,在说话人自适应中,一般都假设这种环境映射关系为线性变换。这会导致自适应得到的声学模型与理想声学模型之间存在较大的差异。尤其当训练语音与目标说话人的发音特性相差较大时,这种差异更加明显。
技术实现思路
专利技术目的:针对现有技术中存在的问题,本专利技术提供一种基于口音识别的鲁棒语音识别方法。技术方案:一种基于口音识别的鲁棒语音识别方法,在训练阶段,将发音特性相近的口音合并为一类,为每类口音训练生成一个高斯混合模型(GMM:GaussianMixtureModel)和一组隐马尔可夫模型;在测试阶段,首先从目标说话人的测试语音中提取共振峰;然后根据共振峰特征,对说话人的口音进行识别,并根据识别结果选取该类口音对应的声学模型,对声学模型的参数进行调整,使之与目标说话人的发音特性相匹配;最后,用自适应后的声学模型对测试语音特征向量进行识别,得到识别结果。本专利技术的具体步骤如下:(1)得到各类口音的训练语音;(2)对每类口音的训练语音加窗,分帧,得到帧信号;(3)对每类训练语音的浊音帧信号,提取共振峰,并将前三个共振峰组成共振峰向量;(4)对每类训练语音的共振峰向量进行GMM训练,得到该类口音的GMM模型;(5)对每类训练语音进行特征提取,得到美尔频率倒谱系数(MFCC),并进行HMM训练,得到该类口音每个语音单元的HMM模型(声学模型);(6)对目标说话人的测试语音加窗,分帧,得到测试语音的帧信号;(7)从目标说话人的浊音帧信号中提取共振峰向量;(8)用预先训练的GMM对目标说话人的共振峰向量进行口音识别,得到目标说话人的口音信息;(9)根据目标说话人的口音信息,选取该类口音的声学模型,并对声学模型的参数进行调整,使之与目标说话人的发音特性相匹配,得到自适应后的声学模型,匹配过程是近似的逼近过程,只要识别率提高就算匹配度提高了,不是完全匹配;(10)对目标说话人的帧信号中进行特征提取,得到目标说话人的MFCC;(11)用自适应后的声学模型对目标说话人的MFCC进行声学解码,得到识别结果。本专利技术采用上述技术方案,具有以下有益效果:本专利技术可以减小口音对语音识别系统的影响,提高口音改变条件下模型自适应的准确性,增强语音识别系统的识别性能。附图说明图1为本专利技术实施例的基于口音识别的鲁棒语音识别方法的总体框架图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。一种基于口音识别的鲁棒语音识别方法,主要包括预处理、共振峰提取、GMM训练、特征提取、HMM训练、口音识别、模型自适应和声学解码几个部分。1、预处理在训练阶段和测试阶段分别对训练语音和测试语音进行加窗,分帧,生成每一帧信号。语音信号的采样频率为8000Hz,窗函数为海明窗,帧长为256,帧移为128。2、共振峰提取在训练阶段和测试阶段分别对训练语音和测试语音的浊音帧信号提取共振峰,并将前三个共振峰组成共振峰向量。3、特征提取在训练阶段和测试阶段分别对训练语音和测试语音的每一帧信号进行快速傅里叶变换,Mel滤波,对数变换,离散余弦变换,生成美尔频率倒谱系数(MFCC)。4、GMM训练对每类口音的全部训练语音共振峰向量进行GMM训练,生成该类口音的GMM模型。5、HMM训练对每类口音的每个语音单元的全部训练语音MFCC进行HMM训练,得到该类口音该语音单元的HMM模型。每类口音的全部HMM组成该类口音的声学模型。6、口音识别将目标说话人测试语音的共振峰向量输入每类口音的GMM,计算GMM的输出概率。输出概率最大的GMM对应的口音即为目标说话人的口音。7、模型自适应根据口音识别得到的目标说话人的口音信息,选取该类口音的声学模型,并用最大似然回归算法对所选口音的声学模型的参数进行变换,使之与目标说话人的发音特性更加匹配。8、声学解码用自适应后的口音声学模型对目标说话人的MFCC进行声学解码,得到识别结果。本文档来自技高网...

【技术保护点】
1.一种基于口音识别的鲁棒语音识别方法,其特征在于,在训练阶段,获取各类口音的训练语音,为每类口音训练生成一个高斯混合模型(GMM)和一组隐马尔可夫模型;在测试阶段,首先从目标说话人的测试语音中提取共振峰;然后根据共振峰特征,对说话人的口音进行识别,并根据识别结果选取该类口音对应的声学模型,对声学模型的参数进行调整,使之与目标说话人的发音特性相匹配,得到自适应后的声学模型;最后,用自适应后的声学模型对测试语音特征向量进行识别,得到识别结果。

【技术特征摘要】
1.一种基于口音识别的鲁棒语音识别方法,其特征在于,在训练阶段,获取各类口音的训练语音,为每类口音训练生成一个高斯混合模型(GMM)和一组隐马尔可夫模型;在测试阶段,首先从目标说话人的测试语音中提取共振峰;然后根据共振峰特征,对说话人的口音进行识别,并根据识别结果选取该类口音对应的声学模型,对声学模型的参数进行调整,使之与目标说话人的发音特性相匹配,得到自适应后的声学模型;最后,用自适应后的声学模型对测试语音特征向量进行识别,得到识别结果。2.如权利要求1所述的基于口音识别的鲁棒语音识别方法,其特征在于,为每类口音训练生成一个GMM模型和HMM模型的具体做法为:(1)将发音特性相近的口音合并为一类,得到各类口音的训练语音;(2)对每类口音的训练语音加窗,分帧,得到帧信号;(3)对每类训练语音的浊音帧信号,提取共振峰,并将前三个共振峰组成共振峰向量;(4)对每类训练语音的共振峰向量进行GMM训练,得到该类口音的GMM模型;(5)对每类训练语音进行特征提取,得到美...

【专利技术属性】
技术研发人员:吕勇
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1