The invention discloses a robust speech recognition method based on dual feature model. In view of the characteristic that the low energy coefficient of speech is easily covered by noise, the power function is used to replace the logarithmic function, and the Mel spectrum coefficient of the noisy input speech is compressed, and the PMFCC:Power Mel frequency cepstrum coefficient (Frequency) is obtained. Cepstral Coefficients), and transform the parameters of the acoustic model according to the noise input speech, and match the current environment. If the input speech is pure test speech, the traditional MFCC is still used for acoustic decoding. The invention can maintain the high recognition rate of the pure input speech while improving the anti noise ability of the noisy speech, which is superior to the traditional single MFCC speech recognition system.
【技术实现步骤摘要】
一种基于双特征模型的鲁棒语音识别方法
本专利技术属于语音识别领域,具体涉及到针对纯净测试语音和含噪测试语音两种环境采用不同语音特征进行声学解码的鲁棒语音识别方法。
技术介绍
目前大多数语音识别系统以美尔频率倒谱系数(MFCC:MelFrequencyCepstralCoefficients)为特征参数,以隐马尔可夫模型(HMM:HiddenMarkovModel)为声学模型。MFCC采用对数函数对Mel滤波后的系数进行非线性变换。对数函数不仅对高能量系数进行压缩,而且对低能量系数进行放大,因此MFCC考虑了各语音单元之间的细节差异,在纯净语音环境中可以取得很高的识别率。在实际应用中,环境噪声往往是不可避免的,语音的低能量系数容易被噪声覆盖,不但不能提高语音单元之间的分辨率,而且使噪声环境下提取的MFCC与训练环境下生成的纯净语音声学模型严重失配,导致系统的识别性能下降。因此,在含噪测试语音环境下,没有必要考虑语音的低能量系数,只需要对高能量系数进行压缩即可。
技术实现思路
专利技术目的:针对现有技术中存在的问题,本专利技术提供一种基于双特征模型的鲁棒语音识别方法。在该 ...
【技术保护点】
一种基于双特征模型的鲁棒语音识别方法,其特征在于,针对语音的低能量系数容易被噪声覆盖的特点,用幂函数取代对数函数,对含噪输入语音的Mel谱系数进行压缩,得到含噪语音的幂美尔频率倒谱系数(PMFCC:Power Mel Frequency Cepstral Coefficients),并根据含噪输入语音对声学模型的参数进行变换,使其与当前环境相匹配;如果输入语音是纯净测试语音,则仍采用MFCC进行声学解码,保持纯净语音的高识别率。
【技术特征摘要】
1.一种基于双特征模型的鲁棒语音识别方法,其特征在于,针对语音的低能量系数容易被噪声覆盖的特点,用幂函数取代对数函数,对含噪输入语音的Mel谱系数进行压缩,得到含噪语音的幂美尔频率倒谱系数(PMFCC:PowerMelFrequencyCepstralCoefficients),并根据含噪输入语音对声学模型的参数进行变换,使其与当前环境相匹配;如果输入语音是纯净测试语音,则仍采用MFCC进行声学解码,保持纯净语音的高识别率。2.根据权利要求1所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,具体包括:(1)用一个含有较少高斯单元的高斯混合模型监测输入语音中是否含有噪声,输出噪声存在标识;(2)提取输入语音的美尔频率倒谱系数(MFCC),包括声学预加重、加窗、分帧、快速傅里叶变换、Mel滤波、取对数和离散余弦变换;(3)提取输入语音的幂美尔频率倒谱系数(PMFCC),用指数为真分数的幂函数取代对数函数对Mel滤波后的系数进行压缩,其他步骤与MFCC相同;(4)根据噪声存在标识,选择MFCC或PMFCC,作为系统的特征参数,前者用于纯净输入语音,后者用于含噪输入语音;(5)如果输入是纯净语音,则直接输出MFCC声学模型用于声学解码;如果输入是含噪语音,则需要对PMFCC声学模型进行模型自适应,使其与含噪测试环境相匹配,再对含噪输入语音进行声学解码。3.根据权利要求2所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,对PMFCC声学模型采用以下公式进行模型自适应:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。