当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于多频带特征补偿的鲁棒语音识别方法技术

技术编号:14486280 阅读:145 留言:0更新日期:2017-01-26 20:16
本发明专利技术公开一种基于多频带特征补偿的鲁棒语音识别方法,首先对噪声环境下提取的美尔频率倒谱系数(MFCC)在倒谱域直接进行分解,得到四个频带的子MFCC;然后,在各个频带上用预先训练的高斯混合模型对本频带的子MFCC进行特征补偿,得到较为纯净的子特征参数;最后,对估得的四个频带的子MFCC进行特征组合,得到纯净语音的完整MFCC。本发明专利技术可以提高带限噪声环境下语音识别系统的识别性能,提高系统的噪声鲁棒性。

【技术实现步骤摘要】

本专利技术涉及到将待识别语音的倒谱特征参数分解为若干个频带的子信号,对每个频带的子信号分别进行特征补偿,再将补偿后的各频带倒谱特征合成为完整倒谱特征参数的多频带鲁棒特征补偿方法,属于语音识别

技术介绍
在噪声环境下,语音识别系统的性能往往会下降,这是因为背景噪声会使测试环境下提取的特征参数与预先训练的声学模型不匹配。因此,在实际应用中,需要采取一些补偿技术减小噪声对语音识别系统的影响,提高语音识别系统的识别率。一般来说,噪声补偿技术可以用于前端特征域,也可以用于后端模型域。前者对噪声环境下提取的特征参数进行补偿,从含噪测试语音中估计纯净语音的特征向量;后者利用测试环境下的少量自适应数据对预先训练的纯净语音声学模型的参数进行调整,使之与测试环境相匹配。与后端模型补偿相比,前端特征补偿具有计算量小、易于实现的优点,因而在手持终端等便携式设备中得到了广泛应用。语音信号的频谱具有明显的共振峰结构,其能量非均匀地分布在各个频带上,大部分能量集中在低频段,较少分布在高频段。因此,含噪语音的低频段具有较高的信噪比,高频段具有较低的信噪比。此外,加性背景噪声对语音的干扰通常各自发生在相对独立的频带上,可以认为能量集中在某个频带上的噪声只影响本频带的语音谱,对其他频带的语音没有影响。而语音识别系统中广泛采用的倒谱参数对语音信号的对数谱进行了离散余弦变换(DCT:DiscreteCosineTransform),因此任一频带上的噪声都会影响整个倒谱特征参数。因此,本专利技术在带限噪声环境下,对各频带上的噪声分别进行补偿,得到各频带上的子特征参数,再将其合成为完整倒谱特征参数,可以得到更好的特征补偿效果。
技术实现思路
专利技术目的:针对现有技术中存在的问题,本专利技术提供一种基于多频带特征补偿的鲁棒语音识别方法,将待识别语音的倒谱特征参数分解为若干个频带的子信号,对每个频带的子信号分别进行特征补偿,再将补偿后的各频带倒谱特征合成为完整倒谱特征参数。技术方案:一种基于多频带特征补偿的鲁棒语音识别方法,首先对噪声环境下提取的美尔频率倒谱系数(MFCC:MelFrequencyCepstralCoefficients)在倒谱域直接进行分解,得到四个频带的子MFCC;然后,在各个频带上用预先训练的高斯混合模型(GMM:GaussianMixtureModel)对本频带的子MFCC进行特征补偿,得到较为纯净的子特征参数;最后,对四个频带的子MFCC进行特征组合,得到纯净语音的完整MFCC。具体步骤如下:(1)将纯净训练语音的MFCC在倒谱域直接分解为四个频带的子MFCC:MFCC1~MFCC4,并用每个频带的全部子MFCC训练生成该频带的GMM,得到GMM1~GMM4;(2)对含噪输入语音进行声学预处理和特征提取,得到各帧信号的MFCC;(3)在倒谱域,对每帧信号的MFCC进行特征分解,得到低频子特征参数和高频子特征参数(4)将每帧信号的低频子特征参数再次分解为低频特征参数和高频特征参数(5)将每帧信号的高频子特征参数再次分解为低频特征参数和高频特征参数这样就将含噪输入语音的倒谱特征分解为四个频带的子信号;(6)在每个频带上,用该频带的GMM对子MFCC进行特征补偿,从含噪语音中估计该频带的纯净语音子特征参数;(7)对四个频带上估得的纯净语音子MFCC进行特征组合,得到纯净语音完整的MFCC。本专利技术采用上述技术方案,具有以下有益效果:本专利技术可以提高带限噪声环境下语音识别系统的识别性能,提高系统的噪声鲁棒性。附图说明图1为基于多频带特征补偿的鲁棒语音识别框架图,主要包括特征提取、特征分解、GMM训练、特征补偿和特征组合模块。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。基于多频带特征补偿的鲁棒语音识别方法,具体步骤如下:(1)将纯净训练语音的MFCC在倒谱域直接分解为四个频带的子MFCC:MFCC1~MFCC4,并用每个频带的全部子MFCC训练生成该频带的GMM,得到GMM1~GMM4;(2)对含噪输入语音进行声学预处理和特征提取,得到各帧信号的MFCC;(3)在倒谱域,对每帧信号的MFCC进行特征分解,得到低频子特征参数和高频子特征参数(4)将每帧信号的低频子特征参数再次分解为低频特征参数和高频特征参数即附图中的MFCC1和MFCC2;(5)将每帧信号的高频子特征参数再次分解为低频特征参数和高频特征参数即附图中的MFCC3和MFCC4,这样就将含噪输入语音的倒谱特征分解为四个频带的子信号;(6)在每个频带上,用该频带的GMM对子MFCC进行特征补偿,从含噪语音中估计该频带的纯净语音子特征参数;(7)对四个频带上估得的纯净语音子MFCC进行特征组合,得到纯净语音完整的MFCC。如图1所示,主要包括特征提取、特征分解、GMM训练、特征补偿和特征组合模块。下面逐一详细说明附图中各主要模块的具体实施方案。1、特征分解设第t帧语音的MFCC为ct,ct=[ct(0),ct(1),…,ct(12)]T,这里只考虑前13维静态倒谱特征参数,则ct可以通过下式分解为低频子特征参数和高频子特征参数ctL(m)=ct(m-1)+ct(m)+ct(m+1)3,m=1,2,...,11ct(0)+ct(1)2,m=0ct(11)+ct(12)2,m=12---(1)]]>ctH(m)=2ct(m)-ct(m-1)-ct(m+1)3,m=1,2,...,11ct(0)-ct(1)2,m=0ct(12)-ct(11)2,m=12---(2)]]>由式(1)和式(2)可知,只要将和相加,即可恢复ct。对和分别再次进行低频和高频分解,得到它们的子特征参数和这样就将ct分解为四个频带的子信号分别记为和2、GMM训练用纯净训练语音每个频带的子倒谱特征进行模型训练,生成该频带的高斯混合模型:b(cti,x)=Σm=1Mai,m{(2π)-D2|Σi,x,m|-1/2exp[-12(cti,x-μi,x,m)TΣi,x,m-1(cti,x-μi,x,m)]本文档来自技高网
...
一种基于多频带特征补偿的鲁棒语音识别方法

【技术保护点】
一种基于多频带特征补偿的鲁棒语音识别方法,其特征在于:首先对噪声环境下提取的美尔频率倒谱系数在倒谱域直接进行分解,得到四个频带的子MFCC;然后,在各个频带上用预先训练的高斯混合模型对本频带的子MFCC进行特征补偿,得到较为纯净的子特征参数;最后,对四个频带的子MFCC进行特征组合,得到纯净语音的完整MFCC。

【技术特征摘要】
1.一种基于多频带特征补偿的鲁棒语音识别方法,其特征在于:首先对噪声环境下提取的美尔频率倒谱系数在倒谱域直接进行分解,得到四个频带的子MFCC;然后,在各个频带上用预先训练的高斯混合模型对本频带的子MFCC进行特征补偿,得到较为纯净的子特征参数;最后,对四个频带的子MFCC进行特征组合,得到纯净语音的完整MFCC。2.如权利要求1所述的基于多频带特征补偿的鲁棒语音识别方法,其特征在于:具体步骤如下:(1)将纯净训练语音的MFCC在倒谱域直接分解为四个频带的子MFCC:MFCC1~MFCC4,并用每个频带的全部子MFCC训练生成该频带的GMM,得到GMM1~GMM4;(2)对含噪输入语音进行声学预处理和特征提取,得到各帧信号的MFCC;(3)在倒谱域,对每帧信号的MFCC进行特征分解,得到低频子特征参数和高频子特征参数(4)将每帧信号的低频子特征参数再次分解为低频特征参数和高频特征参数(5)将每帧信号的高频子特征参数再次分解为低频特征参数和高频特征参数这样就将含噪输入语音的倒谱特征分解为四个频带的子信号;(6)在每个频带上,用该频带的GMM对子MFCC进行特征补偿,从含噪语...

【专利技术属性】
技术研发人员:吕勇
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1