当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于MFCC远距离差值的鲁棒语音识别方法技术

技术编号:6982669 阅读:340 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于梅尔频率倒谱系数(MFCC)远距离差值的鲁棒语音识别方法。本发明专利技术显著特点在于选用MFCC?4个采样点和6个采样点远距离差值作为语音识别特征参数,在基本不增加计算量和存储量的基础上比本领域通常使用的MFCC参数本身及其一阶差分系数作为特征参数时提高了鲁棒语音识别系统识别率20-40个百分点。

【技术实现步骤摘要】

本专利技术涉及语音识别
提出了一种采用梅尔频率倒谱系数(MFCC)远距离差值作为特征参数的鲁棒语音识别方法。
技术介绍
语音识别系统在噪声环境下性能下降的主要原因是纯净的训练数据与被噪声污染的测试数据之间存在着不匹配,寻找一种能够减少这种不匹配的特征参数是提高语音识别系统含噪语音识别率的一种重要方法。目前常用的语音识别特征参数有梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,简称 MFCC)和线性预测倒谱系数(Linear Predictive Cepstral Coeff icient,简称LPCC)。MFCC符合人耳的听觉特性,具有较好的抗噪性能,计算方法如下首先对语音信号进行端点检测、预加重、分帧、加窗等预处理,然后对每一帧信号进行快速傅立叶变换(Fast Fourier "Transform,简称FFT)后取模平方得到功率谱,采用M维梅尔滤波器组对功率谱进行滤波,将滤波后的能量进行对数变换,最后再进行离散余弦变换(Discrete Cosine Transform,简称DCT)得到MFCC参数,具体计算过程可以参考文献(如韩纪庆,张磊,郑铁然.语音信号处理.北京清华大学出版社, 2004.)。LPCC基于人的发声模型,假设人的发声模型为一个全极点模型,认为当前时刻的语音可以用之前若干个时刻的语音线性组合来表示。采用最小均方误差准则和自相关法可以求出上式中的线性预测系数,然后根据同态处理方法可以求得线性预测倒谱系数(LPCC)。 具体计算过程可以参见文献(如韩纪庆,张磊,郑铁然.语音信号处理.北京清华大学出版社,2004.)。大量实验(如 Steven B. Davis, Paul Mermelstein. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. . IEEE Trans, on ASSP,1980,28(4) :357-366.禾口 Shang-Ming Lee, Shi—hau Fang, Jeih-weih Hung and Lin—Shan Lee. Improved MFCC feature extraction by PCA-optimized filter-bank for speech recognition. . IEEEAutomatic Speech Recognition and Understanding, 2001,49-52.)表明,MFCC 比 LPCC 具有更好的抗噪声性能,但是MFCC在鲁棒语音识别中仍不能取得令人满意的效果(Yeganeh H.,Ahadi S. M. , Ziaei A. A new MFCC improvement method for robust ASR. , IEEE ICSP,2008, 643-646.)。文献(Steven B.Davis, Paul Mermelstein. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. . IEEE Trans, on ASSP,1980,28(4) :357-366.)中采用主成份分析 (Principal Component Analysis,简称PCA)的方法对梅尔滤波器组进行优化,提高鲁棒性;又有文献(Yeganeh H. , Ahadi S. M. , Ziaei A. A new MFCC improvement method for robust ASR. . IEEE ICSP,2008,643-646.)中首先计算梅尔子带谱减,然后对每一个子带估计信噪比,根据此估计对参数进行加权,受噪声影响较小的参数权重较大,从而达到提高语音识别系统在噪声环境下的鲁棒性。韩国专利KR1008931MB1将加权的MFCC系数用于语音性别识别中,美国专利US2009177466将语音频谱波峰的能量代替整个功率谱用于提取语音的梅尔频率倒谱系数,在不增加语音特征维数的情况下提高了语音识别的抗噪稳健性。 本专利技术的显著特点是利用MFCC远距离差值作为语音识别特征参数,摒弃传统的 MFCC参数本身及其一阶差分系数的组合作为语音识别特征参数。实验表明,当特征参数选用MFCC4个采样点和6个采样点远距离差值时,语音识别系统具有最好的抗噪鲁棒性。
技术实现思路
1、专利技术目的提出一种基于MFCC远距离差值的鲁棒语音识别方法。该方法选用 MFCC4个采样点和6个采样点的远距离差值作为特征参数,而摒弃传统的MFCC参数本身及其一阶差分系数。2、技术方案为实现上述专利技术目的,本专利技术所提出的算法在计算得到MFCC参数的基础上,求得其4个采样点和6个采样点的远距离差值,以此作为语音识别特征参数用于训练和识别。标准的MFCC参数计算方法为首先对语音信号进行预处理,即端点检测、预加重、 分帧、加窗,然后对每一帧语音计算其FFT并取模平方得到功率谱,对功率谱用Mel滤波器组进行滤波,滤波后取对数,并计算DCT得到标准的MFCC参数。具体可参阅文献(俸云, 景新幸,叶懋.MFCC特征改进算法在语音识别中的应用..计算机工程与科学,2009, 31(12) :146-148.)。MFCC 2个采样点差值的计算方法如下Δ 2MFCC (i) = MFCC (i+1)-MFCC (i-1)(1)同理,MFCC 4个采样点远距离差值的计算方法如下Δ 4MFCC (i) = MFCC (i+2)-MFCC (i-2)(2)MFCC 6个采样点远距离差值的计算方法如下Δ 6MFCC (i) = MFCC (i+3)-MFCC (i-3)(3)其中MFCC⑴为第i帧语音信号的MFCC参数,Δ 2MFCC为MFCC 2个采样点差值, A4MFCC为MFCC 4个采样点远距离差值,A6MFCC为MFCC 6个采样点远距离差值。具体语音识别系统可采用如隐式马尔科夫模型(Hidden Markov Model,简称HMM) (但不限于)作为系统模型,对选用的特征参数(本专利技术公开的MFCC 4个采样点和6个采样点的远距离差值),训练过程可采用Baum-Welch算法(但不限于),识别过程可采用Viterbi解码算法(但不限于)。具体语音识别系统算法流程可参阅文献(如何强,何英.MATLAB扩展编程.北京清华大学出版社,2002.)。3、有益效果本专利技术显著优点在于选用MFCC 4个采样点和6个采样点远距离差值作为语音识别特征参数,在基本不增加计算量和存储量的基础上,比本领域通常采用的 MFCC参数本身及其一阶差分系数组合作为特征参数提高含噪语音识别率20-40个百分点。附图说明 图1是计算MFCC 4个采样点远距离差值的原理框图。4图2是计算MFCC 6个采样点远距离差值的原理框图。 五具体实施例方式本专利技术所提出的算法特征为选用MFCC远距离差值作为语音识别本文档来自技高网
...

【技术保护点】
1.一种基于梅尔频率倒谱系数(MFCC)远距离差值的鲁棒语音识别算法,其特征在于采用MFCC 4个采样点和6个采样点远距离差值作为特征参数。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵斯培邱小军
申请(专利权)人:南京大学
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1