当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于低频对数谱的鲁棒特征提取方法技术

技术编号:19636885 阅读:30 留言:0更新日期:2018-12-01 17:23
本发明专利技术公开一种基于低频对数谱的鲁棒特征提取方法,用语音信号的对数谱轮廓提取其特征参数。首先,对语音信号的幅度谱进行对数变换,得到对数谱;然后,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;最后,对语音信号的低频对数谱进行指数变换,Mel滤波,对数变换和离散余弦变换,并进行时域差分,得到语音信号的特征参数。本发明专利技术可以提高语音信号特征参数的环境鲁棒性,减小说话人的改变对语音识别系统的影响,具有计算量较小、易于实时实现的优点。

A Robust Feature Extraction Method Based on Low Frequency Logarithmic Spectrum

The invention discloses a robust feature extraction method based on low frequency logarithmic spectrum, and extracts characteristic parameters by logarithmic spectrum contour of speech signal. Firstly, logarithmic spectrum is obtained by logarithmic transformation of the amplitude spectrum of speech signal; then, logarithmic spectrum is regarded as time domain signal, and low-pass filtering is carried out by digital filter to obtain low-frequency logarithmic spectrum; finally, exponential transformation, Mel filtering, logarithmic transformation and discrete cosine transformation are carried out for low-frequency logarithmic spectrum of speech signal. And the time domain difference is used to get the characteristic parameters of speech signal. The invention can improve the environmental robustness of speech signal characteristic parameters, reduce the influence of speaker changes on speech recognition system, and has the advantages of less computation and easy real-time implementation.

【技术实现步骤摘要】
一种基于低频对数谱的鲁棒特征提取方法
本专利技术属于语音识别
,具体涉及到对语音信号的对数谱进行低频滤波,减小环境失配对语音识别系统影响的鲁棒特征提取方法。
技术介绍
语音识别系统每个语音单元的声学模型一般用安静环境下若干人的训练语音训练而成,如果训练语音能覆盖实际说话人的发音特性,那么语音识别系统可以取得很高的识别率。然而,不同地区说话人的发音方式有较大的差别,且发音方式的种类太多,难以在声学模型的训练过程中考虑所有发音方式。而且,如果在训练过程中使用过多差别大的训练语音,也会导致系统识别率的下降。因此,说话人的改变是导致语音识别系统在实际环境中识别性能下降的重要因素。目前,语音识别系统一般以美尔频率倒谱系数(MFCC:MelFrequencyCepstralCoefficients)为语音的特征参数。MFCC具有高维分量包含的有效信息少,各维分量之间的相关性小的优点。但是,由于语音变异性的影响,在实际环境中提取的MFCC的特性与训练语音可能存在较大的差异,这会导致系统性能的下降,甚至不可用。
技术实现思路
专利技术目的:针对现有技术中存在的问题,为了减小说话人的改变对语音识别系统的影响,在特征提取时,应尽量减少说话人的个性特征,增强语音特征参数的鲁棒性,本专利技术提供一种基于低频对数谱的鲁棒特征提取方法。技术方案:一种基于低频对数谱的鲁棒特征提取方法,首先对输入语音的幅度谱进行对数变换,得到对数谱;然后,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;最后,对语音信号的低频对数谱进行指数变换,Mel滤波,对数变换和离散余弦变换(DCT:DiscreteCosineTransform),并进行时域差分,得到语音信号的特征参数。本专利技术的具体步骤如下:(1)对输入语音加窗,分帧,将输入语音分解为若干帧信号;(2)对每一帧输入语音进行快速傅里叶变换(FFT:FastFourierTransform)运算,得到每帧信号的幅度谱;(3)对每帧信号的幅度谱进行对数变换,得到语音信号的对数谱;(4)将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;(5)对每帧信号的低频对数谱进行指数变换,得到语音信号的低频幅度谱;(6)对每帧信号的低频幅度谱进行Mel滤波,得到语音信号的低频Mel谱;(7)对每帧信号的低频Mel谱进行对数变换,得到语音信号的低频Mel对数谱;(8)对每帧信号的低频Mel对数谱进行DCT变换,得到语音信号的静态特征参数;(9)对DCT后的静态倒谱特征作一阶差分和二阶差分,得到动态倒谱参数,静态参数和动态参数共同组成语音的39维倒谱特征向量。本专利技术采用上述技术方案,具有以下有益效果:本专利技术可以提高语音信号特征参数的环境鲁棒性,减小说话人的改变对语音识别系统的影响,具有计算量较小、易于实时实现的优点。附图说明图1为本专利技术实施例的基于低频对数谱的鲁棒特征提取方法的总体框架图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图1所示,基于低频对数谱的鲁棒特征提取方法主要包括预处理、FFT、对数变换、低通滤波、指数变换、Mel滤波、DCT和时域差分部分。1、预处理在语音预处理阶段,对输入语音进行加窗,分帧,得到帧信号x。语音信号的采样频率为8000Hz,窗函数采用海明窗,帧长为256,帧移为128。2、FFT对预处理后的每一帧信号x,进行快速傅里叶变换(FFT),求x的幅度谱X:其中,N为帧长,即N=256,j是虚数单位,k为离散频谱的自变量(基频的倍数)。3、对数谱滤波对数谱滤波包括对数变换、低通滤波和指数变换三个部分。首先,对幅度谱X进行对数变换:g=ln(X)(2)其中,g表示语音信号的对数谱。然后,将对数谱g看作时域信号,用一个低通滤波器对其进行低通滤波,保留其低频部分,滤除高频部分,得到低频对数谱低通滤波器的截止频率用实验方法测得。最后,对低频对数谱进行指数变换:其中,表示语音信号的低频幅度谱。4、低频幅度谱特征提取首先,对低频幅度谱进行Mel滤波:其中,Wm(k)为Mel滤波器组第m个三角滤波器在频率k处的加权因子;M为滤波器的个数;为第m个滤波器的输出。然后,对低频Mel谱进行对数变换:其中,表示语音信号的低频Mel对数谱。然后,对低频Mel对数谱进行离散余弦变换(DCT):其中,L是倒谱特征向量c的维数,这里取13。最后,对静态参数c进行一阶和二阶时域差分:其中,T和Γ为常数,分别表示一阶差分和二阶差分时,当前帧前后参与差分运算的帧数。将ct,Δct和ΔΔct拼接,即可得到第t帧语音的39维倒谱特征向量。本文档来自技高网...

【技术保护点】
1.一种基于低频对数谱的鲁棒特征提取方法,其特征在于,首先对输入语音的幅度谱进行对数变换,得到对数谱;然后,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;最后,对语音信号的低频对数谱进行指数变换,Mel滤波,对数变换和离散余弦变换,并进行时域差分,得到语音信号的特征参数。

【技术特征摘要】
1.一种基于低频对数谱的鲁棒特征提取方法,其特征在于,首先对输入语音的幅度谱进行对数变换,得到对数谱;然后,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;最后,对语音信号的低频对数谱进行指数变换,Mel滤波,对数变换和离散余弦变换,并进行时域差分,得到语音信号的特征参数。2.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法,其特征在于,对输入语音加窗,分帧,将输入语音分解为若干帧信号;对每一帧输入语音进行快速傅里叶变换运算,得到每帧信号的幅度谱;对每帧信号的幅度谱进行对数变换,得到语音信号的对数谱。3.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法,其特征在于,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;对每帧信号的低频对数谱进行指数变换,得到语音信号的低频幅度谱;对每帧信号的低频幅度谱进行Mel滤波,得到语音信号的低频Mel谱;对每帧信号的低频Mel谱进行对数变换,得到语音信号的低频Mel对数谱;对每帧信号的低频Mel对数谱进行DCT变换,得到语音信号的静态特征参数;对DCT后的静态倒谱特征作一阶差分和二阶差分,得到动态倒谱参数,静态参数和动态参数共同组成语音的39维倒谱特...

【专利技术属性】
技术研发人员:吕勇
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1