一种基于小波包分解及混合高斯模型估计的语音识别方法技术

技术编号:3044724 阅读:200 留言:0更新日期:2012-04-11 18:40
一种基于小波包分解及混合高斯模型估计的语音识别方法。包括:对已知语音训练样本进行预处理,得到标准化特征向量;对特征向量进行小波包分解,得到在各个频段上的分解值;按照类别、频段将训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵;在各个频段上构造高斯模型集;计算频段之间的前向转移概率矩阵和后向转移概率矩阵;导入所有训练样本的高斯模型集,计算测试样本的分布概率及其估计值,判断测试样本的类别。本发明专利技术给出了任意类别样本准确的系列二维空间簇(各个频段)能量的分布图,所有的训练和识别运算都是在二维空间上进行,无论是用加噪的还是未加噪语音样本训练,识别效果均好于经典HMM方法。

【技术实现步骤摘要】
专利说明
本专利技术涉及语音识别
,特别是指一种基于小波包分解及混合高斯模型的语音识别方法。
技术介绍
一个典型的语音识别系统通常包括如下过程信号预处理、特征参数提取、建立模式库、模式匹配、后处理等。其中特征参数提取和建模是语音识别的两个关键性问题。当前最常用的两种特征参数是线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)和Melp频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC),而最主要的识别方法是隐马尔可夫模型(Hidden Markov Model,HMM)。 LPCC是指将线性预测系数经倒谱变换后得到的参数。它从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC[1-8]。这种模型能用极少的参数表现语音的波形和频谱特性,达到很好的降维效果,同时具有很高的计算率,因此有着广泛的应用。LPC模型是基于发音模型建立的,是纯数学模型,并没有充分利用人耳的听觉特性。事实上,人耳的听觉特性是一个特殊的非线性系统,对不同频率信号的灵敏度响应不同,基本上是一个对数关系。MFCC参数充分模拟了人的听觉特性,而且没有任何前提假设,因此具有识别性能高和抗噪能力强等特点。MFCC参数将线性频标转换为Mel频标,强调语音的低频信息,从而突出了对识别有利的信息。这是因为语音信息大多数集中在低频部分,高频部分易受噪声的影响。但是LPCC参数是基于线性频标的,因此没有这一特性。MFCC参数提取过程中需要FFT变换,可以获得语音信号的频域信息,有利于语音的端点检测等。但相较于LPCC,MFCC的提取复杂,并且花费时间较长。 LPCC和MFCC的特点都是用极少的参数表现语音的波形和频谱特性。特征参数提取实质上是一个使高维样本数据到低维特征空间的降维过程。但是对于大量的,高耦合的样本進行分类识别,目前在理论上或者试验上,我们还不能够充分的说明上述特征提取过程的充分性。 20世纪70年代,语音识别的主要方法是以动态规划为基础的动态时间规整(Dynamic TimeWarping)[9],解决了语音的特征提取和不等长匹配问题,对小词汇量、特定人的语音识别十分有效。造入70年代后期,人们寻找了各种新的声学建模方法。具有重要意义的是矢量量化技术(VectorQuantization,VQ)[10],它具有很好的数据压缩能力和比较理想的聚类功能。HMM的有关理论基础是Baum等人[11-13]于1970年前后建立起来的,随后由CMU的Baker和IBM的Jelinek等人[14-19]将其应用在语音识别中。20世纪80年代由于Bell实验室Rabiner等人的工作[20-23],使其逐渐成为语音识别领域的主流技术。 HMM之所以能够成功应用于语音识别,是因为它是一个双随机过程,其中一个是Markov链,它描述状态的转移。另一个随机过程描述状态和观察值之间的统计对应关系。HMM通过这两个相互关联的随机过程共同描述语音信号的统计特性,满足语音信号中时变的特性,使得HMM具有比其它方法更优越的识别性能。但是经典HMM模型存在一些缺陷 1.初始模型的选取。经典HMM采用Baum-Welsh训练算法,该算法是EM算法[24]的一个特例,受初始值影响较大,容易陷入局部最优。 2.时空复杂度很高,导致训练和识别的效率低,难以直接应用。 3.经典HMM是一个齐次模型,状态转移时不考虑状态驻留时间长度,使得经典HMM不能合适地表征语音信号的时域结构。 针对这些缺陷,自上个世纪90年代至今人们建立了多种HMM的派生模型[15-39]和针对训练的优化算法[40-52],但仍不能从根本上解决上述问题。 小波变换是20世纪80年代逐渐发展起来的一门数学分析方法,一出现就受到数学界和工程界的广泛重视。它最早由法国数学家Morlet提出[53],1988年Mallat将计算机视觉领域内的多尺度分析的思想引入到小波分析中,提出多分辩分析(或逼近)概念[54],用多分辨分析来定义小波,给出了著名的Mallat算法,并将这一理论用于图像分析和完全重构[55],开创了小波理论在信号处理中的应用。 小波分析克服了短时傅立叶变换在单分辨率上的缺陷,具有多分辨率分析的特点,在时域和频域都有表征信号局部信息的能力,时间窗和频率窗都可以根据信号的具体形态动态调整,在一般情况下,在低频部分(信号较平稳)可以采用较低的时间分辨率,而提高频率的分辨率,在高频情况下(频率变化不大)可以用较低的频率分辨率来换取精确的时间定位。因为这些特点,小波分析可以探测正常信号中的瞬态,并展示其频率成分,被称为数学显微镜,广泛应用于各个时频分析领域。 但是从小波分析的算法可以看出,小波分解只对低频部分進行進一步分解,使频率的分辨率变得越来越高,而高频部分则不予考虑。语音信号频带较宽,若用小波对其進行分解势必会丢失一些重要的信息。 由Coifman和Wickerhauser提出的小波包理论[56-57]能够为信号提供一种更为精细的分析方法,它将频带進行多层次划分,对小波没有细分的高频部分進行進一步分解,并能根据被分析信号的特征,自适应地选择相应频带,使之与信号频谱相匹配,進一步提高了时-频分辨率,以二级分解为例,小波和小波包的区别如图1所示。因此小波包分解是一种更广泛应用的小波分解方法,广泛应用于各种信号处理、编码、消噪等领域。
技术实现思路
本专利技术的目的在于克服现有技术存在的上述不足,提供,该方法用小波包将已知训练样本分解到各个频段,利用高斯模型的构造性方法,描述了各类别样本在各个频段上的能量分布情况,通过比较测试样本与训练模型在各频段上的能量分布的差异来判断测试样本的类别。 本专利技术提供的基于小波包分解及混合高斯模型估计的语音识别方法的具体步骤如下 第1、对已知语音训练样本数据進行预处理,得到标准化的M维特征向量; 第2、对上步得到的训练样本的特征向量進行n级小波包分解,得到训练样本在各个频段上的分解值;其中n=log2(M)-1,频段个数为Sf=M/2; 第3、按照类别、频段将上步得到的训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵; 第4、为每类训练样本在各个频段构造高斯模型集; 第5、按照类别计算训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵; 第6、导入所有训练样本的高斯模型集,计算待测试样本的分布概率; 第7、计算待测试样本的分布概率的估计值,判断待测试样本的类别。 其中, 第1步对已知语音训练样本数据進行预处理的方法是 第1.1、对每一个已知训练样本语音数据(xi)1×N首先進行快速傅立叶变换; 第1.2、提取训练样本的1到M维特征向量y=(y1,y2,…,yM)∈RM,其中M为维数,按照内积空间RM中的距离‖y‖=<y,y>1/2,其中(·,·)表示内积空间的内积,把向量y标准化,即其中‖y‖定义为表示向本文档来自技高网
...

【技术保护点】
一种基于小波包分解及混合高斯模型估计的语音识别方法,其特征在于该方法的具体步骤如下:    第1、对已知语音训练样本数据進行预处理,得到标准化的M维特征向量;    第2、对上步得到的训练样本的特征向量進行n级小波包分解,得到训练样本在各个频段上的分解值;其中n=log↓[2](M)-1,频段个数为S↓[f]=M/2;    第3、按照类别、频段将上步得到的训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵;    第4、为每类训练样本在各个频段构造高斯模型集;    第5、按照类别计算训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵;    第6、导入所有训练样本的高斯模型集,计算待测试样本的分布概率;    第7、计算待测试样本的分布概率的估计值,判断待测试样本的类别。

【技术特征摘要】
1.一种基于小波包分解及混合高斯模型估计的语音识别方法,其特征在于该方法的具体步骤如下第1、对已知语音训练样本数据進行预处理,得到标准化的M维特征向量;第2、对上步得到的训练样本的特征向量進行n级小波包分解,得到训练样本在各个频段上的分解值;其中n=log2(M)-1,频段个数为Sf=M/2;第3、按照类别、频段将上步得到的训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵;第4、为每类训练样本在各个频段构造高斯模型集;第5、按照类别计算训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵;第6、导入所有训练样本的高斯模型集,计算待测试样本的分布概率;第7、计算待测试样本的分布概率的估计值,判断待测试样本的类别。2.如权利要求1所述的语音识别方法,其特征在于,第1步对语音训练样本数据進行预处理的方法是第1.1、对每个训练样本语音数据(xi)1×N首先進行快速傅立叶变换;第1.2、提取训练样本的1到M维特征向量y=(y1,y2,…,yM)∈RM,其中M为维数,按照内积空间RM中的距离‖y‖=<y,y>1/2,其中(·,·)表示内积空间的内积,把向量y标准化,即其中‖y‖定义为表示向量的长度,RM中其它的内积定义也是适用的,而且所有的标准化之后的训练样本数据按照类别分别构成训练样本集Ωi_RM,i=1,...,L,这里L为样本类别数,所有标准化之后的训练样本构成集合3.如权利要求2所述的语音识别方法,其特征在于,其中维数M取2048,1024、512、256、128、或64中任一数。4.如权利要求1所述的语音识别方法,其特征在于,第2步中所述的各个频段的分解值的获得方法是在降维后的数据空间中,对训练样本的特征向量進行n级小波包分解,其中n=log2(M)-1,得到在所有Sf=M/2个频段的二维向量集合其中L为样本类别数。5.如权利要求1所述的语音识别方法,其特征在于,第3步中所述的每个子类的均值向量和协方差矩阵的计算方法是第3.1、将第i类样本第k频段的二维向量集Ski,动态聚类成Tki个子类使得这里L为样本类别数,Sf为每类样本的频段数,Tki为第i类样本在第k频段的子类个数;第3.2、对于属于第i类第k个频段第j子类Sk,ji的所有二维向量的均值向量μ=(μ1,μ2)和协方差矩阵Cρ1,2=ρ2,1=Cov(z1,z2)/σ1σ2,式中,|Sk,ji|为集合Sk,ji元素的个数,i=1,…,L,k=1,…,Sf,6.如权利要求1所述的语音识别方法,其特征在于,第4步中所述的高斯模型集由属于每个子类的样本单独构造的高斯模型函数组成,对于第i类第k频段第j子类样本来说,其构造的高斯模型函数为式中μ=(μ1,μ2)为子类的均值向量、C为子类的协方差矩阵,i=1,…,L,K=1,…,Sf,由此训练样本的高斯模型集可表示为7.如权利要求1所述...

【专利技术属性】
技术研发人员:李春利董冠灵郭倩肖春景张敏
申请(专利权)人:中国民航大学
类型:发明
国别省市:12[中国|天津]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利