【技术实现步骤摘要】
专利说明
本专利技术涉及语音识别
,特别是指一种基于小波包分解及混合高斯模型的语音识别方法。
技术介绍
一个典型的语音识别系统通常包括如下过程信号预处理、特征参数提取、建立模式库、模式匹配、后处理等。其中特征参数提取和建模是语音识别的两个关键性问题。当前最常用的两种特征参数是线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)和Melp频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC),而最主要的识别方法是隐马尔可夫模型(Hidden Markov Model,HMM)。 LPCC是指将线性预测系数经倒谱变换后得到的参数。它从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC[1-8]。这种模型能用极少的参数表现语音的波形和频谱特性,达到很好的降维效果,同时具有很高的计算率,因此有着广泛的应用。LPC模型是基于发音模型建立的,是纯数学模型,并没有充分利用人耳的听觉特性。事实上,人耳的听觉特性是一个特殊的非线性系统,对不同频率信号的灵敏度响应不同,基本上是一个对数关系。MFCC参数充分模拟了人的听觉特性,而且没有任何前提假设,因此具有识别性能高和抗噪能力强等特点。MFCC参数将线性频标转换为Mel频标,强调语音的低频信息,从而突出了对识别有利的信息。这是因为语音信 ...
【技术保护点】
一种基于小波包分解及混合高斯模型估计的语音识别方法,其特征在于该方法的具体步骤如下: 第1、对已知语音训练样本数据進行预处理,得到标准化的M维特征向量; 第2、对上步得到的训练样本的特征向量進行n级小波包分解,得到训练样本在各个频段上的分解值;其中n=log↓[2](M)-1,频段个数为S↓[f]=M/2; 第3、按照类别、频段将上步得到的训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵; 第4、为每类训练样本在各个频段构造高斯模型集; 第5、按照类别计算训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵; 第6、导入所有训练样本的高斯模型集,计算待测试样本的分布概率; 第7、计算待测试样本的分布概率的估计值,判断待测试样本的类别。
【技术特征摘要】
1.一种基于小波包分解及混合高斯模型估计的语音识别方法,其特征在于该方法的具体步骤如下第1、对已知语音训练样本数据進行预处理,得到标准化的M维特征向量;第2、对上步得到的训练样本的特征向量進行n级小波包分解,得到训练样本在各个频段上的分解值;其中n=log2(M)-1,频段个数为Sf=M/2;第3、按照类别、频段将上步得到的训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵;第4、为每类训练样本在各个频段构造高斯模型集;第5、按照类别计算训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵;第6、导入所有训练样本的高斯模型集,计算待测试样本的分布概率;第7、计算待测试样本的分布概率的估计值,判断待测试样本的类别。2.如权利要求1所述的语音识别方法,其特征在于,第1步对语音训练样本数据進行预处理的方法是第1.1、对每个训练样本语音数据(xi)1×N首先進行快速傅立叶变换;第1.2、提取训练样本的1到M维特征向量y=(y1,y2,…,yM)∈RM,其中M为维数,按照内积空间RM中的距离‖y‖=<y,y>1/2,其中(·,·)表示内积空间的内积,把向量y标准化,即其中‖y‖定义为表示向量的长度,RM中其它的内积定义也是适用的,而且所有的标准化之后的训练样本数据按照类别分别构成训练样本集Ωi_RM,i=1,...,L,这里L为样本类别数,所有标准化之后的训练样本构成集合3.如权利要求2所述的语音识别方法,其特征在于,其中维数M取2048,1024、512、256、128、或64中任一数。4.如权利要求1所述的语音识别方法,其特征在于,第2步中所述的各个频段的分解值的获得方法是在降维后的数据空间中,对训练样本的特征向量進行n级小波包分解,其中n=log2(M)-1,得到在所有Sf=M/2个频段的二维向量集合其中L为样本类别数。5.如权利要求1所述的语音识别方法,其特征在于,第3步中所述的每个子类的均值向量和协方差矩阵的计算方法是第3.1、将第i类样本第k频段的二维向量集Ski,动态聚类成Tki个子类使得这里L为样本类别数,Sf为每类样本的频段数,Tki为第i类样本在第k频段的子类个数;第3.2、对于属于第i类第k个频段第j子类Sk,ji的所有二维向量的均值向量μ=(μ1,μ2)和协方差矩阵Cρ1,2=ρ2,1=Cov(z1,z2)/σ1σ2,式中,|Sk,ji|为集合Sk,ji元素的个数,i=1,…,L,k=1,…,Sf,6.如权利要求1所述的语音识别方法,其特征在于,第4步中所述的高斯模型集由属于每个子类的样本单独构造的高斯模型函数组成,对于第i类第k频段第j子类样本来说,其构造的高斯模型函数为式中μ=(μ1,μ2)为子类的均值向量、C为子类的协方差矩阵,i=1,…,L,K=1,…,Sf,由此训练样本的高斯模型集可表示为7.如权利要求1所述...
【专利技术属性】
技术研发人员:李春利,董冠灵,郭倩,肖春景,张敏,
申请(专利权)人:中国民航大学,
类型:发明
国别省市:12[中国|天津]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。