一种语音识别中的状态结构调整方法技术

技术编号:3046480 阅读:168 留言:0更新日期:2012-04-11 18:40
一种语音识别领域的语音识别中状态结构调整方法,具体步骤如下:建立大词汇量连续语音识别系统:语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39;状态结构调整:包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整,假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而利用训练语料对剩余状态的结构进行调整;说话人自适应:采用最大似然线性回归算法,利用自适应语料对调整后的模型做自适应。本发明专利技术提高了模型对样本的后验概率,增强对自适应语料的利用率,从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。

【技术实现步骤摘要】

本专利技术涉及一种语音识别领域的状态结构调整算法,具体是一种。
技术介绍
九十年代以来,基于连续概率HMM的非特定人(SI)、大词汇量连续语音识别(LVCSR)获得了很大的进展,为建立更精确的模型,LVCSR系统一般都采用上下文相关的三音子模型,利用基于声学决策树的状态共享策略进一步改善模型的性能。同时,在SI系统中,不同说话人的特性差异会带来系统性能的降低,这使得说话人自适应技术成为SI系统走向实用化的关键。常用的自适应方法包括贝叶斯(MAP)方法和最大似然线性回归(MLLR)方法,都是基于自适应语料对模型的参数做变换,没有考虑对决策树的结构做自适应。决策树中状态之间的合并或分裂是基于训练语料中似然值的变化和采样数据量进行的,得到的决策树的结构并不能有效地反映测试语料的特征,尤其是当训练语料与自适应语料的特征差别比较大时,这种结构的偏差直接会导致系统性能的降低。为了解决训练语料决策树与测试语料决策树结构不匹配造成的识别率的降低,必须对训练语料决策树的结构做调整,由于直接调整训练语料决策树结构后,又会使得决策树结构与训练语料的不一致,造成模型精度下降。经文献检索发现,A.Nakamura在国际声学、语音及信号处理会议(《ICASSP》,vol.1,pp.649-652,1998)中发表的“一种在非特定人声学建模中调整高斯混合函数结构的方法”(Restructuring Gaussian mixture density functions in speakerindependent acoustic models)中提出调整高斯混合分布函数方法,在该方案中,对于给定语音X,t时刻的观察矢量ot,对应的实际高斯函数为fta(μ,δ2),属于状态sa,而通过维特比(Viterbi)解码算法得到的识别的高斯函数为ftb(μ,δ2),属于状态sb;sa与sb共享高斯函数ftb(μ,δ2),从而调整sa中高斯混合的分布函数。调整后的状态包含不同数量的高斯函数,某个高斯函数可被多个状态共享。然而该方法的训练过程比较随机,而且这是基于训练语料,在一定程度上不能反映测试语音的信息。
技术实现思路
本专利技术针对现有技术中存在的上述不足和缺陷,提供一种,使其提高模型对样本的后验概率,增强对自适应语料的利用率,并增加状态内参数量,扩大模型的描述力,对系统总参数量的增加有限,从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。本专利技术是通过以下技术方案实现的,根据状态间混淆度,采用混淆状态间高斯加权共享对状态结构进行调整,具体步骤如下(1)建立大词汇量连续语音识别系统语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39,过程同一般语音识别。提取训练语音每句话的特征,根据句子内容利用HTK(HMMToolKit)工具首先选择声母和带调韵母作为基本的建模单元,建立带调单音子模型;然后将模型由单音子扩展到上下文相关的三音子模型,三音子模型同时考虑了不同音节间左右声韵母的情况,不同的语境对应不同的三音子模型;最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类,聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布。(2)状态结构调整包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整。自适应语音和测试语音来自同一个测试者,基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现。因此,分析基线系统识别自适应语音出时出现的错误,对状态结构进行适当的调整不仅可以提高对自适应语料的利用率,还可以提高模型的后验概率。另一方面,仅利用自适应语料对状态结构调整,状态调整的范围有限;训练语料来自大量的说话人,发音具有一定的代表性。因此假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而可以利用训练语料对剩余状态的结构进行调整。(3)说话人自适应采用最大似然线性回归算法(MLLR),利用自适应语料对调整后的模型做自适应,目的是进一步补偿状态调整后的模型与测试语音之间的不匹配。以下对本专利技术作进一步的说明,具体内容如下1、所述的利用自适应语音对模型状态结构调整,具体步骤是设HMMs的状态集为Ω;自适应样本X={X1,...,Xi,...}对应的状态集为Φ。每个样本Xi对应的特征矢量为Oi=(o1,...,ot,...,oT)、状态集为Φi(ΦiΦ)。根据样本Xi的声学模型,利用帧同步Viterbi算法得到矢量Oi对应于Φi的状态序列Ξ=(si,...,st,...,sT),称Ξ为实际的状态序列;同样地根据Viterbi识别算法得到Oi对应于状态集Ω的状态序列Ψ=(r1,...,rt,...,rT),称Ψ为识别的状态序列。比较这两组状态序列,得到对应于同一矢量ot的两个状态st和rt,若st≠rt,称rt为st的混淆状态,定义两者的混淆度(confusion)Cst|rt=P(ot|rt)P(ot|st)---(1)]]>因为状态st被误识成rt,所以当st≠rt,忽略语言模型和状态音转移概率,有P(ot|rt)>P(ot|st),即Cst|rt>1,]]>从定义(1)可以看出,Cst|rt越大,说明实际状态st被识别成rt的可能性越大。因此,如果把状态rt的混合高斯以加权的形式与状态st共享,改变状态st的结构,则概率P(ot|st)会增大,从而可以降低系统的误识率,提高模型对观察矢量ot的后验概率。设状态s∈Φ,对应于自适应样本的观察特征矢量Os;Rs为识别Os得到的状态集(RsΩ),称Rs为s的相近状态集。利用状态r(r∈Rs),对s结构进行调整,调整后的高斯混合函数为b(·|s)=Σr∈Rsws|rP(·|r)+w0P(·|s)---(2)]]>式(2)中,取w0=1-D,D为常数;权值ws|r和概率函数P(·|r)的计算公式分别为 ws|r=D·Cs|rΣr∈RsCs|r---(3)]]>P(·|r)=Σl=1Lmr,lN(·|μr,l,Σr,l)---(4)]]>(4)式中L为状态调整前的高斯混合数,μr,l、∑r,l和mr,l分别为多元高斯函数N(·|μr,l,∑r,l)的均值矢量、对角协方差矩阵和权值。因此,结构调整后的状态存在两层权值状态内权值mr,l和状态间权值Ws|r,满足·状态内权值Σk=1Kmr,k=1,0≤mr,k≤1.]]>·状态间权值Σr∈Rs′ws|r=1,0≤ws|r≤1,]]>其中Rs′=Rs∪s. 2、所述的利用训练语音对模型状态结构调整,具体步骤是设调整前的状态为s,对数似然值为L(Os)&a本文档来自技高网
...

【技术保护点】
一种语音识别中状态结构调整方法,其特征在于,根据状态间混淆度,采用混淆状态间高斯加权共享对状态结构进行调整,具体步骤如下:(1)建立大词汇量连续语音识别系统:语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39,过程同一般语音识别,提取训练语音每句话的特征,根据句子内容利用HTK工具首先选择声母和带调韵母作为基本的建模单元,建立带调单音子模型;然后将模型由单音子扩展到上下文相关的三音子模型,三音子模型同时考虑了音节间左右声韵母的情况,语境与三音子模型相对应;最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类,聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布;(2)状态结构调整:包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整,自适应语音和测试语音来自同一个测试者,基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现,因此,假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而利用训练语料对剩余状态的结构进行调整;(3)说话人自适应:采用最大似然线性回归算法,利用自适应语料对调整后的模型做自适应。...

【技术特征摘要】
1.一种语音识别中状态结构调整方法,其特征在于,根据状态间混淆度,采用混淆状态间高斯加权共享对状态结构进行调整,具体步骤如下(1)建立大词汇量连续语音识别系统语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39,过程同一般语音识别,提取训练语音每句话的特征,根据句子内容利用HTK工具首先选择声母和带调韵母作为基本的建模单元,建立带调单音子模型;然后将模型由单音子扩展到上下文相关的三音子模型,三音子模型同时考虑了音节间左右声韵母的情况,语境与三音子模型相对应;最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类,聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布;(2)状态结构调整包括利用自适应语音对模型状态结构调整和利用训练...

【专利技术属性】
技术研发人员:朱杰徐向华
申请(专利权)人:上海交通大学
类型:发明
国别省市:31[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1