一种语音识别中的状态结构调整方法技术

技术编号：3046480 阅读：168 留言：0更新日期：2012-04-11 18:40

一种语音识别领域的语音识别中状态结构调整方法，具体步骤如下：建立大词汇量连续语音识别系统：语音特征采用１２阶Ｍｅｌ倒谱特征及短时能量共１３维作为基本特征，加上其一阶差分和二阶差分，最后特征维数为３９；状态结构调整：包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整，假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现，从而利用训练语料对剩余状态的结构进行调整；说话人自适应：采用最大似然线性回归算法，利用自适应语料对调整后的模型做自适应。本发明专利技术提高了模型对样本的后验概率，增强对自适应语料的利用率，从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种语音识别领域的状态结构调整算法，具体是一种。
技术介绍
九十年代以来，基于连续概率HMM的非特定人(SI)、大词汇量连续语音识别(LVCSR)获得了很大的进展，为建立更精确的模型，LVCSR系统一般都采用上下文相关的三音子模型，利用基于声学决策树的状态共享策略进一步改善模型的性能。同时，在SI系统中，不同说话人的特性差异会带来系统性能的降低，这使得说话人自适应技术成为SI系统走向实用化的关键。常用的自适应方法包括贝叶斯(MAP)方法和最大似然线性回归(MLLR)方法，都是基于自适应语料对模型的参数做变换，没有考虑对决策树的结构做自适应。决策树中状态之间的合并或分裂是基于训练语料中似然值的变化和采样数据量进行的，得到的决策树的结构并不能有效地反映测试语料的特征，尤其是当训练语料与自适应语料的特征差别比较大时，这种结构的偏差直接会导致系统性能的降低。为了解决训练语料决策树与测试语料决策树结构不匹配造成的识别率的降低，必须对训练语料决策树的结构做调整，由于直接调整训练语料决策树结构后，又会使得决策树结构与训练语料的不一致，造成模型精度下降。经文献检索发现，A.Nakamura在国际声学、语音及信号处理会议(《ICASSP》，vol.1，pp.649-652，1998)中发表的“一种在非特定人声学建模中调整高斯混合函数结构的方法”(Restructuring Gaussian mixture density functions in speakerindependent acoustic models)中提出调整高斯混合分布函数方法，在该方案...

【技术保护点】
一种语音识别中状态结构调整方法，其特征在于，根据状态间混淆度，采用混淆状态间高斯加权共享对状态结构进行调整，具体步骤如下：（１）建立大词汇量连续语音识别系统：语音特征采用１２阶Ｍｅｌ倒谱特征及短时能量共１３维作为基本特征，加上其一阶差分和二阶差分，最后特征维数为３９，过程同一般语音识别，提取训练语音每句话的特征，根据句子内容利用ＨＴＫ工具首先选择声母和带调韵母作为基本的建模单元，建立带调单音子模型；然后将模型由单音子扩展到上下文相关的三音子模型，三音子模型同时考虑了音节间左右声韵母的情况，语境与三音子模型相对应；最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类，聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布；（２）状态结构调整：包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整，自适应语音和测试语音来自同一个测试者，基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现，因此，假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现，从而利用训练语料对剩余状态的结构进行调整；（３）说话人自适应：采用最大似然线性回归算法，利用自...

【技术特征摘要】
1.一种语音识别中状态结构调整方法，其特征在于，根据状态间混淆度，采用混淆状态间高斯加权共享对状态结构进行调整，具体步骤如下(1)建立大词汇量连续语音识别系统语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征，加上其一阶差分和二阶差分，最后特征维数为39，过程同一般语音识别，提取训练语音每句话的特征，根据句子内容利用HTK工具首先选择声母和带调韵母作为基本的建模单元，建立带调单音子模型；然后将模型由单音子扩展到上下文相关的三音子模型，三音子模型同时考虑了音节间左右声韵母的情况，语境与三音子模型相对应；最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类，聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布；(2)状态结构调整包括利用自适应语音对模型状态结构调整和利用训练...

【专利技术属性】
技术研发人员：朱杰，徐向华，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：31[]

全部详细技术资料下载我是这个专利的主人