一种发音稳定段辅助的语音识别优化解码方法及装置制造方法及图纸

技术编号：8534239 阅读：142 留言：0更新日期：2013-04-04 18:12

本发明专利技术公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题，本发明专利技术提出利用语音的稳定性信息改善解码过程中路径扩展的方式，达到降低解码复杂度的目的。本发明专利技术的方案包括下列步骤：对语音信号计算语谱图；计算语音信号的分频带能量及其变化率；定位语音信号中能量发生跳变的时间点；获取语音的发音稳定段；根据解码过程中路径扩展发生的位置，将扩展划分为隐马尔科夫模型之间的扩展，以及隐马尔科夫模型内部各状态间的扩展两类；跟踪语音识别解码过程，定位隐马尔科夫模型之间的扩展；在发音稳定段，删除原解码框架下的隐马尔科夫模型之间的扩展，只允许路径在隐马尔科夫模型内部各状态间进行扩展。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音信号处理中分频带能量计算、语音识别中的帧同步的Viterbi束搜索领域，尤其涉及一种发音稳定段辅助的语音识别优化解码方法。
技术介绍
解码算法是语首识别系统的核心模块之一。解码算法，或称搜索算法，是利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等)，按照一定的优化准则，在指定的空间中(从高层至底层依次为词、声学模型、HMM状态空间)，寻找最优词序列的过程。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。整个解码过程被分解成扩展、打分、路径合并、剪枝、最优路径回溯五个阶段(参考文献I =Xavier L Aubert,“An Overview of Decoding Techniques for Large Vocabulary ContinuousSpeech Recognition，，，Computer Speech and Language, vol. 16, no.1, pp. 89-114, Jan. 2002.)。从整体上讲，解码器在解码过程中执行了两个最主要的操作1)扩展阶段产生所有可能的候选词序列，同时将相似的候选词序列以一定的结构合并，最终构建一个由N元文法及声学模型状态支撑而形成的一个庞大的有限状态网络，作为语音识别的搜索空间。2)搜索阶段在这一阶段，完成活动路径的概率计算、路径查找、路径得分比较、路径合并、插入、删除、替换等操作。由于隐马尔科夫模型(Hidden Markov Model, HMM)能够很好地描述语音的时变性和平稳性，传统的语音识别系统多采用HMM为基本声学单元进行建模，并且...

【技术保护点】
一种基于发音稳定段的语音识别解码方法，包括下列步骤：步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布，计算获得语音信号的分频带能量曲线，以及分频带能量随时间的变化率曲线；步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线，确定语音信号能量发生跳变的跳变点；步骤三、对任一跳变点p，设定一时长r，定义跳变点p附近的[p?r，p+r]区域为语音信号的非平稳段区域，未被划定为非平稳段区域的部分为发音稳定段区域；步骤四、在语音识别解码过程中，若当前帧在所述发音稳定段区域，且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展，则不执行该路径的扩展，否则执行该路径的扩展；其中根据路径的扩展在隐马尔科夫模型中发生的位置，所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展，以及隐马尔科夫模型的内部扩展两类。

【技术特征摘要】
1.一种基于发音稳定段的语音识别解码方法，包括下列步骤步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布，计算获得语音信号的分频带能量曲线，以及分频带能量随时间的变化率曲线；步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线，确定语音信号能量发生跳变的跳变点；步骤三、对任一跳变点P，设定一时长r，定义跳变点p附近的[p-r，p+r]区域为语音信号的非平稳段区域，未被划定为非平稳段区域的部分为发音稳定段区域；步骤四、在语音识别解码过程中，若当前帧在所述发音稳定段区域，且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展，则不执行该路径的扩展，否则执行该路径的扩展；其中根据路径的扩展在隐马尔科夫模型中发生的位置，所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展，以及隐马尔科夫模型的内部扩展两类。2.如权利要求1所述的方法，其特征在于，步骤一中，所述获取语音信号在时频域上的能量分布，具体为对所述语音信号加汉宁窗，并对加窗后的语音信号经过快速傅里叶变换(FFT)，得到语音信号在时频域上的能量分布。3.如权利要求2所述的方法,其特征在于,所述汉宁窗的窗长为6ms,巾贞移为1ms。4.如权利要求1所述的方法，其特征在于，步骤二中，所述根据语音信号在时频域上的能量分布，计算获得语音信号的分频带能量曲线，具体步骤包括计算O 2kHZ范围内三个频带上的频谱能量0 0. 8kHZ、0. 8 1. 5kHZ、l. 2 2.OkHZ;采用当前帧前后特定时间范围内的信号对当前帧能量进行平滑，得到平滑后的分频带能量曲线E (t)5.如权利要求4所述的方法，其特征在于，步骤二中，所述计算分频带能量随时间的变化率曲线，具体通过下面公式得到6.如权利要求1所述的方法，其特征在于，步骤二中，所述根据分频带能量曲线及分频带能量变化曲线，确定语音信号能量发生跳变的时间点，包括以下步骤根据所述能量曲线E(t)及分频带能量随时间的变化率曲线AE(t)，选择能量变化率超过一定阈值的语音帧作为跳变点；其中，对于在一预定时间范围内存在多个跳变点时，选择能量变化率最大的一个作为跳变点。7.如权利要求1所述的方法，其特征在于，步骤四中，所述根据路径的扩展在隐马尔科夫模型中发生的位置，将所述前一帧到当前帧的路径扩展划分为隐马尔科夫模型之间的扩展，以及隐马尔科夫模型的内部扩展两类，具体包括以下步骤根据隐马尔科夫模型的拓扑结构，计算当前帧Ot所处的状态st，以及前一帧(V1的状态 Sg，若St与Sg位于同一个隐马尔科夫模型，则称在t时刻从前一帧到当前帧的路径扩展为隐马尔科夫模型的内部扩展；否则，若St与st_i分别属于不同的隐马尔科夫模型，则称在 t时刻从前一帧到当前帧的路径扩展为隐马尔科夫模型之间的扩展。8.如权利要求5所述的方法，其特征在于，所述在语音识别...

【专利技术属性】
技术研发人员：刘文举，杨占磊，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人