一种发音稳定段辅助的语音识别优化解码方法及装置制造方法及图纸

技术编号:8534239 阅读:142 留言:0更新日期:2013-04-04 18:12
本发明专利技术公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明专利技术提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明专利技术的方案包括下列步骤:对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。

【技术实现步骤摘要】

本专利技术涉及语音信号处理中分频带能量计算、语音识别中的帧同步的Viterbi束搜索领域,尤其涉及一种发音稳定段辅助的语音识别优化解码方法。
技术介绍
解码算法是语首识别系统的核心模块之一。解码算法,或称搜索算法,是利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),按照一定的优化准则,在指定的空间中(从高层至底层依次为词、声学模型、HMM状态空间),寻找最优词序列的过程。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。整个解码过程被分解成扩展、打分、路径合并、剪枝、最优路径回溯五个阶段(参考文献I =Xavier L Aubert,“An Overview of Decoding Techniques for Large Vocabulary ContinuousSpeech Recognition,,,Computer Speech and Language, vol. 16, no.1, pp. 89-114, Jan. 2002.)。从整体上讲,解码器在解码过程中执行了两个最主要的操作1)扩展阶段产生所有可能的候选词序列,同时将相似的候选词序列以一定的结构合并,最终构建一个由N元文法及声学模型状态支撑而形成的一个庞大的有限状态网络,作为语音识别的搜索空间。2)搜索阶段在这一阶段,完成活动路径的概率计算、路径查找、路径得分比较、路径合并、插入、删除、替换等操作。由于隐马尔科夫模型(Hidden Markov Model, HMM)能够很好地描述语音的时变性和平稳性,传统的语音识别系统多采用HMM为基本声学单元进行建模,并且已成功应用于大词汇量连续语音识别(Large VocabularyContinous Speech Recognition, LVCSR)的声学建模(参考文献 2 :L. R. Rabiner, A tutorial on hidden Markov modelsand selected applications inspeech recognition , inProc.1EEE, vol.77, no. 2,PP. 257-285,1989.)。但是,利用HMM模型为语音信号建模是建立在语音信号短时平稳的假设上,因此HMM只能描述短时语音信号,这种声学建模方法缺乏利用语音的长时信息,而以长时的语音段为建模单元的声学建模方法虽然更能够反映语音信号非平稳的本质,但由于计算复杂度较高,限制了它在语音识别中的应用(参考文献3 :M.0StendOrf,V.DigalakiS,and 0. Kimball. From HMM ' s tosegment models A unified view of stochasticmodeling for speech recognition.1EEE Transactions on Speech Audio Processing,4(5) :360-378, Sept. 1996.)。此外,传统的语音识别系统的解码模块在为每一条路径计算得分时,会使用声学模型得分与语言模型得分,并将二者融合后的总概率作为扩展或剪枝的依据。在当前帧t下,路径的总概率为P(t) = P(t-l) + a ^+Q2Plm (I)其中P(t-l)是历史路径得分,Paffl为当前帧的声学概率,Plffl为语言模型概率。α !和α2分别为声学概率与语言模型概率的权重。上述这种解码方式仅利用了语音帧的声学及语言学的统计特性。事实上,每一帧语音都属于发音过程的发音起始、发音持续、发音结束等不同阶段,因此具有不同的发音稳定性。一般来讲,处于发音起始及发音结束阶段的语音帧属于不稳定帧,而处于发音持续阶段的语音帧属于稳定帧。但是,传统的语音识别系统中缺乏利用这种语音帧的发音稳定性信息。
技术实现思路
(一 )要解决的技术问题本专利技术的目的在于解决现有技术中基于隐马尔科夫模型HMM的建模缺乏利用长时的语音段层次信息,以及现有搜索算法中缺乏利用语音帧的发音稳定性信息等不足。(二)技术方案为了解决上述技术问题,本专利技术首先对语音信号进行分析,检测出语音中发音动作平稳的语音段,即发音稳定段,然后作为语音段层知识加入到解码过程中。在解码方面,根据待解码语音帧的稳定性信息,以及路径扩展到的位置,有选择地跳过部分路径,不再对其进行解码。从路径总概率计算的角度讲,相当于增加了新的限制,修改了路径总概率的计算方法,从而实现了基于发音稳定段的语音识别解码算法,提高了声学模型解码速度和精度。本专利技术的提出的基于发音稳定段的语音识别解码方法,包括下列步骤步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线;步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点;步骤三、对任一跳变点p,设定一时长r,定义跳变点P附近的[p-r,p+r]区域为语音信号的非平稳段区域,未被划定为非平稳段区域的部分为发音稳定段区域;步骤四、在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。本专利技术还提出了一种基于发音稳定段的语音识别解码装置,其包括获取装置,用于获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线.确定装置,用于由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点;划分装置,用于对任一跳变点p,设定一时长r,定义跳变点P附近的[p-r,p+r]区域为语音信号的非平稳段区域,其中未被划定为非平稳段区域的部分为发音稳定段区域;语音识别装置,用于在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。(三)有益效果本专利技术所提出的一种将长时的语音稳定性信息融入语音识别解码过程中的方法,融合了长时语音信息的新方法能够弥补基于隐马尔科夫模型HMM建模方法中语音信号短时平稳的假设,更能反映语音信号非平稳的本质。另一方面,通过融合语音帧的稳定性信息,修改解码过程中路径扩展的方式,可以减少部分不必要的隐马尔科夫模型HMM之间的扩展,从而降低语音识别解码方法的复杂度,有利于减少语音识别的时间。同时,在相同的运算复杂度下,识别系统能够在更宽泛的范围内,对更多潜在的最优路径进行计算,有利于找到最优的识别结果,最终提高语音识别系统的准确率。附图说明图1是根据本专利技术的一种基于发音稳定段的语音识别解码方法的流程图;图2是根据本专利技术的一个计算语音信号语谱图的流程图;图3是根据本专利技术的一个计算本文档来自技高网
...

【技术保护点】
一种基于发音稳定段的语音识别解码方法,包括下列步骤:步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线;步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点;步骤三、对任一跳变点p,设定一时长r,定义跳变点p附近的[p?r,p+r]区域为语音信号的非平稳段区域,未被划定为非平稳段区域的部分为发音稳定段区域;步骤四、在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。

【技术特征摘要】
1.一种基于发音稳定段的语音识别解码方法,包括下列步骤 步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线; 步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点; 步骤三、对任一跳变点P,设定一时长r,定义跳变点p附近的[p-r,p+r]区域为语音信号的非平稳段区域,未被划定为非平稳段区域的部分为发音稳定段区域; 步骤四、在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。2.如权利要求1所述的方法,其特征在于,步骤一中,所述获取语音信号在时频域上的能量分布,具体为 对所述语音信号加汉宁窗,并对加窗后的语音信号经过快速傅里叶变换(FFT),得到语音信号在时频域上的能量分布。3.如权利要求2所述的方法,其特征在于,所述汉宁窗的窗长为6ms,巾贞移为1ms。4.如权利要求1所述的方法,其特征在于,步骤二中,所述根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,具体步骤包括 计算O 2kHZ范围内三个频带上的频谱能量0 0. 8kHZ、0. 8 1. 5kHZ、l. 2 2.OkHZ;采用当前帧前后特定时间范围内的信号对当前帧能量进行平滑,得到平滑后的分频带能量曲线E (t)5.如权利要求4所述的方法,其特征在于,步骤二中,所述计算分频带能量随时间的变化率曲线,具体通过下面公式得到6.如权利要求1所述的方法,其特征在于,步骤二中,所述根据分频带能量曲线及分频带能量变化曲线,确定语音信号能量发生跳变的时间点,包括以下步骤 根据所述能量曲线E(t)及分频带能量随时间的变化率曲线AE(t),选择能量变化率超过一定阈值的语音帧作为跳变点; 其中,对于在一预定时间范围内存在多个跳变点时,选择能量变化率最大的一个作为跳变点。7.如权利要求1所述的方法,其特征在于,步骤四中,所述根据路径的扩展在隐马尔科夫模型中发生的位置,将所述前一帧到当前帧的路径扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类,具体包括以下步骤根据隐马尔科夫模型的拓扑结构,计算当前帧Ot所处的状态st,以及前一帧(V1的状态 Sg,若St与Sg位于同一个隐马尔科夫模型,则称在t时刻从前一帧到当前帧的路径扩展为隐马尔科夫模型的内部扩展;否则,若St与st_i分别属于不同的隐马尔科夫模型,则称在 t时刻从前一帧到当前帧的路径扩展为隐马尔科夫模型之间的扩展。8.如权利要求5所述的方法,其特征在于,所述在语音识别...

【专利技术属性】
技术研发人员:刘文举杨占磊
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1