一种语音识别系统中的快速解码方法技术方案

技术编号：3046941 阅读：186 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种语音识别系统中的快速解码方法。该方法包括下述步骤：（１）对语音识别系统中的解码运算单元进行初始化；（２）从输入解码运算单元中的长度为Ｔ的语音特征码字序列中依次取出下一个语音帧的特征码字矢量，置其为当前语音帧Ｏ＃－［ｔ］，１≤ｔ≤Ｔ；（３）对当前语音帧Ｏ＃－［ｔ］进行过滤；（４）基于当前有效语音帧Ｏ＃－［ｔ］，对ｔ时刻词典树令牌资源Ｌ＃－［ｔ］的每一层Ｉ的令牌资源Ｌ＃－［ｔ］［Ｉ］中的每一个活动节点进行判断；（５）处理处于词典树节点的令牌；（６）根据ｔ时刻的局部路径最大概率以及前一有效语音帧对应的时刻ｔ的局部路径最大概率，对与剪枝相关的阈值做自适应调整；（７）重复上述（２）－（６）步，输出此刻已生成的与声学模型和语言模型有最佳匹配的文本串，产生语音识别结果。与传统方法相比，采用这种策略可加快解码运算的速度。（*该技术在2022年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及。附图说明图1所示是一种公知语音识别系统的结构框图，模拟语音经过模数变换单元11后变换为计算机可处理的数字信号，然后利用特征提取单元12对该数字信号进行分帧处理，通常帧长为20ms，帧移为10ms，提取每一帧语音的MFCC参数，得到MFCC矢量序列，解码运算单元14根据输入语音的特征矢量序列、声学模型13及语言模型15，采用一定的搜索策略，如深度优先搜索(Viterbi算法)或广度优先搜索，得到识别的结果，其中语言模型在进行大词表连续语音识别时，用于将语言层的知识应用到语音识别系统中，提高系统的识别精度。基于图1的语音识别器对计算机的中央处理器速度以及内存容量有非常高的要求，目前的一些商品化的听写机系统，例如，IBM的ViaVoice系统和Microsoft Office XP中的听写机模块均要求高速的中央处理器(Intel Pentium II 400MHz以上)和较大容量的内存资源(100MByte以上)。一般而言，解码运算占据了整个语音识别器中90％以上的中央处理器计算资源和几乎全部的内存资源；模数转换模块以及特征提取单元占据10％以下的中央处理器计算资源以及很少的内存资源。当前的商用嵌入式语音识别系统主要是采用基于简单模板匹配的小词量特定人语音识别，例如，手机中的语音拨号以及简单命令识别等，由于该技术需要用户注册语音数据，其易用性、适用性不强；一些非特定人嵌入式语音识别系统主要面向小词汇量的命令词识别，且计算量以及内存需求依然较大，例如，IBM的个人语音助理语音识别系统对于500个词的任务域，需要50DMIPS的计算能力的计算设...

【技术保护点】
一种语音识别系统中的快速解码方法，包括下述步骤：（１）对语音识别系统中的解码运算单元进行初始化；（２）从输入解码运算单元中的长度为Ｔ的语音特征码字序列中依次取出下一个语音帧的特征码字矢量，置其为当前语音帧Ｏ↓［ｔ］，１≤ｔ≤Ｔ；（３）对当前语音帧Ｏ↓［ｔ］进行过滤，若语音帧Ｏ↓［ｔ］被过滤掉，则执行步骤（２），否则置语音帧Ｏ↓［ｔ］为当前有效语音帧；（４）基于当前有效语音帧Ｏ↓［ｔ］，对ｔ时刻词典树令牌资源Ｌ↓［ｔ］的每一层Ｉ的令牌资源Ｌ↓［ｔ］［Ｉ］中的每一个活动节点进行判断，并对判断属于可扩展的令牌则扩展该节点令牌资源表中的令牌，并将新产生的令牌链入目标节点的令牌资源表中；其中Ｉ为索引变量，１≤Ｉ≤Ｈ；Ｈ为词典树的高度；否则执行步骤（７）；（５）处理处于词典树节点的令牌；（６）根据ｔ时刻的局部路径最大概率以及前一有效语音帧对应的时刻＊的局部路径最大概率，对与剪枝相关的阈值做自适应调整；（７）重复上述（２）－（６）步得到输入语音结束时刻Ｔ的具有最佳分值令牌的全局路径，结束令牌扩展，输出此刻已生成的与声学模型和语言模型有最佳匹配的文本串，产生语音识别结果。...

【技术特征摘要】
【国外来华专利技术】1.一种语音识别系统中的快速解码方法，包括下述步骤(1)对语音识别系统中的解码运算单元进行初始化；(2)从输入解码运算单元中的长度为T的语音特征码字序列中依次取出下一个语音帧的特征码字矢量，置其为当前语音帧Ot，1≤t≤T；(3)对当前语音帧Ot进行过滤，若语音帧Ot被过滤掉，则执行步骤(2)，否则置语音帧Ot为当前有效语音帧；(4)基于当前有效语音帧Ot，对t时刻词典树令牌资源Lt的每一层I的令牌资源Lt[I]中的每一个活动节点进行判断，并对判断属于可扩展的令牌则扩展该节点令牌资源表中的令牌，并将新产生的令牌链入目标节点的令牌资源表中；其中I为索引变量，1≤I≤H；H为词典树的高度；否则执行步骤(7)；(5)处理处于词典树节点的令牌；(6)根据t时刻的局部路径最大概率以及前一有效语音帧对应的时刻的局部路径最大概率，对与剪枝相关的阈值做自适应调整；(7)重复上述(2)-(6)步得到输入语晋结束时刻T的具有最佳分值令牌的全局路径，结束令牌扩展，输出此刻已生成的与声学模型和语言模型有最佳匹配的文本串，产生语音识别结果。2.如权利要求1所述的语音识别系统中的快速解码方法，其特征在于所述的所述t时刻词典树令牌资源Lt为该时刻词典树中所有活动节点的令牌资源的总和。3.如权利要求1所述的语音识别系统中的快速解码方法，其特征在于所述t时刻的局部路径最大概率为t时刻所有新产生令牌对应的局部路径集合中，所有局部路径分值的最大值。4.如权利要求1所述的语音识别系统中的快速解码方法，其特征在于所述的前一有效语音帧对应的时刻的局部路径最大概率为前一有效语音帧对应的时刻所有新产生令牌对应的局部路径集合中，所有局部路径分值的最大值。5.如权利要求1所述的语音识别系统中的快速解码方法，其特征在于所述的初始化步骤(1)还包括下述步骤a、产生一个分值为零的令牌，并将该令牌链入词典树中的root节点的令牌资源表头，当前词典树的活动节点仅包含根节点root，它处在词典树的第一层；b、初始化全局剪枝阈值Lg为对数最小值；c、初始化局部剪枝基线阈值Lb为对数最小值；d、初始化剪枝宽度阈值Lw为一个正常数Lwc，Lwc由用户预先设定。6.如权利要求1所述的语音识别系统中的快速解码方法，其特征在于所述的过滤步骤(3)还包括下述步骤a、若当前t时刻语音帧Ot为用户语音输入的起始语音帧，则置其为有效语音帧，过滤操作完成；否则执行步骤b；b、比较当前t时刻语音帧Ot的Y个特征码字矢量f1tf2t…fYt与t-1时刻语音帧Ot-1的Y个特征码字矢量f1t-1f2t-1…fYt-1的相似程度，得到一个相似度量值V；c、将相似度量值V与判决阈值θ比较，若V≤θ则判定语音帧Ot为对解码运算无效的语音帧；否则判定语音帧Ot为对解码运算有效的语音帧。7.如权利要求1所述的语音识别系统中的快速解码方法，其特征在于所述的判决阈值θ为一个由用户设定的正常数。8.如权利要求1所述的语音识别系统中的快速解码方法，其特征在于所述的节点令牌资源扩展步骤(4)，还包括下述步骤a、基于当前有效语音帧Ot，对当前节点关联的HMM的最后一个状态对应的令牌资源链表中的每个令牌做外部扩展，即对当前节点关联的HMM的最后一个状态对应的令牌资源链表中的每个令牌进行扩展至该节点在词典树中的所有子节点的令牌资源表中；b、取当前节点关联的具有M个状态的HMM的一个HMM状态为当前待处理的HMM状态Sn，其中1≤n≤M；c、取状态sn对应的令牌资源表中的一个令牌为当前待处理令牌；d、若状态Sn的当前待处理令牌的分值大于前一个有效语音帧对应的时刻的全局剪枝阈值Lg，则根据当前节点关联的HMM模型的拓扑结构，取一个由状态sn可达的状态，置为当前待处理状态sm，否则转到步骤k开始执行；e、计算令牌从Sn到达状态sm的分值sm(t)；分值sm(t...

【专利技术属性】
技术研发人员：韩疆，颜永红，潘接林，张建平，
申请(专利权)人：中国科学院声学研究所，北京中科信利技术有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人