一种语音识别系统中的快速解码方法技术方案

技术编号:3046941 阅读:186 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种语音识别系统中的快速解码方法。该方法包括下述步骤:(1)对语音识别系统中的解码运算单元进行初始化;(2)从输入解码运算单元中的长度为T的语音特征码字序列中依次取出下一个语音帧的特征码字矢量,置其为当前语音帧O#-[t],1≤t≤T;(3)对当前语音帧O#-[t]进行过滤;(4)基于当前有效语音帧O#-[t],对t时刻词典树令牌资源L#-[t]的每一层I的令牌资源L#-[t][I]中的每一个活动节点进行判断;(5)处理处于词典树节点的令牌;(6)根据t时刻的局部路径最大概率以及前一有效语音帧对应的时刻t的局部路径最大概率,对与剪枝相关的阈值做自适应调整;(7)重复上述(2)-(6)步,输出此刻已生成的与声学模型和语言模型有最佳匹配的文本串,产生语音识别结果。与传统方法相比,采用这种策略可加快解码运算的速度。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及。附图说明图1所示是一种公知语音识别系统的结构框图,模拟语音经过模数变换单元11后变换为计算机可处理的数字信号,然后利用特征提取单元12对该数字信号进行分帧处理,通常帧长为20ms,帧移为10ms,提取每一帧语音的MFCC参数,得到MFCC矢量序列,解码运算单元14根据输入语音的特征矢量序列、声学模型13及语言模型15,采用一定的搜索策略,如深度优先搜索(Viterbi算法)或广度优先搜索,得到识别的结果,其中语言模型在进行大词表连续语音识别时,用于将语言层的知识应用到语音识别系统中,提高系统的识别精度。基于图1的语音识别器对计算机的中央处理器速度以及内存容量有非常高的要求,目前的一些商品化的听写机系统,例如,IBM的ViaVoice系统和Microsoft Office XP中的听写机模块均要求高速的中央处理器(Intel Pentium II 400MHz以上)和较大容量的内存资源(100MByte以上)。一般而言,解码运算占据了整个语音识别器中90%以上的中央处理器计算资源和几乎全部的内存资源;模数转换模块以及特征提取单元占据10%以下的中央处理器计算资源以及很少的内存资源。当前的商用嵌入式语音识别系统主要是采用基于简单模板匹配的小词量特定人语音识别,例如,手机中的语音拨号以及简单命令识别等,由于该技术需要用户注册语音数据,其易用性、适用性不强;一些非特定人嵌入式语音识别系统主要面向小词汇量的命令词识别,且计算量以及内存需求依然较大,例如,IBM的个人语音助理语音识别系统对于500个词的任务域,需要50DMIPS的计算能力的计算设备。公知的解码运算的基本原理及概念如下1、词典树词典树是用来组织识别系统中所有词发音的一种树状结构。音素是构成词发音的基本单位,TRIPHONE音素是当前语音识别系统常用的音素单元,例如词“中国”的TRIPHONE音素表示序列为“sil-zh+ongzh-ong+g ong-g+uo g-uo+sil”(其中“sil”是一个特殊音素,用来描述用户语音中的停顿),TRIPHONE音素是一种上下文有关的音素,与通常的拼音表示相比,它可以描述音素在不同上下文中产生的发音变异,从而可以更加精确地描述词发音的声学特征。识别系统的词之间可能有相同的前缀字或子词,例如词“中间”和“中国”,它们有相同的前缀“中”,可用树结构来描述,假设识别系统的词表包含下面的5个词“abe”、“ab”,“acg”、“acgi”、以及“ac”,则该词表的词典树如图4所示词典树中的每个节点对应的TRIPHONE音素关联一个对应于该TRIPHONE的隐马尔科夫模型(HMM),图5给出了一种表示TRIPHONE音素的HMM拓扑结构,一个HMM由若干HMM状态组成。2、令牌定义及令牌扩展策略令牌是指从用户语音起始帧到当前语音帧的一条活动搜索路径,它包含路径标识信息以及路径与声学模型以及语言模型匹配的分值,其中路径标识信息包含在该路径中的所有词以及词的边界信息,每个令牌对应于一条活动的搜索路径,不同令牌间的差别在于它们有不同的声学上下文和不同的语言上下文。词典树中每个节点关联的HMM中的每个状态均可驻留可移动的令牌,该节点的每个状态均有一个令牌链表,用来存放任意时刻在该状态活动的所有令牌。假设在时刻t,词典树中一节点的状态i的令牌链表中的一个可扩展令牌的分值为si(t-1),那么在搜索过程中,若该令牌的分值sj(t-1)加上从状态i到状态j的转移概率、再加上状态i对于当前语音帧t的观察概率超过当前的剪枝阈值,则产生一个新的令牌,其分值为sj(t),并关联在状态j上。在完成对t-1时刻驻留在词典树上的所有令牌的处理后,将产生t时刻驻留在词典树上的待扩展令牌资源,并将删除全部t-1时刻驻留在词典树上的所有令牌。在令牌传播过程中,可能的词以及词边界信息记录在一个标识路径的链表结构中。因此在语音输入结束时刻T,可通过回朔具有最佳分值令牌中的路径标识信息链表,提取出具有最佳匹配的词序列以及对应的词边界位置。3、词典树节点的令牌资源定义假设词典树节点包含M个HMM状态s1…sM,则一个词典树节点的令牌资源定义包含下列令牌资源信息节点令牌资源HS1HS2…HSM]]>其中, 为关于节点中的HMM状态Si的令牌链表的表头。传统的解码运算方法对硬件计算能力存储器要求过高,且性价比低。在中国专利申请02131086.6中公开了一种用于语音识别系统的特征矢量集的压缩方法,在对语音特征矢量集聚类得到码本的过程中,增加了根据子集合中矢量数及矢量的总距离度量来动态合并和分裂子集合的步骤,减小了聚类后集合中矢量与其对应的码字的距离度量总和,提高了聚类算法的精度,将该专利技术方法压缩后的码本应用于语音识别系统中,可在保证语音系统识别性能的同时,大大降低了系统的存储量。该专利技术还公开一种语音识别系统,其结构框图如图2所示,该系统用特征码本和概率表代替声学模型,在解码的过程中不需要计算高斯概率,只须从预先存储的概率表中查找出所需的概率值,大大减少了解码运算中计算高斯概率的开销,因而可在相当程度上提高系统的识别速度。本专利技术的目的可通过如下措施来实现,包括下述步骤 (1)对语音识别系统中的解码运算单元进行初始化;(2)从输入解码运算单元中的长度为T的语音特征码字序列中依次取出下一个语音帧的特征码字矢量,置其为当前语音帧Ot,1≤t≤T;(3)对当前语音帧Ot进行过滤,若语音帧Ot被过滤掉,则转到步骤(2)执行,否则置语音帧Ot为当前有效语音帧;(4)基于当前有效语音帧Ot,对t时刻词典树令牌资源Lt的每一层I的令牌资源Lt[I]中的每一个活动节点进行判断,并对判断属于可扩展的令牌则扩展该节点令牌资源表中的令牌,并将新产生的令牌链入目标节点的令牌资源表中;其中I为索引变量,1≤I≤H;H为词典树的高度;否则执行步骤(7);(5)处理处于词典树节点的令牌;(6)根据t时刻的局部路径最大概率以及前一有效语音帧对应的时刻 的局部路径最大概率,对与剪枝相关的阈值做自适应调整;(7)重复上述(2)-(6)步得到输入语音结束时刻T的具有最佳分值令牌的全局路径,结束令牌扩展,输出此刻已生成的与声学模型和语言模型有最佳匹配的文本串,产生语音识别结果。本专利技术不涉及关于词节点令牌的扩展及相关的处理算法,用户可根据任务域(例如命令词识别,汉语单音节识别,大词量连续语音识别等)定制相关的处理算法。所述t时刻词典树令牌资源Lt为该时刻词典树中所有活动节点的令牌资源的总和。词典树中t时刻活动节点的索引方式为依t时刻活动节点在词典树中所处的层次索引,即在相同层的所有活动节点串接在一起形成一张链表,词典树的每一层均有这样的一张链表,整体上是一个二维链表。所述t时刻词典树令牌资源的第1层令牌资源Lt[I]为按上述方式索引的t时刻词典树活动节点令牌资源Lt的第1层链表。所述t时刻的局部路径最大概率为t时刻所有新产生令牌对应的局部路径集合中,所有局部路径分值的最大值。所述的前一有效语音帧对应的 时刻的局部路径最大概率为前一有效语音帧对应的时刻 所有新产生令牌对应的局部路径集合中,所有局部路径分值的最大值。所述的初始化步骤(1)还包括下本文档来自技高网...

【技术保护点】
一种语音识别系统中的快速解码方法,包括下述步骤: (1)对语音识别系统中的解码运算单元进行初始化; (2)从输入解码运算单元中的长度为T的语音特征码字序列中依次取出下一个语音帧的特征码字矢量,置其为当前语音帧O↓[t],1≤t≤T; (3)对当前语音帧O↓[t]进行过滤,若语音帧O↓[t]被过滤掉,则执行步骤(2),否则置语音帧O↓[t]为当前有效语音帧; (4)基于当前有效语音帧O↓[t],对t时刻词典树令牌资源L↓[t]的每一层I的令牌资源L↓[t][I]中的每一个活动节点进行判断,并对判断属于可扩展的令牌则扩展该节点令牌资源表中的令牌,并将新产生的令牌链入目标节点的令牌资源表中;其中I为索引变量,1≤I≤H;H为词典树的高度;否则执行步骤(7); (5)处理处于词典树节点的令牌; (6)根据t时刻的局部路径最大概率以及前一有效语音帧对应的时刻*的局部路径最大概率,对与剪枝相关的阈值做自适应调整; (7)重复上述(2)-(6)步得到输入语音结束时刻T的具有最佳分值令牌的全局路径,结束令牌扩展,输出此刻已生成的与声学模型和语言模型有最佳匹配的文本串,产生语音识别结果。...

【技术特征摘要】
【国外来华专利技术】1.一种语音识别系统中的快速解码方法,包括下述步骤(1)对语音识别系统中的解码运算单元进行初始化;(2)从输入解码运算单元中的长度为T的语音特征码字序列中依次取出下一个语音帧的特征码字矢量,置其为当前语音帧Ot,1≤t≤T;(3)对当前语音帧Ot进行过滤,若语音帧Ot被过滤掉,则执行步骤(2),否则置语音帧Ot为当前有效语音帧;(4)基于当前有效语音帧Ot,对t时刻词典树令牌资源Lt的每一层I的令牌资源Lt[I]中的每一个活动节点进行判断,并对判断属于可扩展的令牌则扩展该节点令牌资源表中的令牌,并将新产生的令牌链入目标节点的令牌资源表中;其中I为索引变量,1≤I≤H;H为词典树的高度;否则执行步骤(7);(5)处理处于词典树节点的令牌;(6)根据t时刻的局部路径最大概率以及前一有效语音帧对应的时刻 的局部路径最大概率,对与剪枝相关的阈值做自适应调整;(7)重复上述(2)-(6)步得到输入语晋结束时刻T的具有最佳分值令牌的全局路径,结束令牌扩展,输出此刻已生成的与声学模型和语言模型有最佳匹配的文本串,产生语音识别结果。2.如权利要求1所述的语音识别系统中的快速解码方法,其特征在于所述的所述t时刻词典树令牌资源Lt为该时刻词典树中所有活动节点的令牌资源的总和。3.如权利要求1所述的语音识别系统中的快速解码方法,其特征在于所述t时刻的局部路径最大概率为t时刻所有新产生令牌对应的局部路径集合中,所有局部路径分值的最大值。4.如权利要求1所述的语音识别系统中的快速解码方法,其特征在于所述的前一有效语音帧对应的 时刻的局部路径最大概率为前一有效语音帧对应的时刻 所有新产生令牌对应的局部路径集合中,所有局部路径分值的最大值。5.如权利要求1所述的语音识别系统中的快速解码方法,其特征在于所述的初始化步骤(1)还包括下述步骤a、产生一个分值为零的令牌,并将该令牌链入词典树中的root节点的令牌资源表头,当前词典树的活动节点仅包含根节点root,它处在词典树的第一层;b、初始化全局剪枝阈值Lg为对数最小值;c、初始化局部剪枝基线阈值Lb为对数最小值;d、初始化剪枝宽度阈值Lw为一个正常数Lwc,Lwc由用户预先设定。6.如权利要求1所述的语音识别系统中的快速解码方法,其特征在于所述的过滤步骤(3)还包括下述步骤a、若当前t时刻语音帧Ot为用户语音输入的起始语音帧,则置其为有效语音帧,过滤操作完成;否则执行步骤b;b、比较当前t时刻语音帧Ot的Y个特征码字矢量f1tf2t…fYt与t-1时刻语音帧Ot-1的Y个特征码字矢量f1t-1f2t-1…fYt-1的相似程度,得到一个相似度量值V;c、将相似度量值V与判决阈值θ比较,若V≤θ则判定语音帧Ot为对解码运算无效的语音帧;否则判定语音帧Ot为对解码运算有效的语音帧。7.如权利要求1所述的语音识别系统中的快速解码方法,其特征在于所述的判决阈值θ为一个由用户设定的正常数。8.如权利要求1所述的语音识别系统中的快速解码方法,其特征在于所述的节点令牌资源扩展步骤(4),还包括下述步骤a、基于当前有效语音帧Ot,对当前节点关联的HMM的最后一个状态对应的令牌资源链表中的每个令牌做外部扩展,即对当前节点关联的HMM的最后一个状态对应的令牌资源链表中的每个令牌进行扩展至该节点在词典树中的所有子节点的令牌资源表中;b、取当前节点关联的具有M个状态的HMM的一个HMM状态为当前待处理的HMM状态Sn,其中1≤n≤M;c、取状态sn对应的令牌资源表中的一个令牌为当前待处理令牌;d、若状态Sn的当前待处理令牌的分值大于前一个有效语音帧对应的时刻 的全局剪枝阈值Lg,则根据当前节点关联的HMM模型的拓扑结构,取一个由状态sn可达的状态,置为当前待处理状态sm,否则转到步骤k开始执行;e、计算令牌从Sn到达状态sm的分值sm(t);分值sm(t...

【专利技术属性】
技术研发人员:韩疆颜永红潘接林张建平
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1