当前位置: 首页 > 专利查询>谭政专利>正文

声控打字系统技术方案

技术编号:2936945 阅读:1830 留言:0更新日期:2012-04-11 18:40
该声控打字系统解决了全部汉语单音节的识别与合成问题。它采用分层识别技术,第一级识别为汉语单音节的声韵母识别,第二级识别为基于音节平稳段段长分布的隐含马尔可夫模型(HMM)识别方法。它能实时识别以单词或单字发音的全部汉语语音,此外声控打字系统还具有语言理解功能,它可以根据句法、词法知识区别汉语的同音字,通过识别和理解可将语音转变为文字存贮,转送或输出(打印或朗读)。该声控打字系统不仅可用于办工室自动化中的汉字信息处理,而且可广泛应用于各种控制领域。系统由普通微机或中英文打字机增加一块独立进行语音识别和合成的专用硬件构成。(*该技术在2010年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种集汉语全音节识别、合成、汉语声音文字转换及编辑、排版、打印的装置。其中汉语全音节识别既可是认人的系统,也可实现不认人的语音识别系统。由于汉语是一种象形文字,它不能象拼音文种那样由键盘按音素串行输入,因此必需通过各种编码方法把汉字转换成串行码,以便通过键盘向计算机输入汉字,由于众多的汉字编码方法对大部分人来说难学、难记、难操作,这样就形成了计算机输入的“瓶颈”问题,最有效、最方便地解决这一问题的方法就是通过声控的办法输入汉字,但由于受到技术上的限制,我国大多数语音识别系统还局限于几百词和近两千词的范围,且上千词的识别系统不仅识别率低而且成本高,难以实用化,况且汉语词汇有十几万之众。因此,在现有技术条件下难以实现声控打字系统。另一方面,在现代汉语中使用的有近四百个音节,如考虑四声的差别,则有近一千二百多个单音节,以单音节为来输入汉字可以满足任何文章的需要,这是解决汉字输入的一种很好的方法。但汉语单音节十分难以识别,目前许多识别单音节的系统识别率较低。而且大多为非实时模拟结果,没有实现声控打字系统。本专利技术的目的是要提供一种在微型计算机上或普通中文打字机上实现的低成本,高性能的声控打字系统。它能识别并合成全部汉语单音节,使得中文文字处理机(包括通用微机系统和电子打字机)增加声控输入汉字和朗读文字文稿的功能。本专利技术的目的是这样实现的1.方案概述在识别以前,要通过训练建立460个音节或1200个全音节的模板(例如可以建立基于DTW算法或HMM算法的模板)。这要求用户将这些音节逐个念一遍。在识别时,将输入的语音与预存的各个模板进行比较,按得分的高低选出优胜者作为识别结果。但是在大词汇表语音识别系统中,直接对所有模板进行比较是不切实际的,例如在我们的系统中需要对1200全音节模板进行比较,这不但使识别精度非常低,而且所需的计算量也是一般微型或小型机所不能容忍的。为了解决这个问题,我们的识别系统采用了两层识别的方案,如附图说明图1所示,其中第一层是音节粗识别,即对输入音节的四声、声母和韵母分别进行识别,并选出得分最高的6个声母和6个韵母构成36个候选音节(四声识别只选出一个结果)。第二层是音节细识别,则只在36个候选音节中进行选择。由于汉语单音节具有明显的辅音元音结构(CV结构),其中辅音和元音分别与声母及韵母相对应,并且声母只有22个、韵母只有38个,所以采用声、韵母及四声的分别识别来实现音节的粗识别是一种高效的合理的解决方案。然而,一旦粗识别产生错误,在下一层的识别中是无可挽回的,所以要求粗识别达到很高的精度。在本系统的声母识别算法中将辅音分为清音和浊音首部音素两大类并采用VQ算法进行识别,在韵母识别中采用了多节VQ的算法。这些算法的运算量很小,音节粗识别的正确率达到99.7%。第二级细识别采用基于音节的隐含马可夫模型进行识别。上述二级识别不仅可用于特定人识别系统,而且可用于非特定人识别。2.系统概貌普通话全音节识别系统的框图如图2所示,在特征提取部分,语音经过一个带宽为100HZ到4.2KHZ的模拟滤波器滤波后进行A/D变换(采样率为10KHZ,量化精度为12bit)。然后,对数字化的语音进行分帧,帧长为20ms(200个采样点),帧移为10ms(100个采样点)。语音的特征是按帧提取的,本系统所用的特征包括总能量(帧)e(i),过零率z(i)规一化一阶自关系数NR(i),加哈明窗后计算的12阶自相关系数R(k)和LPC系数a(k),其中,k=0,1,……12,规一化残差能量d(i)。i表示各语音帧的编号,i按下述方法确定系统设置一个能量门限T,然后逐帧检验总能量e(i),若e(i)>T,则认为有语音进入,这时向前推 帧,定该帧为i=0,即作为语音的起点帧,其目的是将一些低能量的音节起始部分全部包括进来。在检测到语音后,再设置一个门限T,若连续6帧满足e(i)<T,则表示语音已结束,定最后一帧为i=CE,即结束帧。下面分别叙述系统中其它部分的工作原理。3.无声(S)/清音(U)/浊音(V)三类判决按照上面设置的能量门限截取的一个普通话的单音节总可以分为四段,即S(无声)-U(清音)-V(浊音),如图3所示,其中包括了无声段落。为了真正确定一个音节的起终点MB和MS以及清浊音的分割点ME,必须进行i=0,…CE之间各语音帧的S/U/V分类。本系统所取的分类方案可参考文献。我们对每个语音帧(编号为i)建立一个5维的特征矢量X=,其中T表示转置。若标S为第一类,U为第二类,V为第三类,那末在这三类情况下X都是具有近似于正态分布的随机矢量,我们可以通过很多人的训练语音求出它们的均值向量M=E,和方差阵D=E,k=1,2,3。对于任何一帧输入语音X,可以计算与上述三个类别的似然距离d(k),d(k)=(X-M)τD-1(X-M),k=1,2,3 式(1)若d(l)<min|成立,则判定第i帧语音属于第l类。为了剔除某些偶尔发生的判决错误,本系统还采取了如下的平滑和校正手段(1).若在音节的尾部出现“U”,则改判为“S”。(2).若两段相邻“U”之间出现一段“S”(且其长度小于5帧),则将其改判为“U”。(3).若两段相邻“S”之间出现一段“U”,且其长度小于5帧,则将其改判为“S”。由于这个算法的模板参数是由多人训练语音求得的,所以它是一种非特定人的算法,实践证明这种算法可得到非常高的分类精度。4.声母识别和声韵母的分割在建立声母和韵母的码本和进行识别之前,必须将一个音节的声母和韵母分开,这是一个较难解决的问题,因为在很多情况下二者的界面并不是非常清楚的。为了解决这个问题,我们把声母分成两类。第一类称为“清音类”,其中包括下列各个声母{p,t,k,h,j,q,x,z,c,s,ch,sh,g,zh,f}第二类称为“浊音首部音素类”,其中包括下列各个声母{a,o,e,i,u,v,m,n,l,r,b,d,g,zh,f}第一类声母的显著特点是它的声母部分与音节的清音段落有明确的对应关系,而且清音段的长度在大多数情况下大于60ms(6帧)。第二类声母的特点是,声母与韵母的交调很严重,因而很难确定二者的分割点;同时音节的清音段很短,一般小于40ms(4帧)。此外,第二类中包含了a,o,e,i,u,v等几个单元音,它们是在零声母的情况下,位于音节起始部位的韵母头部。在这两类音素中还包括了g,zh,f这三个共同的音素,这是由于它们的特性变化很大,如果把它们只划规某一类往往会发生错误。根据上面的诊断,在识别时我们采取如下的声母分割方案。对于每一个测试音节,首先可以按照第3节所述的原理定出它的音节起点(即清音起点)MB和清浊分割点(也就是浊音的起点)ME。若ME-MB>6,即该音节的清音段长度大于6帧(60ms),则确切判定该音节的声母属于清音类声母,因而只要在该类声母中寻找最佳逼近者。若ME-MB<4,即该音节的清音长度小于四帧(40ms),则可判定该音节的声母属于浊音首部音素声母类,并在该类中搜寻最优者。若4ME-MB 6,则不能确判,在识别时对两类声母都得进行搜寻。采用上述的声母分类方案,就可以对每一类别建立适合于该类别特性的训练和识别算法。(1)清音类声母的训练和识别算法对于清音类声母,将清音段本文档来自技高网...

【技术保护点】
声控打字机系统是在普通微型计算机上或普通中英文打字机上增加语音识别卡(3)和合成卡(4)实现声控打字的装置,语音识别采用是以声韵母识别作为第一级识别,以基于音节平稳段段长分布的HMM模型为第二级识别的方法,它识别以词或音节为单位的语音,并且可合成音节和词组,语音识别是不认人的识别方法,对特定人识别性能更好,该系统还具有语音理解功能,可以通过词法、句法知识区别同音字。

【技术特征摘要】

【专利技术属性】
技术研发人员:谭政潘接林曹洪
申请(专利权)人:谭政潘接林曹洪
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利