当前位置: 首页 > 专利查询>清华大学专利>正文

小词汇量语音识别方法及其模块技术

技术编号:3047517 阅读:222 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于语音识别技术领域,其方法包括采样、编码,频谱整形及分帧加窗,语音特征提取,端点检测,模式识别等步骤。其模块由码本存储器、采样编码器、信号处理器、微控制器组成。本发明专利技术提出的方法,特别解决了非特定人汉语数码语音识别中几个易混淆对的语音区分问题,以提高汉语数码“0”~“9”的语音识别性能。且采用该方法实现的语音识别模块具有体积小、重量轻、耗电省、成本低等突出特点。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属于语音识别
,尤其涉及采用单片信号处理器实现小词汇量的语音识别(包括汉语数码“0”~“9”的语音识别)方法及其模块的设计。在90年代初,国外已有采用单片信号处理器(Digit Signal Processor简写为DSP)实现的语音识别器,虽然这些识别器是非特定人的语音识别器,但限于英语或日语的数码“0”~“9”语音及词组语音,而汉语非特定人的数码语音识别至今尚未实用化,尤其是将非特定人的汉语数码、词组以及特定人词组的语音识别功能在一片DSP上实现并付诸实用化尚未有先例。观以语音数码拨号电话机为例说明目前这一技术的现状。在90年代初期,国外已有语音拨号电话的产品出现,语音拨号电话产品采用了语音识别专用集成电路,如东芝的TC8860F等。其主要技术特点是只能对特定人语音识别,最多可识别十个词且每个词允许的持续时间为0.96秒,因此这些电路的识别性能并不理想。Philips公司于1996年推出的数字移动通信手机产品上实现了声控电话功能,其效果较好,但是限定识别十个人名的特定人声控手机。一般语音识别方法的基本流程如下图1所示语音进入系统的识别过程分以下几步(1)语音进入后,进行采样及编码成为原始的数字语音信号。系统要保存全部原始的数字语音信号成为语音记录。(2)对保存的语音记录进行语音起始和终了的端点检测,进行端点定位。(3)对经过端点定位后的语音信号进行频谱整形及分帧加窗处理。(4)对已分帧加窗信号进行特征提取。(5)提取出的语音信号特征后,根据已存的码本进行模识识别。(6)把语音识别的结果输出。这一方法中语音端点检测精确到采样点的量级,要存储全部原始语音,故存储量大,并且增加了系统的运行时间,识别的延时加大。目前较为典型的端点检测方法,有“静音、清音、浊音”(S/U/V)方法,或快速端点检测FED(Fast Endpoint Detection)方法等,这些方法有一共同的缺点即为抗突发的有源干扰能力差,尤其在噪声或干扰较大时严重影响了识别性能,无法应用。由于汉语数码语音为单音节,且存在较多易混淆语音的数码对,要达到高的识别性能是很困难的。因此汉语数码“0”~“9”语音的识别,尤其是非特定人的汉语数码语音识别同时兼有语音的键盘命令(即用语音命令替代敲键盘命令)识别,至今尚无产品。本专利技术的目的旨在为克服已有技术的不足之处,提出一种采用单片信号处理器实现的小词汇量语音识别新方法,特别解决非特定人汉语数码语音识别中几个易混淆对的语音区分问题,以提高汉语数码“0”~“9”的语音识别性能。且采用该方法实现的语音识别模块具有体积小、重量轻、耗电省、成本低等突出特点。本专利技术提出的一种小词汇量语音识别方法,如图2所示,包括以下步骤(1)语音进入系统后进行采样及编码,成为原始的数字语音信号;(2)对原始的数字语音信号立即进行频谱整形及分帧加窗;(3)对已分帧的信号进行语音特征提取,当一帧信号的特征提取结束后,就不再保存该帧原始的数字语音信号,只保存该帧的特征;(4)对保存的各帧语音的特征进行确定起始终了端点的语音端点检测;(5)语音端点定位后,根据已存的码本进行模式识别;(6)把语音识别的结果输出。由于本专利技术的端点检测是按帧进行的,因而可以在一帧语音输入完成后实时进行语音加窗及特征提取而不必保存原始语音数据。从而大大减少了系统所需的存储量。其存储量为一般的端点检测方法所需存储量的1/2~1/5。因而在具有相同的存储量的情况下,可以大大加宽可识别语音词组的持续时间,缩短了识别时间。本专利技术所说的语音端点检测可采用基于语音特征的实时端点检测FRED(Feature-based Real-time Endpoint Detection)方法。此方法框图如图3所示该端点检测由下面步骤完成(1)语音经过采样、编码、分帧、加窗以及特征提取后,进行参数阀值的设定。(2)确定参数阀值后,进行浊音段定位。(3)然后搜索静音段,从而确定语音端点。本专利技术所说的模式识别可采用二级汉语数码语音识别方法,汉语数码语音识别(Mandarin Digit Speech Recognition)简称为MDSR。本专利技术的MDSR系统采用的二级识别方法,如图4所示MDSR系统由二部分组成,第一部分为语音前端处理模块,包括采样、编码、分帧、加窗、特征提取、端点检测。第二部分为本专利技术所说的二级语音模式识别模块。第一级识别采用典型HMM识别方法。由于汉语数码语音存在严重的易混淆语音对,如“2”-“8”、“6”-“9”、“0”-“6”、“1”-“6”、“3”-“4”等。因此汉语数码语音的识别率很难提高。本专利技术在第一级识别的基础上对易混淆语音对采用表征其区分特征的参数,再作一次局部HMM识别,或根据一定的规则进行判决。下表1列出了各对易混语音第二级识别的方法。表1 本专利技术采用二级识别框架即第一级完成对识别结果的初步确定,第二级完成对易混淆语音的进一步辨识。使识别率大大提高为实测98.8%,解决了至今尚未能解决的非特定人汉语数码语音识别率低的问题。本专利技术所说的模式识别除了包括对特定人语音模式识别外还可进一步包括非特定人语音模式识别处理部分(1)若为特定人的语音识别,则将语音的特征结合已存的码本进行模式识别。(2)若为非特定人的语音识别,在端点检测后,则将语音特征结合存贮的码本进行模式识别,当需自适应时,还包括非特定人的语音自适应方法。汉语非特定人数码语音识别中,若用较为标准的普通话发音则识别率是相当高的,但是对于发音不规范尤其带有地区方言口音时,就会造成严重的错判。故本专利技术采用说话人自适应技术(Speaker Adapter)来弥补这一缺陷。本系统中采用最大后验概率方法(Maximum a Posteriori简写为MAP)。其基本方法为利用Bayes学习方法对模型参数进行修正。在语音系统中,设X为训练样本,θ为第i个词条的模型参数,则MAP训练方法的准则为θ^i=argmaxθiP(θi/x)]]>其中 为模型参数的Bayes估计值。当考虑P(x)与{θ1}1=1,2.....n无关的情况下,即为最大似然估计,对于渐近的自适应方式训练样本是逐个输入的。设xn={x1,x2.....xn}为训练样本序列,则渐近MAP方法的准则为θ^i(n+1)=argmaxPθi(xn+1/θi)P(θi/xn)]]>其中 为第n+1次训练的模型参数估计值。利用MAP方法,只需4~5次自适应语音数,则识别率可以得到显著提高。本专利技术提出的一种小词汇量语音识别模块,由数字信号处理器芯片及用数据线和控制线与其相连成一体的闪烁存储器芯片、微控制器芯片和采样编码器芯片构成,其特征在于,所说的存储器芯片存有码本,所说的数字信号处理器芯片存有采用如上所述方法编制的语音识别程序。本专利技术有如下特点1.实现非特定人汉语数码“0”~“9”的语音识别。2.实现非特定人100个左右的词组的语音识别功能使得非特定人可以用语音命令代替人的控制操作(例如,以语音命令代替键盘操作,下同)。3.开发自适应功能,以提高带有方言口音的非特定人本文档来自技高网...

【技术保护点】
一种小词汇量语音识别方法,包括以下步骤:(1)语音进入系统后进行采样及编码,成为原始的数字语音信;(2)对原始的数字语音信号进行频谱整形及分帧加窗;(3)对己分帧的信号立即进行语音特征提取,当一帧信号的特征提取结束后,就不再保存 该帧原始的数字语音信号,只保存该帧的特征;(4)对保存的各帧语音的特征进行确定起始终了端点的语音端点检测;(5)语音端点定位后,根据已存的码本进行模式识别;(6)把语音识别的结果输出。

【技术特征摘要】
1.一种小词汇量语音识别方法,包括以下步骤(1)语音进入系统后进行采样及编码,成为原始的数字语音信;(2)对原始的数字语音信号进行频谱整形及分帧加窗;(3)对已分帧的信号立即进行语音特征提取,当一帧信号的特征提取结束后,就不再保存该帧原始的数字语音信号,只保存该帧的特征;(4)对保存的各帧语音的特征进行确定起始终了端点的语音端点检测;(5)语音端点定位后,根据已存的码本进行模式识别;(6)把语音识别的结果输出。2.如权利要求1所述的语音识别方法,其特征在于,所说的语音端点检测包括以下步骤(1)语音经过采样、编码、分帧、加窗以及特征提取后,进行参数阀值的设定;(2)确定参数阀值后,进行浊音段定位;(3)然后搜索静音段,从而确定语音端点。3.如权利要求1所述的语音识别方法,其特征在于,所说的模式识别采用二级汉语数码语音识别方法,具体包括以下步骤首先采用典型HMM识别方法进行第一级识别;然...

【专利技术属性】
技术研发人员:刘润生杨明杰李虎生
申请(专利权)人:清华大学
类型:发明
国别省市:41[中国|河南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1