当前位置: 首页 > 专利查询>东南大学专利>正文

一种应用于英语口语网络机考系统的语音识别装置制造方法及图纸

技术编号:7309183 阅读:230 留言:0更新日期:2012-05-03 02:30
本发明专利技术公开了一种用于英语口语网络机考的语音识别装置,属于语音识别的应用领域。该装置由输入I/O、模数转换器、数字信号处理器模块、分别通过程序总线与数据总线与数字信号处理器模块相连的程序存储器和数据存储器、输出I/O组成。其中数字信号处理器模块包括特征提取子模块、训练子模块和识别子模块,完成对输入语音的训练和识别过程。该装置结构简单,具有一定的实时性,并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销,语音识别率高,识别效果好,可以很好地应用于英语口语网络机考中。

【技术实现步骤摘要】
一种应用于英语口语网络机考系统的语音识别装置
本专利技术涉及一种语音识别装置。特别涉及一种用于英语口语网络机考的语音识别装置。
技术介绍
我国教育部高等教育司于2007年5月启动基于计算机和网络的大学英语四、六级考试项目,并于2008年12月20日在全国53所高校实施大学英语网考点考试。随着我国四、六级网考点工作的开展将彻底改变长期以来语言考试中主要依靠纸质考试制度的弊端,无论对考生还是大学英语老师都是一个巨大的挑战,是英语教学理念中的一场革命。在大学英语网考的口语测试系统中,语音识别装置居于核心地位。在传统的语音识别装置的基础上,应用于英语口语网络机考的语音识别装置需要具有以下特性.首先,英语口语网络机考系统一般是通过网络来提供终端和服务器之间的英语识别和评估服务的,因此对语音识别装置的一般要求是面对非特定人的。其次,语音识别装置需要对由终端机、传输网络和背景噪声所带来的不利影响具有较强的鲁棒性。此外,要求其具有一定的实时性,并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销。因此,在这种情况下,传统的基于隐马尔科夫模型(HMM)的语音识别方法由于需要较多的模型训练数据,较长的训练时间及识别时间,而且还需要较大的内存空间,并且对于噪声的鲁棒性较差,因此无法应用于面向英语口语网络机考的语音识别装置。
技术实现思路
为了解决上述的缺陷和不足,本专利技术提供了一种智能电视终端。本专利技术所采用的技术方案是一种用于英语口语网络机考的语音识别装置,包括输入接口模块、模数转换器、数字信号处理器模块、程序存储器、数据存储器和输出接口模块;语音信号依次经输入接口模块和数转换器连接数字信号处理器模块的信号输入端;数字信号处理器模块的信号输出端连接输出接口模块;所述程序存储器和数据存储器通过程序/数据总线连接数字信号处理模块的通用输入/输出端;在程序存储器里存放提示语音,在数据存储器里存放所有的码本及采样的语音数据,所述的数字信号处理模块包括特征提取子模块、训练子模块和识别子模块;由特征提取子模块和训练子模块完成训练流程,由特征提取子模块和识别子模块完成识别流程;特征提取子模块对输入的语音提取相应的特征参数,步骤包括先对语音进行预加重,再加窗分帧,然后对每一帧语音求取MEL倒谱系数,用该系数作为该帧语音的特征参数;对于训练流程,训练子模块对语音的特征参数,通过改进的矢量量化的训练算法,生成后续识别时需要用到的码本;对于识别流程,识别子模块计算语音的特征参数与每个通过训练所生成的码本之间的欧氏距离,选出距离最小的码本所在的类作为识别结果输出。所述改进的矢量量化的训练算法,步骤包括首先用分裂法产生只有两个矢量的初始码本,再用LBG算法聚类,生成两个子集; 在两个子集中分别用分裂法各产生两个矢量的码本,再用LBG算法优化;如此反复M次可产生含2M个矢量的码本,所述M的值根据在英语口语网络机考中具体需要区分的英语语音类别进行设定(这些语音类别是根据网考的实际情况来,M = 2 10,换算成类别的话数目是 4 IOM这样一个范围,这个类别范围内都可以用本方法。至于具体网考中有多少类别需要识别,直接用类别数求以2为底的对数,就可以得到M的取值了。),取值范围为M = 2 10。特征提取子模块对输入语音信号提取其相关的特征参数,过程为将语音信号经过采样,Ι-aZ—1的预加重,并且通过加窗将其分为一帧一帧的语音;对每一帧语音\,首先进行线性预测分析,通过Levinson-Durbin算法求出其ρ阶的线性预测系数LPC El1,El2,...,Elp ;接着,由LPC通过递推,获得倒谱系数Cl,C2, ... , cp,递推公式如下C1 = Ei权利要求1.一种用于英语口语网络机考的语音识别装置,其特征在于,包括输入接口模块、模数转换器、数字信号处理器模块、程序存储器、数据存储器和输出接口模块;语音信号依次经输入接口模块和数转换器连接数字信号处理器模块的信号输入端;数字信号处理器模块的信号输出端连接输出接口模块;所述程序存储器和数据存储器通过程序/数据总线连接数字信号处理模块的通用输入/输出端;在程序存储器里存放提示语音,在数据存储器里存放所有的码本及采样的语音数据,所述的数字信号处理模块包括特征提取子模块、训练子模块和识别子模块;由特征提取子模块和训练子模块完成训练流程,由特征提取子模块和识别子模块完成识别流程;特征提取子模块对输入的语音提取相应的特征参数,步骤包括先对语音进行预加重, 再加窗分帧,然后对每一帧语音求取MEL倒谱系数,用该系数作为该帧语音的特征参数;对于训练流程,训练子模块对语音的特征参数,通过改进的矢量量化的训练算法,生成后续识别时需要用到的码本;对于识别流程,识别子模块计算语音的特征参数与每个通过训练所生成的码本之间的欧氏距离,选出距离最小的码本所在的类作为识别结果输出。2.根据权利要求1所述的装置,其特征是所述改进的矢量量化的训练算法,步骤包括首先用分裂法产生只有两个矢量的初始码本,再用LBG算法聚类,生成两个子集;在两个子集中分别用分裂法各产生两个矢量的码本,再用LBG算法优化;如此反复M次可产生含 2M个矢量的码本,所述M的值根据在英语口语网络机考中具体需要区分的英语语音类别进行设定,取值范围为M = 2 10。3.根据权利要求1所述的装置,其特征是特征提取子模块对输入语音信号提取其相关的特征参数,过程为将语音信号经过采样,Ι-aZ—1的预加重,并且通过加窗将其分为一帧一帧的语音;对每一帧语音\,首先进行线性预测分析,通过Levinson-Durbin算法求出其ρ阶的线性预测系数 LPC a1; ει2,. . .,ειρ ;接着,由LPC通过递推,获得倒谱系数Cl,C2, ... , cp,递推公式如下C1 = S11 (1) ^ =Σ(1_Λ/^k^-k + A, l<i<Pk=\把倒谱系数进一步按人耳的听觉特性变换,得到如下所示的MEL倒谱参数 cn+a-MC0(n + V)k = 0MCk{n) = \+ ++k = l(2)MCk_, O +1) + a{MCk{η +1)-MCk_, (η)) k > 1其中,式(1)中的ck和式O)中为Cn表示倒谱系数,MCk表示美尔倒谱系数,η为迭代次数,k为MEL倒谱阶数,取η = k ;迭代是从高往低,即η从大到0取值,最后求得的MEL倒谱系数放在 MC0 (0),MC1 (0),· · ·,MCp (0)中。4.根据权利要求1所述的装置,其特征是对于训练流程,训练子模块采用的是基于改进的矢量量化训练算法对输入的MEL倒谱系数进行训练,改进的矢量量化训练的步骤包括(al)采用分裂法求取初始码本假设当前经过特征提取得到的特征矢量为X,其所在的集合为S ;5.根据权利要求2或4所述的装置,其特征是所述LBG算法的步骤包括1)计算第m次迭代的总的畸变DwΑ—=! Σ辦足广―巧,其中d为X与一—11的欧氏距离;全文摘要本专利技术公开了一种用于英语口语网络机考的语音识别装置,属于语音识别的应用领域。该装置由输入I/O、模数转换器、数字信号处理器模块、分别通过程序总线与数据总线与数字信号处理器模块相连的程序存储器和数据存储器、输出I/O组成。其中本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘健刚李霄翔储琢佳董静魏昕唐加能赵力张萍李鲁
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术