用于语音识别的神经网络的训练方法技术

技术编号:2890665 阅读:194 留言:0更新日期:2012-04-11 18:40
一用于识别孤立语词的语音识别系统包括一个用来进行模数转换和倒频谱分析的预处理电路和根据多项式扩展计算判定函数的多个神经网络。此系统可利用硬件或软件或两者的结合而实现。讲出的语词的语音波形经过分析转换为一个数据帧序列。该数据帧序列被划分为数据块,然后数据块被广播给多个神经网络。利用数据块神经网络可计算多项式扩展。神经网络的输出用来确定讲出的语词的身份。此神经网络采用的训练算法不要求重复训练并可对每一个给定的样例集产生全局极小。(*该技术在2015年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及语音识别装置,具体说来涉及用于可以识别与讲话人无关的孤立语词的语音识别系统中的神经网络的训练方法。多年来科学家一直试图找到一种可以简化人机界面的办法。诸如键盘、鼠标、触摸屏及笔这些输入设备是用来实现人/机界面最为常用的工具。但是人机间更为简单和自然的界面可能是人的语音。一种能够自动识别语音的装置可以提供这样一种界面。自动语音识别装置的潜在应用包括利用话音命令的数据库查询技术、在制造过程中利用话音输入进行质量控制、使驾驶员在拨号时可集中精神于路面情况的话音拨号式蜂窝电话以及伤残人使用的话音操纵的假肢装置。令人遗憾的是自动语音识别不是一项可以轻易完成的课题。一个原因是各个人的语音之间的变化很大。比如同一个语词由几个人讲出时其声音会由于口音、语速、姓别或年龄的差异而相差甚远。除了讲话人的变化,协同发音效应、讲话的模式(喊叫/低语)及背景噪声都会给语音识别装置造成巨大的问题。自60年代未到现在,在自动语音识别方面已引进了各种各样的方法。一些方法立足于相应的试探策略的扩展知识,另一些方法则基于语音数据库和训练方法。后面这一类方法包括动态时间偏差法(DTW)和隐藏马尔可夫模型法(HMM)。对这两种方法,以及时间延迟神经网络(TDNN),将在下面讨论。动态时间偏差法是一种利用优化原理减小一个未知的发音语词与一个所存储的已知模板语词之间的误差的技术。已报告的数据表明这项DTW技术很有效并能进行良好的识别。然而,DTW技术的计算强度很大。所以要把这种DTW技术应用于现实世界中是不实际的。隐藏马尔可夫模型法不是直接将一个未知的发音语词与一已知语词的模板进行比较,而是利用各已知语词的随机模型并对各模型产生该未知语词的概率进行比较。当一个未知语词讲出时,HMM技术将检查该语词的序列(或状态)并找出能提供最佳匹配的模型。HMM技术在很多商业应用中运用顺利;但是,此项技术有很多缺点。这些缺点包括不能区分声音类似的语词、对噪声敏感和计算强度大。最近,神经网络被用来解决一些高度非结构性并且不然就无法解决的问题,如语音识别。时间延迟神经网络是一种采用有限的神经元连系处理语言时间效应的神经网络。就有限的语词识别而言,TDNN的表现略优于HMM方法。但TDNN却受困于某些严重的缺点。首先,TDNN的训练时间很长,大约为数星期之久。其次,TDNN的训练算法经常收敛为局部极小,非最优解。最优解应是全局极小。总之,已知的现有自动语音识别方法的缺点(如算法所需计算工作量不实际,对讲话人的改变和背景噪声的容许度有限,训练时间过长等等)严重地限制了语音识别装置在很多有可能应用的领域中的接纳和推广。因此急需一种高度精确、对背景噪声免疫、无需反复训练或复杂计算、可产生全局极小并且对讲话人的差异不敏感的自动语音识别系统。因此,本专利技术的一个优点就是可提供一种用于对讲话人的差异及背景噪声不敏感的语音识别系统中的神经网络训练法。本专利技术的另一个优点则是可提供一种训练时间不需要重复迭代的语音识别装置的训练法。本专利技术的再一个优点是可提供一种对每一给定的训练矢量集可生成全局极小的语音识别装置的训练法。根据本专利技术优选实施例中通过对用于语音识别系统中的多个神经网络(每一个神经网络又由多个神经元构成)提供一种训练法取得了上述以及其他优点;该方法产生了多个训练实例,每个训练实例包括有一个输入部分和一个输出部分,该方法由下列步骤构成(a)接受一个讲出的例词;(b)对该讲出的语词进行模数转换,这种转换会产生一个数字化语词;(c)对该数字语词进行倒频谱分析(cepstral analysis),分析结果产生一个数据帧序列;(d)由该数据帧序列生成多个数据块;(e)从多个数据块中选择一个并使多个训练实例中的一个的输入部分等于所选择的数据块;(f)从多个神经网络中选择一个并确定所选择的神经网络是否可识别所选择的数据块;如果可以,则将该一训练实例的输出部分设置为1,如果不可以,则将该一训练实例的输出部分设置为0;(g)将该一训练实例存储;(h)确定多个数据块中是否有另一个数据块;如果有,返回到步骤(e);如果没有,结束本方法。在所附的权利要求书中对本专利技术已有详细叙述。但是,结合附图并参考下面的详细介绍本专利技术的其他一些特点将更加清楚并可对之有一个更好的了解,其中附图说明图1是一个语音识别系统的一个上下文框图;图2是利用本专利技术的一个语音识别系统的概念图;图3是图2所示的语音识别系统的操作法的流程图;图4所示为本专利技术的分而治之(divide-and-conquer)算法的数据输入和输出。图5是本专利技术的分而治之算法的执行法的流程图。图6是根据本专利技术的一个优选实施例训练神经网络进行语音识别的方法的流程图。图1是一个语音识别系统的一个上下文框图。该系统的组成包括一支用于接受语音形式的音频输入并将声音转换为电能的话筒1或等效装置,接受由话筒1送出的电信号并完成各种任务,如波形取样、模数(A/D)转换、倒频谱分析等等的预处理电路3,以及一台执行语音识别程序并相应地产生一个确认所识别的语音的输出的计算机5。当使用者对话筒1讲话时此系统开始工作。在一优选实施例中,由图1所描述的系统用于孤立语词识别。当对着话筒讲话的人在各语词之间做出一个清晰的停顿时就发生孤立语词识别。当讲话者讲出一个语词时,话筒1产生一个代表该语词的声音波形的信号。之后此信号被送到预处理电路3由模数转换器(未示出)数字化。对这一数字化信号然后进行倒频谱分析(一种特征抽取方法)处理,这种分析处理也是由预处理电路3完成。计算机5接受倒频谱分析的结果并利用该结果来确定讲出的语词的身份。下面是对预处理电路3和计算机5的更详细的介绍。为完成其所承担的任务预处理电路3可能包括一组硬件和软件。例如,A/D转换可由一专用集成电路完成,而倒频谱分析可由一套由微处理器执行的软件来完成。预处理电路3包括适于进行A/D转换的手段。话筒1发出的信号通常是模拟信号。由一A/D转换器(未示出)对话筒1发出的信号每秒钟进行数 千次取样(例如在一优选实施例中为每秒8000~14,000次)。然后将每个取样转换为一个数字字,各字的长度为12至32比特。数字信号一般包括一个或多个这种数字字。本领域的一般技术人员都可以理解A/D转换器的取样率和字长可以变化并且上面所给出的数字并不对本专利技术所包括的A/D转换器的取样率及字长构成任何限制。对数字信号进行的倒频谱分析(或称为特征抽取)的结果产生一个表征该讲出的语词的相关特征的一个信号表示。这可以看作是一个可以保持语音重要特征并从数字信号的非相关特征中去掉不需要的干扰的数据简化步骤,结果可使计算机5的决策过程简单。倒频谱分析过程如下。首先,将构成数字信号数字化取样划分成一个集序列。每个集中包含在一个固定长度时间段中所得到的取样。比如在本专利技术的一个优选实施例中此时间段为15毫秒。如果一个讲出的语词的长度,比如,是150毫秒,则电路3将会产生一个包括10个数字取样集的序列。其次,对每一个取样集应用一个P阶(一般P=12~14)线性预测分析以生成P个预测系数。然后将预测系统转换为倒频谱系数,为此使用如下递归公式c(n)=a(n)+Σk=1n-1(1-k/n)a(k)c(n-k)---(1本文档来自技高网...

【技术保护点】
一种训练用于语音识别系统中的多个神经网络的方法,上述每个神经网络都包括多个神经元,上述方法可产生多个训练样例,其中上述训练样例中每一个都包括一个输入部分和一个输出部分,上述方法由下面各步骤构成:(a)接受一个讲出的语词样例;(b)对 上述讲出的语词进行模数转换,上述转换生成一个数字化语词;(c)对上述数字化语词进行倒频谱分析,上述分析产生一个数据帧序列;(d)由上述数据帧序列生成多个数据块;(e)从上述多个数据块中选择一个,并使上述多个训练样例中的一个的上述 输入部分等于上述所选择的数据块;(f)从上述多个神经网络中选择一个,并确定上述选定的神经网络是否用于识别上述选定的数据块;(i)如是,将上述一个训练样例的上述输出部分设置为1;(ii)如不是,将上述一个训练样例的上述输出部分设置 为0;(g)存储上述一个训练样例;(h)确定是否存在上述多个数据块的另外一个;(i)如是,返回步骤(e);(ii)如不是,终止上述方法。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:沙平托马斯王
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1