用于构成语音识别参数的方法技术

技术编号:3046757 阅读:140 留言:0更新日期:2012-04-11 18:40
一种适于在分布式语音识别环境中使用的语音样本特征化前端。将数字化的语音样本(31)在低频通路(32)和高频通路(33)之间进行分割。两条通路都用于判断频谱内容,这适用于判断用于识别的、特征化语音样本的语音识别参数(诸如倒谱系数)的情况。所述低频通路(32)具有彻底的降噪能力。在一个实施例中,所述高频通路33使用降噪的结果来帮助除噪,而不需要具有与所述低频通路32所使用的相同级别的资源能力。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及语音识别,更具体地说,涉及分布式语音识别。
技术介绍
语音识别技术是众所周知的。许多语音识别技术是用于将语音信息数字化和进行后续的处理以利于支持语音识别信息本身的模式匹配工作的。这种处理过程通常包括将语音信息的某个方面特征化并以某种形式(诸如用倒谱系数(cepstral coefficient))将那些特征化的方面表现出来。一般来说,随着模式匹配资源的增加,使用任何给定的特征化方法的给定的语音识别技术的精度、速度、和可靠性都将提高。不幸的是,对于很多应用来说,在那些只有非常有限的资源的小型、便携式用户设备中通常会需要语音识别活动的结果。而这些设备上的语音识别通常需要忍受缺乏这种资源的痛苦。一种建议的解决方案是至少部分地在用户设备中将语音进行特征化,然后将特征化的信息提供给具有大量资源的远程设备(诸如语音识别服务器)。然后就可以使用这些资源来完成识别过程并将其结果提高到预想的精度。其中一种这样的分布式解决方案是这样设计的将适当地在8KHz频段内处理和特征化语音信号,从而提供所谓的服务的电话波段等级。然而,也有的实例希望在具有更宽频段的波段(诸如16KHz的频段)的情况下工作的。不幸的是,这种8KHz的解决方案不易于进行伸缩以简单适应增加了带宽的信号。然而,与此同时,许多8KHz的解决方案在它们的所被期望的使用领域中是有效的并代表了这种应用的理想实施例。一种解决方案是为了处理更大带宽的信号而简单地提供完全分离的实施例。然而,这种解决方案需要完全类似的方法,其需要提供相应的高等级的资源。附图说明通过提供在下面详细描述的、特别结合附图来研究的,至少可以部分地满足上述需要,在这些附图中图1是图解说明样本语音信号的时间/频率图;图2是根据本专利技术的实施例的高级流程图;和图3是根据本专利技术的实施例的框图。本领域一般技术人员应当理解,图中的元素是出于简化和清楚的目的而示出的,并且不需要将它们按比例画出。例如,为了有助于更好的理解本专利技术的各种实施例,图中的一些元素的尺寸相对于其它元素来说是夸大了的。具体实施例方式语音信息通常在较低的频率下会比在较高的频率下包含更多的信息。例如,参看图1,一连串的语音话语在较低的频率区域11(例如从0Hz到4KHz)中通常将会比在较高的频率区域12(例如从4KHz到8KHz)中包含更多的声谱内容。因此,只处理语音信号的较低频率的内容就至少可以进行一定程度上的语音识别。然而,对于许多语音样本来说,在较高的频率确实包含一些内容,有或者没有较高频率的内容可以并将会影响到语音识别引擎对给定的语音话语的识别能力。因此,如同前面注明的,在特征化给定的语音话语时有时希望包括这种高频声谱内容。一般来说,参看图2,依照下面提出的各种实施例,提供了数字化的语音信号(步骤21),然后根据它,提供至少两个信号(信号1和信号2)(步骤22)。根据信号1生成第一组频谱信息(步骤23),根据信号2生成第二组频谱信息(步骤24)。然后使用这两个组频谱信息来生成对应于数字化的语音信号的语音识别参数(步骤25)。在一个实施例中,信号1属于经过低通滤波的数字化语音信号,而信号2属于经过高通滤波的数字化语音信号。语音识别参数可以是(例如)倒谱系数,该系数是基于为两个有限带宽的信号通路提供的频谱信息的。在一个实施例中,可以对信号1进行加强处理的降噪处理。然后降噪处理带来的好处可以扩展到信号2中而不需要对它的资源进行同等的处理。如果希望的话,可以使用所建立的电话波段分布式语音识别技术来构成第一组频谱信息,从而可以当支持电话波段专用的分布式语音识别技术时允许使用信号1的通路,而当支持带宽较宽的分布式语音识别技术时则允许结合信号2的通路来使用信号1的通路。现在参看图3,将对上面一般性描述的实施例进行详细描述。数字化语音信号31(在这个例子中,数字化语音信号包含构成以奈奎斯特采样率(Nyquist sampling rate)采样的8KHz语音信号的16KHz的信号)输入到第一通路32(包含低频通路)和第二通路33(包含高频通路)中。如本领域技术人员所知,低频第一通路32具有作为低通滤波器34(在这个例子中,被校准为具有0到4KHz的带通范围)使用的正交镜像滤波器(QMF)。然后有限频率的结果输出到抽取器(decimator)35,在这里结果按2的倍数抽取以减少表示位的个数。然后如同已知的,就把经过抽取的有限频率的结果传递给降噪和语音识别参数特征化单元36。单元36包括降噪器37、信噪比波形处理器38、和测定mel频标倒谱系数(mel frequency cepstral coefficient)的单元39。降噪器37实质上是进行初次降噪。这种降噪器可以基于维纳(Wiener)滤波器理论并通过(例如)诸如在Agarwal和Cheng所著的“Two-StageMel-Warped Wiener Filter for Robust Speech Recognition(用于鲁棒语音识别的两级mel弯曲维纳滤波器)”(ASRU Keystones,1999年12月)中提出的两极Mel频域处理来实施。信噪比波形处理器38进行额外的降噪处理,它加强高信噪比的波形部分并降低低信噪比的波形部分,其可以通过(例如)在Macho和Cheng所著“SNR-DependentWaveform Processing for Improving the Robustness of ASR Front-End(用于提高ASR前端鲁棒性的基于SNR的波形处理)”(Proceeding ICASSP2001,Salt Lake City,2001年5月)中所讲的处理技术来实施。mel频标倒谱系数测定仪39为低频除噪的信号处理(通常使用快速傅立叶变换)谱估计信息(通常用23个这种系数来表示低频信息)。除倒谱系数之外,测定仪39通常还将产生构成能量参数的另一个参数,这个参数表示整个信号1的频段的能量的对数值。对这个系数的测定在本领域中是公知的。上述单元实质上都是支持生成用于适当地特征化初始语音信号(具体地说,在这个例子中,是初始语音信息的0-4KHz部分)的低频分量的语音识别参数的。如同在前面所注明的,这种配置不容易伸缩以适应具有更宽的频带宽度的输入。具体地说,降噪器37相对来说是比较复杂的、资源密集的,并且是专门为使用有限带宽的输入而设计的,当希望适应更宽的带宽输入的时候就会遇到很大的设计挑战。第二信号通路33作为对上述第一信号通路32的能力的补充,可以让单元结合起来适当地处理更宽的带宽输入。第二信号通路33包括另一个作为高通滤波器40(具体地说,让4KHz到8KHz之间的原有语音信息通过)使用的正交镜像滤波器。这个高通滤波的结果输出到抽取器和频谱变换器41,抽取器和频谱变换器41将输入的位作为“2”的函数进行抽取并由此转换频谱内容,并且,因此,就将原来的4KHz到8KHz的频段搬移到0Hz到4KHz的频段。然后谱估计器42就使用快速傅立叶变换来估计该结果的频谱内容。然后这个谱估计信息就穿过mel滤波器组50以得到三个计算出的能量来表示高通信号的频谱内容。然后沿着两个不同的通路来处理这些计算结果。在第一条通路中,结果传送给语音活动探测器和本文档来自技高网...

【技术保护点】
一种方法,包括:-提供数字化的语音信号;-使用所述数字化的语音信号来提供:-只包括所述数字化的语音信号的第一部分的第一信号;和-只包括所述数字化的语音信号的第二部分的第二信号,其中所述数字化的语音信号 的所述第一部分和所述第二部分至少部分不同;-使用所述第一信号来生成第一组频谱信息;-使用所述第二信号来生成第二组频谱信息;-根据所述第一和第二组频谱信息来生成语音识别参数,其中所述语音识别参数对应于所述数字化语音信号 。

【技术特征摘要】
US 2002-1-30 10/061,0481.一种方法,包括-提供数字化的语音信号;-使用所述数字化的语音信号来提供-只包括所述数字化的语音信号的第一部分的第一信号;和-只包括所述数字化的语音信号的第二部分的第二信号,其中所述数字化的语音信号的所述第一部分和所述第二部分至少部分不同;-使用所述第一信号来生成第一组频谱信息;-使用所述第二信号来生成第二组频谱信息;-根据所述第一和第二组频谱信息来生成语音识别参数,其中所述语音识别参数对应于所述数字化语音信号。2.如权利要求1中所述方法,其中使用所述数字化语音信号来提供第一信号的步骤包括提供包含所述数字化语音信号的低频分量的第一信号。3.如权利要求1中所述方法,其中使用所述数字化语音信号来提供第二信号的步骤包括提供包含所述数字化语音信号的高频分量的第二信号。4.如权利要求1中所述方法,其中根据所述第一和第二组频谱信息来生成语音识别参数的步骤包括根据所述第一和第二组频谱信息的组合来生成所述语音识别参数。5.如权利要求1中所述方法,其中使用所述第一信号来生成第一组频谱信息的步骤包括使用所述第一信号为预设数量的频段生成第一组频谱信息。6.如权利要求1中所述方法,其中使用所述第二信号来生成第二组频谱信息的步骤包括使用所述第二信号为预设数量的频段生成第二组频谱信息。7.如权利要求1中所述方法,其中-使用所述第一信号来生成第一集合的频谱信息的步骤包括使用所述第一信号为预设数量的频段生成第一组频谱信息;-使用所述第二信号来生成第二集合的频谱信息的步骤包括使用所述第二信号为预设数量的频段生成第二组频谱信息;和其中所述第二组频谱信息的频段比所述第一组频谱信息的频段的频率高。8.一种方法,包括-提供数字化的语音信号;-使用所述数字化的语音信号来提供-只包括所述数字化的语音信号的第一部分的第一信号;和-只包括所述数字化的语音信号的第二部分的第二信号,其中所述数字化的语音信号的所述第一部分和所述第二部分至少部分不同;-对所述第一信号进行处理以至少减少可能在所述第一信号中出现的部分噪音,从而提供降噪的第一信号;-对所述第二信号进行处理以至少减少可能在所述第二信号中出现的部分噪音,从而提供降噪的第二信号;-使用所述第一降噪信号来生成第一组频谱信息;-使用所述第二降噪信号来生成第二组频谱信息;-根据所述第一和第二组频谱信息来生成语音识别参数,其中所述语音识别参数对应于所述数字化语音信号。9.如权利要求8中所述方法,其中-对所述第一信号进行处理以至少减少部分噪音的步骤包括使用谱估计;和-对所述第二信号进行处理以至少减少部分噪音的步骤包括使用谱估计。10.如权利要求8中所述方法,其中对所述第二信号进行处理以至少减少部分噪音的步骤包括-预先对所述第二信号进行处理以至少减少可能在所述第二信号中出现的部分噪音,从而提供预先降噪的第二信号;-进一步将所述预先降噪的第二信号至少部分地作为所述第一降噪信号的函数而进行处理,从而提供所述第二降噪信号。11.如权利要求10中所述方法,其中进一步处理所述预先降噪的第二信号的步骤包括进一步将所述预先降噪的第二信号至少部分地作为所述第一信号和所述第一降噪信号的函数而进行处理,从...

【专利技术属性】
技术研发人员:杜尚马踌程燕鸣
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利