用于提供识别的语音输出的方法技术

技术编号:3044326 阅读:160 留言:0更新日期:2012-04-11 18:40
一种用于提供输入语音信号的识别的语音输出的方法和无线设备能提高识别服务的响应度。该方法包括对输入语音信号进行处理以获取多个帧(步骤310)。然后,使用多个帧的第一子集计算在线噪声倒谱平均值(步骤315)。然后,使用多个帧的第二子集计算在线倒谱平均值(步骤320)。然后,使用在线噪声倒谱平均值和在线倒谱平均值,计算输入语音信号的估计的倒谱平均值(步骤330)。然后,根据多个帧计算归一化的倒谱特征(步骤335),并使用归一化的倒谱特征来提供识别的语音输出(步骤340)。

【技术实现步骤摘要】

本专利技术一般涉及信号处理,具体来说,涉及从语音信号中提 取在线频镨特征。
技术介绍
自动语音识别(ASR)系统越来越依赖于倒谱分析,以从语音信 号中提取有用的语音特征。具体来说,许多ASR系统基于语音帧的 梅尔频率倒镨系数(MFCC)。基于倒谱分析的语音特征通常叫做倒谱 特征,并被证明对于改善ASR 系统的语音识别率是有效的。例如, ASR系统可以对倒镨特征的序列执行语音识别,其中,每一个倒谱特 征都包括输入的语音信号的语音帧的倒谱系数或MFCC。此外,倒谱 特征对于通过具有有限的带宽的通信信道传输语音信号是很有用的。 例如,倒镨特征的序列可以提供输入语音信号的压缩表示形式,倒谱 特征的序列可以通过具有有限的带宽的通信信道绩效传输。然后,可 以在接收器上从倒语特征的序列构建对应于输入语音信号的语音信号。然而,生成倒镨特征的现有技术方法一般要求大量的时间才能获 得归一化的倒语特征。归一化是一个费时的过程,该过程将倒谱特征 的系数值调整到某一范围内,在该范围内,诸如ASR系统或信号滤 波器之类的信号处理器可以最佳地操作。例如,为归一化输入语音信 号的倒谱特征,可以从每一个倒谱特征中减去倒谱特征的平均值,有 效的采样周期是获取倒谱特征的平均值首先需要的。附图说明为了可以轻松地理解本专利技术并使本专利技术产生经济效果,现在将参 考示范性实施例并参考附图,其中,在各个单独的视图中,类似的附 图标记表示相同的或功能上类似的元件。附图与下面的详细描述一起,构成了说明书的一部分,用于进一步显示各个实施例,并说明根据本专利技术的各种原理和优点,其中图1是显示了根据本专利技术的某些实施例的呈现移动电话的 形式的无线通信设备的示意图。图2是显示了根据本专利技术的某些实施例的用于对输入语音 信号进行组帧并从输入语音信号提供识别的语音输出的方法。图3是显示了根据本专利技术的某些实施例的用于从输入语音 信号提供识别的语音输出的方法的一般流程图。图4是显示了根据本专利技术的某些实施例的使用在线噪声倒谱 平均值和在线倒镨平均值计算估计的倒谱平均值的方法的一般流程图。图5是显示了根据本专利技术的某些实施例的用于使用一组训练语 音样本来生成代码簿的方法的 一般流程图。本领域技术人员将理解,图中的元素是简明而清晰地显示的,不 一定是按比例绘制的。例如,图中的某些元素的维度可以相对于其他 元素而放大,以帮助改善对本专利技术的实施例的理解。具体实施例方式在详细描述根据本专利技术的实施例之前,应该注意,实施例主要地 组合了涉及从语音信号提供识别的语音输出的方法步骤和设备组件。 相应地,设备组件和方法步骤在适当的情况下通过图形中的惯用符号 来代表,只显示了与本专利技术的实施例有关的那些具体细节,以便那些 对精通具有这里的描述的优点的技术的人员显而易见的细节不会妨碍 对本说明书的清楚理解。在此文档中,诸如第一和笫二、顶部和底部等等关系术语可以只 用于区别一个实体或操作与另一个实体或操作,而不一定需要或暗示 这样的实体或操作之间的任何实际这样的关系或顺序。术语包括或 其任何其他变体,用于涵盖非排他性的包含,以便包括元件列表的过 程、方法、产品或设备不只包括那些元件而是可以包括没有明确地列 出的其他元件或这样的过程、方法、产品或设备固有的其他元件。前面有包括一个的元件没有更多约束地,不排除包括该元件的过程、 方法、产品或设备中的另外的相同元件的存在。根据一个方面,本专利技术是用于从输入语音信号提供识别的语音输 出的方法。该方法包括对输入语音信号进行处理以获取多个帧。然后, 根据多个帧的第一子集计算在线噪声倒镨平均值。然后,根据多个帧 的第二子集计算在线倒i脊平均值。然后,使用在线噪声倒镨平均值和在线倒谙平均值,计算输入语音信号的估计的倒语平均值。然后,使 用估计的倒镨平均值,为第二子集的帧计算归一化的倒镨特征。然后, 使用归一化的倒语特征,提供输入语音信号的识别的语音输出。例如,识别的语音输出可以包括文本字符串、命令代码的序列或 语音签名参数的序列,它们可以通过具有有限的带宽的信道传输,然 后重建为对应于输入语音信号的语音信号。通过启用在线倒谱特征归 一化,而不是通过离线平均值而归一化倒语特征,信号处理设备的总的响应度和语音识别应用程序的服务质量(QoS)可以得到改善。请参看图1,示意图显示了根据本专利技术的某些实施例的呈现移动 电话100的形式的无线通信设备。电话100包括被耦接为与处理器 103的公用数据和地址总线117通信的射频通信单元102。电话 100还具有与处理器103进行通信的小键盘106和显示屏幕105 (如触摸屏)。处理器103还包括具有用于存储数据的关联的代码只读存储器(ROM) 112的编码器/解码器111,用于对可以由移动电话100传输的或接收到的倒语特征、识别的语音输出、语音或其他信号进行编码和解码。处理器103进一步包括微处理器113,该微处理器通过公用数据和地址总线117耦接到编码器/解码器111、字符只读存储器(ROM) 1、随机存取存储器(RAM) l(M、可编程序存储器116和用户身份模块(SIM)接口 118。可编程序存储器116和SIM可操作地耦接到SIM接口 118,它们各自都可以存储,其中,选定文本消息和电话号码数据库(包括电话号码的号码字段,与号码字段中的 某一个号码关联的标识符的名称字段)。射频通信单元102是具有共用天线107的组合接收器和发射 器。通信单元102具有通过射频放大器109连接到天线107的收 发器108。收发器108还耦接到组合调制器/解调器110,而该组合 调制器/解调器110又耦接到编码器/解码器111。微处理器113具有用于耦接到小键盘106和显示屏幕105的 端口。微处理器113进一步具有用于耦接到警告模块115(该模块通 常包含警告扬声器、振动器电动机和关联的驱动程序)、耦接到麦克 风120,以及耦接到通信扬声器122的端口。字符ROM 114存储 了用于对可以由通信单元102接收到的诸如文本消息之类的数据进 行解码或进行编码的代码。在本专利技术的某些实施例中,字符ROM 114、可编程序存储器116或SIM还可以存储微处理器113的操作 代码(OC)和用于执行与移动电话100关联的功能的代码。例如, 可编程序存储器116可以包括语音识别服务计算机可读取的程序代 码组件125,这些组件被配置为导致根据本专利技术的某些实施例的用于 提供识别的语音输出的方法的执行。请参看图2,该图显示了根据本专利技术的某些实施例的用于对输入 语音信号205进行组帧并从输入语音信号205提供识别的语音输 出240的方法200。每一个都代表输入语音信号205的帧210。 、+是为输入语音信号205生成的帧的当前总数。帧210具有窗 口大小215和帧移位时间220。例如,20ms的窗口大小215和 10ms的帧移位时间220导致重叠的帧210。延迟因数2)确定获取 估计的倒镨平均值225所需要的帧210的最小数量,如此,确定获 取归一化的倒镨特征230所需要的帧210的最小数量。可以通过将 延迟因数2>乘以帧移位时间(jPs,) 220获取延迟时间235。输入语音信号205是多个帧210中的第一个帧。当获取从输入 语音信号205开始的适当数本文档来自技高网...

【技术保护点】
一种用于从输入语音信号提供识别的语音输出的方法,所述方法包括:    对输入语音信号进行处理以获得多个帧;    使用多个帧的第一子集计算在线噪声倒谱平均值;    使用多个帧的第二子集计算在线倒谱平均值;    使用在线噪声倒谱平均值和在线倒谱平均值,计算估计的倒谱平均值;    使用估计的倒谱平均值,计算第二子集的帧的归一化的倒谱特征;以及    使用归一化的倒谱特征来提供识别的语音输出。

【技术特征摘要】
1.一种用于从输入语音信号提供识别的语音输出的方法,所述方法包括对输入语音信号进行处理以获得多个帧;使用多个帧的第一子集计算在线噪声倒谱平均值;使用多个帧的第二子集计算在线倒谱平均值;使用在线噪声倒谱平均值和在线倒谱平均值,计算估计的倒谱平均值;使用估计的倒谱平均值,计算第二子集的帧的归一化的倒谱特征;以及使用归一化的倒谱特征来提供识别的语音输出。2. 根据权利要求1所述的方法,其中,在线噪声倒谱平均值 是第一子集中帧的倒镨特征的平均值。3. 根据权利要求2所述的方法,其中,根据下列公式计算在 线噪声倒镨平均值w台其中,《是第一子集中帧的倒谱特征,w是第一子集中帧的数量。4. 根据权利要求2所述的方法,其中,第一子集中帧的倒谱 特征包括梅尔频率倒谱系数。5. 根据权利要求1所述的方法,其中,在线倒谱平均值是第 二子集中帧的倒镨特征的平均值。6. 根据权利要求5所述的方法,其中,根据下列公式计算在线 倒镨平均值其中,O,是第二子集中帧的在线倒谱平均值,X,是第二子集中帧的倒语特征,/)是延迟因数,t+D是第二子集中帧的数量,而O户 是离线点。7. 根据权利要求5所述的方法,其中,笫二子集中帧的倒语特 征包括梅尔频率倒谱系数。8. 根据权利要求1所述的方法,其中,使用在线噪声倒镨平均 值和在线倒镨平均值计算输入语音信号的估计的倒傳平均值包括使用在线噪声倒镨平均值,从代码簿中识别优选的离线倒i普平均值;使用优选的离线倒镨...

【专利技术属性】
技术研发人员:何昕郭丽惠
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1