当前位置: 首页 > 专利查询>英特尔公司专利>正文

语音音频处理制造技术

技术编号:8327722 阅读:242 留言:0更新日期:2013-02-14 13:47
本发明专利技术提供一种语音处理引擎,在一些实施例中,该语音处理引擎采用具有特定发话者的声门信息的卡尔曼滤波以净化音频语音信号,从而实现更有效的自动语音识别。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及音频处理并具体涉及语音信号处理。附图简述本专利技术的实施例在附图的各个示图中作为示例而非限制示出,在附图中类似的附图标记表示相似的要素。图1是根据一些实施例的语音处理引擎的示图。图2是根据一些实施例的合成器的示图。图3是根据一些实施例实现语音处理引擎的结构的示图。图4是根据一些实施例的电子设备平台的示图。具体实施方式话音命令和连续语音识别用于例如具有键盘功能有限的车内应用和电话的移动互联网设备。需要对任何语音识别引擎提供干净的输入,但环境中的背景噪声妨碍了这个目标。例如,试验已表明,开放式口述字词的准确性在汽车噪声和自助餐厅环境中可能下降大约20%,这对于用户而言可能难以接受。当今的语音引擎具有一些降噪特征以降低背景噪声的影响。然而,这些特征可能不足以在有挑战的环境中允许开放式口述。因此,可使用卡尔曼(Kalman)滤波技术来改进语音信号处理。通过本文给出的一些实施例,可通过将音频噪声滤波处理分路成独立的语音识别路径和人接收路径来提高语音识别性能。也就是说,可克隆音频路径来产生“感知”(或听觉接收)信道和用于语音识别引擎的预处理音频的独立信道。图1是根据一些实施例的语音处理引擎102的框图。它包括基于卡尔曼的滤波引擎104、发话者/话音模型106、环境噪声模型107、自动语音识别(ASR)引擎108以及标准噪声抑制块110。音频(例如来自麦克风的数字化音频)进入SPE(语音处理引擎)并被分成两条路径:进入卡尔曼滤波器块104的语音识别路径以及使用块110中的标准噪声抑制技术处理以由用户接收的音频感知路径(克隆的音频)。卡尔曼滤波器利用来自发话者/话音模型106的分量以及来自环境噪声模型107的分量,以从音频信号滤除噪声并将经滤波的信号提供给自动语音识别(ASR)引擎108。发话者/话音模型106(至少最初版本)是在SPE执行之前产生的,因为SPE要对其进行处理,尽管最初版本可能相当朴素(bare),并且语音/话音模型可在SPE执行时进行更新。发话者/话音引擎106提供与当前发话者相关的特定特征。这些特征可包括一个或多个声门谐波(glottal harmonic)(包括用户的特定基本声门频率)以及任何其它适合的信息。例如,如果先前获得的模型(例如从用户训练得到)是可用的,则它们也可被纳入到发话者/用户模型106中。如所指出的,也可使用针对特定用户的先前产生的“干净”音频信息(x’(n))。与发话者/话音模型相似,环境噪声模型107可基于假设的噪声环境或者特定的或先前表征的环境(例如办公室、汽车、飞机等)的最初缺省数据/假设。它可以是与环境关联的静态数据(例如假设的背景噪声要素)和/或它可包括从实时传感器等获得的动态数据。例如,它可包括诸如汽车车速、背景噪声麦克风数据和空调信息之类的传感器输入,以改善噪声模型估计器的性能。在一些实施例中,可通过使用话音活动检测器算法检测语音存在的周期,来例如对单个信道采用噪声估计方法。可使用噪声模型和卡尔曼滤波之间的迭代循环来进一步改善噪声模型。滤波器104可使用发话者模型和噪声模型中的任一个或两者来对所接收的音频信号进行滤波。同样,从发话者模型开始,可使用扩展,来将脉冲形式的周期性分量加入卡尔曼滤波以将语音源(例如使用诸如口述、话音控制或翻译设备的人或其它实体发话者)产生的声门谐波考虑在内。卡尔曼滤波已典型地用于白噪声输入,但在人声语音的情形下,周期性输入的添加可更接近地模仿语音产生的生理机能。包括预定模型信息和声门谐波参数的发话者模型信息可用来加载发话者模型的一组预定或先前确定的系数。卡尔曼滤波得到的音频不一定显著地提高人感知,但它通常提高语音识别引擎的性能。因此,音频路径被克隆(两条路径)以使用卡尔曼预处理滤波来使人感知和语音识别输入两者最大化。使用卡尔曼技术的执行滤波器104可用来将声道响应建模成AR或ARMA系统,该AR或ARMA系统使用独立输入和驱动噪声以及将附加有色噪声考虑在内的噪声观察。在传统卡尔曼应用中,驱动周期性输入通常被忽略,并为简化起见仅使用驱动白噪声。这种假设暗示滤波器将(在理想性能下)产生既不具有生理值也并非自然声音的干净但无话音的语音信号。然而,在仅需要滤波器参数的情形下,这种假设是充分的。另一方面,已确定线性卡尔曼滤波器可捕获在话音产生中观察到的基础交互特征,由此在吵杂条件下得出对干净输入的更好估计。当与CP分析和源建模结合时,例如对于语音处理应用,它可执行得更好。这种性质的方案中的误差关联于其参数估计误差并且不是生理/听觉误传的产物。因此,本文公开的语音改善方案基于线性卡尔曼滤波器,其结构在下表中“线性”标题下示出。状态xk对应于由声门源uk和环境噪声wk产生的干净语音输入(x不是对SPE的实际输入)。测得的信号yk被观察噪声vk恶化。如前所述,以前的卡尔曼方法为简便起见忽略周期性输入uk,从而得出白噪声激励的语音。然而,包括这种周期性输入和状态转变矩阵的CP表示提供对干净输入xk的更好估计并因此提供更好的语音识别性能。在下面的章节中,将对这里运用的卡尔曼滤波作更详细的讨论。在一些实施例中,基于卡尔曼滤波模型的方法用于语音改善。它假设干净的语音遵循由背景噪声线性恶化的特定表示。通过标准卡尔曼滤波,干净语音一般是使用自回归(AR)模型表示的,该AR模型通常将白高斯噪声作为输入。这以离散时间方程1表示。 x [ n ] = Σ k = 1 p α n x [ n - k ] + w [ n ] - - - ( 1 ) ]]>在x[n]是干净语音,αn是AR或线性预测编码(LPC)系数,w[n]是白噪声输入,而p是AR模型的阶数(通常假设其遵循经验规则p=fs/1000+2,其中fs是以kHz为单位的采样率)。可重写该模型以产生卡尔曼滤波器所需要的合需结构,如方程(2)和(3)所示。由此,xk+1=Φxk+Gwk    (2)yk=Hxk+vk        (3)其中xk+1和xk是包含将来和当前干净语音的p个样本的矢量,本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.06.30 US 12/828,1951.一种装置,包括:
具有第一和第二音频语音路径的语音处理引擎,所述第一路径被提供
给听觉接收器;以及
耦合至所述第二路径以接收音频语音信号并从中去除噪声的卡尔曼滤
波器,所述卡尔曼滤波器至少部分地基于包括发话者声门信息的发话者模
型去除所述噪声。
2.如权利要求1所述的装置,其特征在于,所述滤波器也基于结合环
境噪声信息的噪声模型来去除噪声。
3.如权利要求2所述的装置,其特征在于,所述环境噪声信息包括实
时信息。
4.如权利要求3所述的装置,其特征在于,所述实时信息包括来自一
个或多个噪声传感器的信息。
5.如权利要求1所述的装置,其特征在于,所述发话者模型结合对发
话者先前产生的经噪声去除的语音信号信息。
6.如权利要求1所述的装置,其特征在于,所述滤波器实现在前端部,
所述发话者模型实现在后端部,如果在所述音频语音信号中检测到语音,
则启用后端部。
7.如权利要求6所述的装置,其特征在于,所述语音处理引擎包括语
音识别引擎。
8.如权利要求7所述的装置,其特征在于,所述语音识别引擎是后端
部的一部分。

【专利技术属性】
技术研发人员:W·M·贝尔特曼M·赞纳图A·瑞丘德芮A·P·兰加拉杰M·E·戴舍尔
申请(专利权)人:英特尔公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1