当前位置: 首页 > 专利查询>微软公司专利>正文

头部安装的多-感觉音频输入系统技术方案

技术编号:3046465 阅读:203 留言:0更新日期:2012-04-11 18:40
本发明专利技术将常规的音频话筒与附加的语音传感器组合起来,语音传感器基于输入提供语音传感器信号。语音传感器信号是基于由说话者在讲话期间采取的动作诸如面部运动、骨振动、喉部阻抗变化等而产生的。语音检测器组件从语音传感器接收输入并输出语音检测信号,表示用户是否正在说话。语音检测器基于话筒信号和语音传感器信号产生语音检测信号。

【技术实现步骤摘要】

本专利技术涉及音频输入系统。更具体地说,本专利技术涉及在多-感觉变送器输入系统中的语音处理。
技术介绍
在许多不同的语音识别应用中,具有清晰和一致的音频输入是非常重要且可以是决定性的,音频输入代表着要提供给自动语音识别系统的语音。倾向于破坏给语音识别系统的音频输入的两类噪声是环境噪声和由背景语音产生的噪声。为了消除来自音频输入的环境噪声,现在已经在开发噪声消除技术方面进行了大量的工作。有些技术已经在音频处理软件中商业化,或者集成到数字话筒诸如通用串行总线(USB)话筒中。处理与背景语音有关的噪声是一个更难以解决问题。这可以在各种各样不同的噪声环境中发生。例如,当感兴趣的说话者在人群中或者在他人之间说话,常规的话筒经常拾取不同于感兴趣的说话者的说话者语音。实际上,在其它人正在讲话的任何环境中,由感兴趣的说话者产生的音频信号能受其他人讲话的危害。处理背景语音的一个现有的解决方案是在耳机线上或在听筒上提供开启/关闭开关。开启/关闭开关称为“推按讲话(push-to-talk)”按钮,并要求用户在说话之前推按该按钮。当用户推按按钮时,它产生一个按钮信号。按钮信号向语音识别系统表示,感兴趣的说话者正在说话,或者将要说话。不过,有些可用性研究显示这种类型的系统不令人满意或者不是用户所想要的。另外,已经在尝试将由话筒拾取的背景说话者与感兴趣的说话者(或前台话说者)分离开来方面进行了工作。这在清楚的办公室环境中工作得相当好,但已证明了在高度嘈杂的环境中不行。在另外一种现有技术中,将来自标准话筒的信号与来自喉式话筒的信号组合起来。喉式话筒间接地通过测量在说话过程中穿过喉咙的电气阻抗方面的变化来记录喉部的行为。将由喉式话筒产生的信号与常规的话筒组合起来,并生成模拟组合信号的频谱含量的模型。使用一种算法将嘈杂的、组合标准和喉式话筒信号特征映射成清楚的标准话筒特征。这是使用概率最优滤波器来估计的。然而,虽然喉式话筒彻底不受背景噪声的影响,但喉式话筒的频谱含量是十分有限的。因此,使用它来映射成清楚的估计的特征向量并不很准确。在Frankco等人的、由FL的Orlando的DARPA ROAR工作室出版(2001)的COMBINING HETEROGENEOUS SENSORS WITHSTANDARD MICROPHONES FOR NOISY ROBUST RECOGNITION(将不同种类的传感器与标准话筒结合起来用于噪声的稳固识别)更详细地描述了此技术。另外,戴喉式话筒给用户增加了不便。
技术实现思路
本专利技术将常规的音频话筒与提供基于附加输入的语音传感器信号的语音传感器组合起来。语音传感器信号是基于由说话者在讲话过程中采取的动作而产生的,诸如面部运动、骨振动、喉部阻抗变化等等。语音检测器组件从语音传感器接收输入并输出语音检测信号,表示用户是否正在说话。语音检测器基于话筒信号和语音传感器信号产生语音检测信号。在一个实施例中,将语音检测信号提供给语音识别引擎。语音识别引擎提供识别输出,它基于话筒信号和来自额外的语音传感器的语音检测信号,表示由来自音频话筒的话筒信号代表的语音。本专利技术还可以具体化为检测语音的方法。该方法包括产生表示关于音频话筒的音频输入的第一信号,产生表示由面部运动传感器检测到的用户的面部运动的第二信号,以及基于第一和第二信号检测用户是否正在说话。在一个实施例中,第二信号包括用户的脖子的振动或阻抗变化,或者用户的头骨或鄂部的振动。在另一个实施例中,第二信号包括表示用户嘴部运动的图象。在另一个实施例中,将温度传感器诸如热敏电阻放在呼吸气流中,诸如在挨着话筒的话筒支杆上,并根据温度的变化检测语音。附图说明图1是可以在其中使用本专利技术的一个实施例的方框图。图2是可以由其使用本专利技术的语音识别系统的方框图。图3是按照本专利技术的一个实施例的语音检测器系统的方框图。图4和5说明图3所示系统的一部分的两个不同实施例。图6是信号幅度相对于时间的曲线,对应于话筒信号和红外线传感器信号。图7例示常规话筒和语音传感器的一个实施例的实物图。图8示出骨敏感话筒连同常规的音频话筒的实物图。图9是信号幅度相对于时间的曲线图,分别对应于话筒信号和音频话筒信号。图10示出喉式话筒连同常规的音频话筒的实物图。图11示出耳内话筒连同近距离谈话话筒的实物图。具体实施例方式本专利技术涉及语音检测。更具体地说,本专利技术涉及多-感觉变送器输入的捕捉并基于所捕捉的多-感觉输入生成表示用户是否正在说话的输出信号。不过,在更详细地讨论本专利技术之前,讨论一个可以在其中使用本专利技术的环境的说明性例子。图1说明一个在其上可实现本专利技术的典型操作环境100。计算系统环境100只是适合的计算环境的一个例子,并且不是想要建议有关本专利技术的使用范围或功能的任何限制。也不应该将这个计算环境解释为具有与在示例性操作系统100中所示的组件的任何一个或组合有关的任何依赖性或要求。本专利技术可与众多的其它通用或专用计算系统环境或配置一起运行。众所周知的计算系统、环境和/或配置的例子包括,但不限于,个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计、大型计算机、包括任何上述系统或设备的分布式计算环境等等。可在由计算机可执行指令诸如由计算机执行的程序模块完成的的一般环境中描述本专利技术。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本专利技术也可在分布式计算环境中实施,在所述分布式计算环境中由通过通信网络连接的远程处理设备执行任务。在分布式计算环境中,程序模块可位于本地和远程两者的包括存储器设备在内的计算机存储介质中。参考图1,用于实现本专利技术的示例性系统包括计算机110形式的通用计算设备。计算机110的组件包括,但不限于,处理单元120,系统存储器130,以及将包括系统存储器在内的各种系统组件连接至处理单元120的系统总线121。系统总线121可能是任何几种类型总线结构包括存储器总线或存储控制器,外设总线,使用任何各种各样总线结构的局部总线。作为例子,但不限于,这样的结构包括工业标准结构(ISA)总线,微通道结构(MCA),增强ISA(EISA)总线,视频电子标准协会(VESA)局部总线,以及外部部件互连(PCI)总线,也被称为夹层(Mezzanine)总线。计算机110一般包括各种条样的计算机可读介质。计算机可读介质可以是能由计算机110访问的任何可用介质,并且包括易失性介质和非易失性介质两者,可移动和不可移动的介质。作为例子,但不限于,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于信息存储的任何方法或技术实现的易失性和非易失性两者,可移动和不可移动的介质,诸如计算机可读指令、数据结构、程序模块或其它数据。计算机存储介质包括,但不限于,RAM,ROM,EEPROM,闪存或者其它存储技术,CD-ROM,数字通用盘(DVD)或其它光盘存储器,磁带盒,磁带,磁盘存储器或者其它磁存储设备,或者能用于存储想要的信息以及能由计算机110访问的任何其它介质。通信介质一般包括在调制的数据信号诸如载波或者其它传输机制中的计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。术本文档来自技高网
...

【技术保护点】
一种语音识别系统,其特征在于,包括:音频话筒,基于检测到音频输入输出话筒信号;语音传感器,基于由语音动作产生的非音频输入输出传感器信号;以及语音检测器组件,基于传感器信号输出语音检测信号,表示用户是否正在说话。

【技术特征摘要】
US 2003-7-29 10/629,278;US 2003-8-7 10/636,1761.一种语音识别系统,其特征在于,包括音频话筒,基于检测到音频输入输出话筒信号;语音传感器,基于由语音动作产生的非音频输入输出传感器信号;以及语音检测器组件,基于传感器信号输出语音检测信号,表示用户是否正在说话。2.如权利要求1所述的语音检测系统,其特征在于,语音检测器组件基于传感器信号的第一特性和基于话筒信号输出语音检测信号。3.如权利要求2所述的语音检测信号,其特征在于,传感器信号的第一特性具有用户正在说话时的第一电平和用户不在说话时的第二电平,其中,语音检测器组件基于传感器信号的第一特性的电平相对于包括特性的第一和第二电平中的预定的一个的第一特性的基线电平,输出语音检测信号。4.如权利要求3所述的语音检测系统,其特征在于,基线电平是基于经过一段时间的第一特性的电平来计算的。5.如权利要求4所述的语音检测系统,其特征在于,基线电平是通过平均经过一段时间的第一特性的电平来计算的。6.如权利要求4所述的语音检测系统,其特征在于,基线电平是间歇地在语音检测系统的操作过程中重新计算的。7.如权利要求6所述的语音检测系统,其特征在于,基线电平是周期性地重新计算的,以代表经过一个循环的时间窗的第一特性的电平。8.如权利要求6所述的语音检测系统,其特征在于,语音检测器组件基于传感器信号的第一特性的电平与基线电平的比较,输出语音检测信号,其中,比较是周期性地进行的。9.如权利要求8所述的语音检测系统,其特征在于,比较是比重新计算基线电平更频繁地进行的。10.如权利要求1所述的语音检测系统,其特征在于,音频话筒和语音传感器安装在头戴式耳机上。11.一种语音识别系统,其特征在于,包括语音检测系统,包括音频话筒,基于检测到音频输入,输出话筒信号;语音传感器,基于由语音动作产生的非音频输入,输出传感器信号;以及语音检测器组件,基于话筒信号和传感器信号,输出语音检测信号,表示用户是否正在说话;以及语音识别引擎,基于话筒信号和语音检测信号,提供识别输出,表示在检测到的音频输入中的语音。12.如权利要求11所述的语音识别系统,其特征在于,语音检测器组件计算语音检测信号作为语音检测测量,表示用户正在说话的概率。13.如权利要求12所述的语音识别系统,其特征在于,语音检测器组件将语音检测测量与话筒信号组合起来以产生组合信号。14.如权利要求13所述的语音识别系统,其特征在于,语音识别引擎基于组合信号产生识别输出。15.如权利要求14所述的语音识别系统,其特征在于,语音检测测量包括用户正在说话的概率。16.如权利要求15所述的语音识别系统,其特征在于,组合信号包括概率与话筒信号的乘积。17.一种检测语音的方法,其特征在于,包括用音频话筒产生第一信号,表示音频输入;产生第二信号,...

【专利技术属性】
技术研发人员:黄学东刘自成张正友MJ辛克莱尔A阿塞罗
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利