语音辨识制造技术

技术编号:16935059 阅读:23 留言:0更新日期:2018-01-03 05:28
本申请公开一种光学麦克风布置,其包括:衬底(8)上的光学麦克风(4)的阵列,所述光学麦克风(4)中的每一个提供指示由于传入可听声音引起的相应薄膜(24)的位移的信号;第一处理器(12),其被布置成从所述光学麦克风(4)接收所述信号且对所述信号执行第一处理步骤以产生第一输出;以及第二处理器(14),其被布置成接收所述信号或所述第一输出中的至少一个;其中至少所述第二处理器(14)从所述可听声音确定人类语音的至少一个元素的存在。

Speech recognition

The invention discloses an optical microphone arrangement, comprising: a substrate (8) on the optical microphone (4) of the array, the optical microphone (4) provided in each indicator film due to the corresponding incoming audible sound caused by the displacement signal (24); the first processor (12), which is arranged from the optical microphone (4) receives the signal and the signal processing steps performed first to generate a first output; and a second processor (14), which is arranged to receive the signal or the first output of at least one; wherein at least the second processor (14) determines at least one element of human speech from the audible sounds.

【技术实现步骤摘要】
【国外来华专利技术】语音辨识
本专利技术涉及用于语音辨识的某些布置。
技术介绍
用于机器理解自然人类语音的能力是长期目标。近年来已经做出较大的进步,但这仍然是困难的且计算上密集的任务。确切地说,虽然移动装置上的语音辨识助理的使用已增加,但这些通常需要远程实行处理;当前使用大多数移动装置上本地可用的处理能力可能只能实行最基本形式的语音辨识。增加语音辨识问题的复杂性的一个因素是背景噪声。典型移动装置中使用的麦克风是相对全向的,且因此将对来自所有方向的声音敏感(即使不均匀)。所述麦克风因此往往拾取背景声音(将常常包含来自他人的语音)以及需要理解的语音。虽然可使用多个麦克风实现较好性能,但是这带来在装置中容纳额外硬件的实际问题。然而常规小型电容式麦克风受到它们经受的固有‘自’噪声量的限制。电容式麦克风是基于电容改变的测量。物理约束(例如薄膜在高声学压力下的最大位移)使得电容的两个板(板中的一个是麦克风薄膜,另一个是位于所述薄膜下方的参考电极)之间必须具有某一距离。这暗示电容是极低的,换句话说输出阻抗是高的。为了不使此电容短路,相关联前置放大器的输入阻抗必须同等地高。高阻抗将产生高自噪声。较大薄膜将带来较高信号电平和较高电容,且因此带来较好的信噪比(SNR)而非电平,而较小面积将带来较低SNR。
技术实现思路
本专利技术在其若干方面中希望提供在至少一些环境中有益于解决人工语音辨识面临的挑战的布置。当从第一方面来看时,本专利技术提供一种光学麦克风布置,其包括:衬底上的光学麦克风的阵列,所述光学麦克风中的每一个提供指示由于传入可听声音引起的相应薄膜的位移的信号;第一处理器,其被布置成从所述光学麦克风接收所述信号且对所述信号执行第一处理步骤以产生第一输出;以及第二处理器,其被布置成接收所述信号或所述第一输出中的至少一个;其中至少所述第二处理器从所述可听声音确定人类语音的至少一个元素的存在。因此所属领域的技术人员将见到,根据本专利技术,一起使用若干特征以提供至少在优选实施例中已发现能提供用于语音辨识的有利布置的事物。首先将了解,提出一种光学麦克风的阵列。虽然光学麦克风本身是已知的,但本申请人已了解,当它们在阵列中使用以用于语音辨识目的时且当两个单独处理器用于处理从其接收的信号时可以实现益处。更确切地说,申请人已经了解,光学麦克风具有较低的固有噪声或‘自’噪声,此外它们可被制造为具有小面积。关键是尺寸与固有噪声之间不存在强负相关。相比之下在例如常规MEMS电容式麦克风等其它类型的麦克风中,麦克风的灵敏度取决于薄膜的大小。这意味着在常规MEM麦克风变小时,存在信噪比的减少。申请人认识到可以在语音处理应用中通过以紧密间隔的阵列提供光学麦克风来利用光学麦克风的低自噪声特性和小尺寸。具体来说已了解,在自噪声底限足够低(以光学麦克风可实现)的情况下,可以从由麦克风的‘过取样’阵列接收的传入信号提取额外信息。此短语用以表示其中元件之间的间距小于所关注信号的二分之一波长的阵列。常规取样理论将指示低于此二分之一波长阈值的间距是不必要的,因为其将不会带来额外益处。然而如在下文将表明,申请人已发现实际上可以实现益处,因为阵列可用以在多个不同方向上‘监听’以产生若干候选者,可以对所述候选者实行语音辨识算法以确立哪一候选者给出最有利的结果。另外或替代地,可以基于关于影响声速的环境条件(例如压力、温度和湿度)的不同假设而实行单独候选者计算。具有紧密间隔的阵列在总体物理大小方面提供进一步优点。这意味着例如从阵列可实现的高级性能可以在广泛范围的装置中实施,使得有可能在具有小形状因数的装置(例如智能电话或智能手表)中或更谨慎地在较大装置(例如膝上型计算机)中实施所述阵列,而不会具有围绕装置隔开的许多侵入性孔口,例如最新一代MacBook(注册商标)计算机中已采用的那样。所陈述的多处理器方法允许通过单独处理器实行此计算上密集的任务的大部分,这可能不是一直需要的。所述处理器可以例如远离实际麦克风阵列,例如在远程服务器上。替代地,所述处理器可以是作为装置自身的部分的更有力的中央处理单元(CPU)。语音辨识处理具体来说适合于此方法,因为其不需要瞬时实时结果,这允许至少部分串行地实行候选者的处理。如上所提到,在优选实施例中,光学麦克风的阵列是紧密间隔的。这可以表达为绝对尺寸。因此在一组实施例中,光学麦克风布置在小于5mm的相互间距处。这本身是新颖且创造性的,且因此当从第二方面来看时,本专利技术提供一种光学麦克风布置,其包括:衬底上的光学麦克风的阵列,所述光学麦克风具有小于5mm的相互最接近间距,所述光学麦克风中的每一个提供指示由于传入可听声音引起的相应薄膜的位移的信号;一个或多个处理器,其被布置成从所述光学麦克风接收所述信号且从所述可听声音确定人类语音的至少一个元素的存在。所述间距可以小于5mm,例如小于2mm,例如小于1mm,例如小于0.5mm。如先前所解释,是光学麦克风的低噪声特性准许在比常规麦克风更小的物理区域上提供包括给定数目元件的阵列,并且因此带来了上文所提到的过取样的可能性。阵列的间距的重要性还关联于正用以接收的信号的波长,且因此本专利技术延伸到从传入可听声音确定语音的至少一个元素的存在的方法,所述可听声音具有其在波长带内的至少一部分,所述方法包括:使用根据本专利技术的第一或第二方面中的任一方面的光学麦克风的阵列接收所述可听声音,所述麦克风具有小于所述波长带的最长波长的二分之一的相互间距;以及处理来自所述麦克风的信号以检测语音的所述元素。这本身也是新颖且创造性的,并且因此当从第三方面来看时本专利技术提供从传入可听声音确定语音的至少一个元素的存在的方法,所述可听声音具有其在波长带内的至少一部分,所述方法包括:使用衬底上的光学麦克风的阵列接收所述可听声音,所述麦克风具有小于所述波长带的最长波长的二分之一的相互间距,所述光学麦克风中的每一个提供指示由于所述可听声音带来的相应薄膜的位移的信号;以及处理来自所述麦克风的信号以检测语音的所述元素。所述麦克风可以具有小于所述波长带的中值波长的二分之一的相互间距,例如小于所述波长带的最短波长的二分之一。在一组实施例中,上文陈述的方法包括处理来自麦克风的信号以便优先使用从给定方向或方向范围接收的所述可听声音的一部分。这允许声音的空间分离以便带来隔离说话者的机会。这可以根据本专利技术的一组实施例通过使用来自多个方向的声音且基于所述方向中给出最佳结果的一个方向而选择所述一个方向来实现。因此在一组实施例中,所述第一和/或第二处理器被布置成对所述信号执行多个处理操作,其中所述处理操作对应于所述信号从相应多个方向放射以给出多个候选者确定的多个假设;以及随后基于选择准则而选择所述候选者假设中的一个。上文所论述的处理的分离可以若干不同方式中的任一种来实施。在一组实施例中,所述第一处理器被布置成从所述可听声音确定人类语音的至少一个元素的存在,且如果确定所述元素存在,那么发出唤醒信号以致使所述第二处理器从相对被动模式改变为较主动模式。通过仅当用户说话时使用第一处理器唤醒第二处理器,可以实现高度的功率效率。第一处理器可以是较低功率处理器,因为可能仅需要辨识语音的一个或几个基本元素。这可以是特定‘唤醒’词或声音或甚至更基本的准则,例如特定频率或频率带中的特定能量。第一处理器因此可以更频本文档来自技高网...
语音辨识

【技术保护点】
一种光学麦克风布置,其包括:衬底上的光学麦克风的阵列,所述光学麦克风中的每一个提供指示由于传入可听声音引起的相应薄膜的位移的信号;第一处理器,其被布置成从所述光学麦克风接收所述信号且对所述信号执行第一处理步骤以产生第一输出;以及第二处理器,其被布置成接收所述信号或所述第一输出中的至少一个;其中至少所述第二处理器从所述可听声音确定人类语音的至少一个元素的存在。

【技术特征摘要】
【国外来华专利技术】2015.04.09 GB 1506046.01.一种光学麦克风布置,其包括:衬底上的光学麦克风的阵列,所述光学麦克风中的每一个提供指示由于传入可听声音引起的相应薄膜的位移的信号;第一处理器,其被布置成从所述光学麦克风接收所述信号且对所述信号执行第一处理步骤以产生第一输出;以及第二处理器,其被布置成接收所述信号或所述第一输出中的至少一个;其中至少所述第二处理器从所述可听声音确定人类语音的至少一个元素的存在。2.根据权利要求1所述的光学麦克风布置,其中所述光学麦克风布置于小于5mm的相互间距处。3.根据权利要求1或2所述的光学麦克风布置,其中所述第一和第二处理器中的至少一个被布置成:对所述信号执行多个处理操作,其中所述处理操作对应于所述信号从相应多个方向放射而给出多个候选者确定的多个假设;以及随后基于选择准则而选择所述候选者假设中的一个。4.根据权利要求1或2所述的光学麦克风布置,其中所述第一处理器被布置成从所述可听声音确定人类语音的至少一个元素的存在,且如果确定所述元素存在,那么发出唤醒信号以致使所述第二处理器从相对被动模式改变为较主动模式。5.根据任一前述权利要求所述的光学麦克风布置,其中所述第一处理器和所述光学麦克风阵列提供于共同装置中。6.根据任一前述权利要求所述的光学麦克风布置,其中所述第二处理器远离其中提供所述光学麦克风阵列的一装置或所述装置而提供。7.根据任一前述权利要求所述的光学麦克风布置,其中所述第一处理器被布置成实行初始信号处理以辅助所述第二处理器中的语音辨识。8.根据权利要求1到6中任一权利要求所述的光学麦克风布置,其中所述第一处理器被布置成对所述信号实行波束成形,且所述第二处理器被布置成实行语音辨识。9.根据任一前述权利要求所述的光学麦克风布置,其中所述第二处理器被布置成至少使用基频以及作为所述基频的整数倍数的泛音频率从所述可听声音确定人类语音的至少一个元素的存在。10.根据权利要求9所述的光学麦克风布置,其被布置成使用多个泛音。11.根据权利要求9或10所述的光学麦克风布置,其中所述光学麦克风具有小于所述基频的二分之一波长的相互间距。12.根据权利要求9、10或11所述的光学麦克风布置,其被布置成在所述泛音的频率实行波束成形。13.根据权利要求12所述的光学麦克风布置,其中所述波束成形由所述第一处理器实行。14.一种光学麦克风布置,其包括:衬底上的光学麦克风的阵列,所述光学麦克风具有小于5mm的相互最接近间距,所述光学麦克风中的每一个提供指示由于传入可听声音引起的相应薄膜的位移的信号;一个或多个处理器,其被布置成从所述光学麦克风接收所述信号且从所述可听声音确定人类语音...

【专利技术属性】
技术研发人员:托拜厄斯·达尔马修·拉科勒
申请(专利权)人:挪威科技工业研究院TTO股份公司
类型:发明
国别省市:挪威,NO

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1