使用波束形成的音频捕获的方法和装置制造方法及图纸

技术编号:21900547 阅读:25 留言:0更新日期:2019-08-17 19:40
一种用于捕获音频的装置包括第一波束形成器(305),所述第一波束形成器耦合到麦克风阵列(301)并且被布置为生成第一波束形成的音频输出。多个约束波束形成器(309、311)各自产生约束波束形成的音频输出。第一适配器(307)调整第一波束形成器(305)的波束形成参数,第二适配器(313)调整多个约束波束形成器(309、311)的约束波束形成参数。差异处理器(317)确定约束波束形成器(309、311)的差异量度,其中,差异量度指示由第一波束形成器(305)和约束波束形成器(309、311)形成的波束之间的差异。所述适配器(313)被布置为利用约束来调整约束波束形成参数,所述约束是波束形成参数仅针对所述多个约束波束形成器(309、311)中的如下的约束波束形成器进行调整:针对所述约束波束形成器已经确定差异量度满足相似性准则。

Method and Device of Audio Capture Using Beamforming

【技术实现步骤摘要】
【国外来华专利技术】使用波束形成的音频捕获的方法和装置
本专利技术涉及使用波束形成的音频捕获,并且特别地但非排他地涉及使用波束形成的语音捕获。
技术介绍
在过去几十年中,捕获音频,尤其是语音,已变得越来越重要。实际上,捕获语音对于包括电信、电话会议、游戏、音频用户接口等在内的各种应用已变得越来越重要。然而,在许多场景和应用中的问题是所需的语音源通常不是环境中的唯一音频源。相反,在典型的音频环境中,存在正在由麦克风捕获许多其他音频/噪声源。许多语音捕获应用程序面临的一个关键问题是如何在嘈杂的环境中最好地提取语音。为了解决这个问题,已经提出了许多不同的噪声抑制方法。实际上,例如免提语音通信系统中的研究是几十年来备受关注的话题。第一个商业系统专注于专业(视频)会议系统,其具有低背景噪音和短混响时间。发现用于识别和提取期望音频源(例如期望的发言者)的特别有利的方法是基于来自麦克风阵列的信号的波束形成的使用。最初,麦克风阵列通常与聚焦固定波束一起使用,但后来自适应波束的使用变得更加流行。在20世纪90年代后期,手机的免提系统开始引入。这些旨在用于许多不同的环境,包括混响房间和(较)高背景噪音水平。这种音频环境提供了显著更困难的挑战,并且特别是可能使形成的波束的调整变得复杂或劣化。最初,针对这样的环境的音频捕获研究主要关注回声消除,并且后来关注噪声抑制。基于波束形成的音频捕获系统的示例在图1中示出。在该示例中,多个麦克风101的阵列被耦合到波束形成器103,波束形成器103生成音频源信号z(n)和一个或多个噪声参考信号x(n)。在一些实施例中,麦克风阵列101可以仅包括两个麦克风,但通常包括更高的数量。波束形成器103可以具体地是自适应波束形成器,其中可以使用合适的自适应算法将一个波束指向语音源。例如,US7146012和US7602926公开了自适应波束形成器的示例,其关注于语音但是还提供包含(几乎)无语音的参考信号。替代地,US2014/278394公开了一种可以根据包括语音识别结果的各种参数来控制和修改的波束。用于控制和修改波束的参数都是基于波束的输出信号或从波束的输出信号导出的。波束形成器通过在前向匹配滤波器中对接收信号进行滤波并将经滤波的输出相加而通过将麦克风信号的所需部分相干地相加来创建增强的输出信号z(n)。此外,输出信号在后向自适应滤波器中被滤波,所述后向自适应滤波器具有针对前向滤波器的共轭滤波器响应(在频域中对应于时域中的时间反转脉冲响应)。误差信号被生成为输入信号与后向自适应滤波器的输出之间的差异,并且滤波器的系数适于使误差信号最小化,从而造成音频波束朝向主导信号被操纵。生成的误差信号x(n)可以被认为是噪声参考信号,其特别适合于对增强的输出信号z(n)执行额外的噪声降低。主信号z(n)和参考信号x(n)通常都被噪声污染。在两个信号中的噪声是相干的情况下(例如,当存在干扰点噪声源时),可以使用自适应滤波器105来减少相干噪声。为此目的,噪声参考信号x(n)被耦合到自适应滤波器105的输入,其中从音频源信号z(n)中减去输出以生成补偿信号r(n)。自适应滤波器105适于最小化补偿信号r(n)的功率,通常在期望音频源不活动时(例如,当没有语音时)并且这导致对相干噪声的抑制。经补偿的信号被馈送到后处理器107,后处理器107基于噪声参考信号x(n)对补偿信号r(n)执行降噪。具体地,后处理器107使用短时傅立叶变换将补偿信号r(n)和噪声参考信号x(n)变换到频率域。然后,对于每个频率分箱,通过减去X(ω)的幅值谱的缩放版本来修改R(ω)的幅值。将得到的复光谱被变换回时域,以产生噪声已被抑制的输出信号q(n)。这种谱减法技术首先在下文中描述:S.F.Boll,“SuppressionofAcousticNoiseinSpeechusingSpectralSubtraction,”IEEETrans.Acoustics,SpeechandSignalProcessing,第27卷,第113–120页,1979年4月。尽管图1的系统是在许多场景中提供了非常有效的操作和有利的性能,但是其并不是在所有场景中都是最佳的。实际上,尽管许多传统系统,包括图1的示例,当所需音频源/发言者在麦克风阵列的混响半径内时,即对于所需音频源的直接能量(优选地显著地)强于所需音频源的反射能量的应用,提供非常好的性能,当不是这种情况时,其倾向于提供较不理想的结果。在典型的环境中,已经发现发言者通常应该在麦克风阵列的1-1.5米范围内。然而,强烈期望基于音频的免提解决方案、应用和系统,其中用户可能距离麦克风阵列更远。例如,这对于许多通信和许多语音控制系统和应用都是期望的。提供语音增强的系统包括针对这种情况的去混响和噪声抑制,在该领域中称为超级免提系统。更详细地说,当处理额外的漫射噪声和混响半径之外的期望的发言者时,可能会出现以下问题:·波束形成器可能经常具有在期望语音的回声和漫射背景噪声之间进行区分方面存在问题,从而导致语音失真。·自适应波束形成器可以朝向期望的发言者更慢地收敛。在自适应波束尚未收敛的时间期间,参考信号中将存在语音泄漏,导致在该参考信号用于非静态噪声抑制和消除的情况下的语音失真。当有更多所需的源前后交谈时,问题就会增加。处理较慢收敛的自适应滤波器(由于背景噪声)的一种解决方案是补充这一点,其中若干固定波束瞄准不同方向,如图2中所示。但是,这种方法特别针对以下场景开发:在混响半径内存在期望的音频源。其对于混响半径之外的音频源可能效率较低,并且在这种情况下可能经常导致非鲁棒的解决方案,尤其是在还存在声学漫射背景噪声的情况下。这可以如下地理解:在所需音频源在混响半径之外的情况下,与由反射产生的漫射声场的能量相比,直接声场的能量较小。如果还存在漫射背景噪声,则直接声场对漫散声场比率将进一步降低。不同波束的能量将大致相同,并且因此这不能提供用于控制波束形成器的合适参数。出于同样的原因,基于测量到达方向(DoA)的系统将不鲁棒:由于直接场的低能量,信号的互相关不会给出明显的区分峰并且将导致大的误差。使检测器更鲁棒将经常导致不检测到导致非聚焦波束的所需音频源。典型的结果是噪声参考中的语音泄漏,并且如果试图基于噪声参考信号来降低主信号中的噪声,则将发生严重的失真。因此,一种改进的音频捕获方法将是有利的,并且特别是一种允许降低复杂性、增加灵活性、便于实现、降低成本、改进音频捕获、改进适合于在混响半径之外捕获音频的适合性、降低噪声灵敏度、改进语音捕获、和/或改进的性能的方法将是有利的。
技术实现思路
因此,本专利技术寻求单独地或以任何组合来优选地减弱、减轻或消除一个或多个上述缺点。根据本专利技术的一个方面,提供了一种用于捕获音频的装置,所述装置包括:麦克风阵列;第一波束形成器,其被耦合到所述麦克风阵列并且被布置为生成第一波束形成的音频输出;多个约束波束形成器,其被耦合到所述麦克风阵列,并且每个约束波束形成器被布置为生成约束波束形成的音频输出;第一适配器,其用于调整所述第一波束形成器的波束形成参数;第二适配器,其用于调整针对所述多个约束波束形成器的约束波束形成参数;差异处理器,其用于确定针对所述多个约束波束形成器中的至少一个的差异量度,所述差异量度指示由所述本文档来自技高网
...

【技术保护点】
1.一种用于捕获音频的装置,所述装置包括:麦克风阵列(301);第一波束形成器(305),其被耦合到所述麦克风阵列(301)并且被布置为生成第一波束形成的音频输出;多个约束波束形成器(309、311),其被耦合到所述麦克风阵列(301),并且每个约束波束形成器被布置为生成约束波束形成的音频输出;第一适配器(307),其用于调整所述第一波束形成器(305)的波束形成参数;第二适配器(313),其用于调整针对所述多个约束波束形成器(309、311)的约束波束形成参数;差异处理器(317),其用于确定针对所述多个约束波束形成器(309、311)中的至少一个的差异量度,所述差异量度指示由所述第一波束形成器(305)形成的波束与由所述多个约束波束形成器(309、311)中的所述至少一个形成的波束之间的差异;其中,所述第二适配器(313)被布置为利用约束来调整约束波束形成参数,所述约束是约束波束形成参数仅针对所述多个约束波束形成器(309、311)中的如下的约束波束形成器进行调整:针对所述约束波束形成器,已经确定差异量度满足相似性准则,并且其中,所述差异处理器(317)被布置为将针对第一约束波束形成器(309)的所述差异量度确定为针对所述第一约束波束形成器(309)的参数的第一集合与参数的约束集合之间的差异。...

【技术特征摘要】
【国外来华专利技术】2017.01.03 EP 17150098.61.一种用于捕获音频的装置,所述装置包括:麦克风阵列(301);第一波束形成器(305),其被耦合到所述麦克风阵列(301)并且被布置为生成第一波束形成的音频输出;多个约束波束形成器(309、311),其被耦合到所述麦克风阵列(301),并且每个约束波束形成器被布置为生成约束波束形成的音频输出;第一适配器(307),其用于调整所述第一波束形成器(305)的波束形成参数;第二适配器(313),其用于调整针对所述多个约束波束形成器(309、311)的约束波束形成参数;差异处理器(317),其用于确定针对所述多个约束波束形成器(309、311)中的至少一个的差异量度,所述差异量度指示由所述第一波束形成器(305)形成的波束与由所述多个约束波束形成器(309、311)中的所述至少一个形成的波束之间的差异;其中,所述第二适配器(313)被布置为利用约束来调整约束波束形成参数,所述约束是约束波束形成参数仅针对所述多个约束波束形成器(309、311)中的如下的约束波束形成器进行调整:针对所述约束波束形成器,已经确定差异量度满足相似性准则,并且其中,所述差异处理器(317)被布置为将针对第一约束波束形成器(309)的所述差异量度确定为针对所述第一约束波束形成器(309)的参数的第一集合与参数的约束集合之间的差异。2.根据权利要求1所述的装置,还包括音频源检测器(401),所述音频源检测器用于检测第二波束形成的音频输出中的点音频源;并且其中,所述第二适配器(313)被布置为仅针对如下的约束波束形成器调整约束波束形成参数:针对所述约束波束形成器,在所述约束波束形成的音频输出中检测到存在点音频源。3.根据权利要求2所述的装置,其中,所述音频源检测器(401)还被布置为检测所述第一波束形成的音频输出中的点音频源;并且所述装置还包括控制器(501),所述控制器被布置为:如果在所述第一波束形成的音频输出中检测到点音频源但未在任何约束波束形成的音频输出中检测到,则响应于所述第一波束形成器(305)的波束形成参数而设置针对第一约束波束形成器(309)的约束波束形成参数。4.根据权利要求3所述的装置,其中,所述控制器(501)被布置为:仅在针对所述第一约束波束形成器(309)的差异量度超过阈值时,才响应于所述第一波束形成器(305)的所述波束形成参数而设置针对所述第一约束波束形成器(309)的所述约束波束形成参数。5.根据权利要求2、3或4所述的装置,其中,所述音频源检测器(401)还被布置为检测所述第一波束形成的音频输出中的音频源;并且所述装置还包括控制器(501),所述控制器被布置为:如果在所述第一波束形成的音频输出中检测到点音频源并且在来自第一约束波束形成器(309)的第二波束形成的音频输出中检测到点音频源并且已经针对所述第一约束波束形成器(309)确定了差异量度超过阈值,则响应于所述第一波束形成器(305)的所述波束形成参数而设置针对所述第一约束波束形成器(309)的约束波束形成参数。6.根据权利要求5所述的装置,其中,所述多个约束波束形成器(309、311)是从约束波束形成器的池中选择的约束波束形成器的活动子集,并且所述控制器(401)被布置为通过使用所述第一波束形成器(305)的所述波束形成参数来对来自所述约束波束形成器的池中的约束波束形成器进行初始化来增加多个活动约束波束形成器以包括所述第一约束波束形成器(309)。7.根据任一前述权利要求所述的装置,其中,所述第二适配器(313)还被布置为仅在满足包括从以下组中选择的至少一个要求的准则时才针对第一约束波束形成器(309)调整所述约束波束形成参数:-要求来自所述第一约束波束形成器(309)的所述第二波束形成的音频输出的水平高于任何其他第二波束形成的音频输出的水平;-要求来自所述第一约束波束形成器(309)的所述第二波束...

【专利技术属性】
技术研发人员:C·P·扬瑟B·B·A·J·布卢蒙达尔P·克基基安R·J·M·扬森
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1