使用波束形成的音频捕获制造技术

技术编号:21900546 阅读:34 留言:0更新日期:2019-08-17 19:40
一种音频捕获装置包括麦克风阵列(301)和波束形成器(303),所述波束形成器被布置为生成波束形成的音频输出信号和噪声参考信号。第一和第二变换器(309、311)分别根据波束形成的音频输出信号和噪声参考信号的频率变换来生成第一和第二频域信号。差异处理器(313)生成时间频率瓦片差异量度,其针对给定频率指示第一频域信号的时间频率瓦片值的范数(幅值)的单调函数与针对第一频率的所述第二频域信号的时间频率瓦片值的范数的单调函数之间的差异。估计器(315)响应于针对频率阈值以上的频率的时间频率瓦片差异量度的组合差异值,生成指示音频输出信号是否包括点音频源的估计。

Audio capture using beamforming

【技术实现步骤摘要】
【国外来华专利技术】使用波束形成的音频捕获
本专利技术涉及使用波束形成的音频捕获,并且特别地但非排他地涉及使用波束形成的语音捕获。
技术介绍
在过去几十年中,捕获音频,尤其是语音,已变得越来越重要。实际上,捕获语音对于包括电信、电话会议、游戏、音频用户接口等在内的各种应用已变得越来越重要。然而,在许多场景和应用中的问题是所需的语音源通常不是环境中的唯一音频源。相反,在典型的音频环境中,存在正在由麦克风捕获许多其他音频/噪声源。许多语音捕获应用程序面临的一个关键问题是如何在嘈杂的环境中最好地提取语音。为了解决这个问题,已经提出了许多不同的噪声抑制方法。实际上,例如免提语音通信系统中的研究是几十年来备受关注的话题。第一个商业系统专注于专业(视频)会议系统,其具有低背景噪音和短混响时间。发现用于识别和提取期望音频源(例如期望的发言者)的特别有利的方法是基于来自麦克风阵列的信号的波束形成的使用。最初,麦克风阵列通常与聚焦固定波束一起使用,但后来自适应波束的使用变得更加流行。在20世纪90年代后期,手机的免提系统开始引入。这些旨在用于许多不同的环境,包括混响房间和(较)高背景噪音水平。这种音频环境提供了显著更困难的挑战,并且特别是可能使形成的波束的调整变得复杂或劣化。最初,针对这样的环境的音频捕获研究主要关注回声消除,并且后来关注噪声抑制。基于波束形成的音频捕获系统的示例在图1中示出。在该示例中,多个麦克风101的阵列被耦合到波束形成器103,波束形成器103生成音频源信号z(n)和一个或多个噪声参考信号x(n)。在一些实施例中,麦克风阵列101可以仅包括两个麦克风,但通常包括更高的数量。波束形成器103可以具体地是自适应波束形成器,其中可以使用合适的自适应算法将一个波束指向语音源。例如,US7146012和US7602926公开了自适应波束形成器的示例,其关注于语音但是还提供包含(几乎)无语音的参考信号。波束形成器通过在前向匹配滤波器中对接收信号进行滤波并将经滤波的输出相加而通过将麦克风信号的所需部分相干地相加来创建增强的输出信号z(n)。此外,输出信号在后向自适应滤波器中被滤波,所述后向自适应滤波器具有针对前向滤波器的共轭滤波器响应(在频域中对应于时域中的时间反转脉冲响应)。误差信号被生成为输入信号与后向自适应滤波器的输出之间的差异,并且滤波器的系数适于使误差信号最小化,从而造成音频波束朝向主导信号被操纵。生成的误差信号x(n)可以被认为是噪声参考信号,其特别适合于对增强的输出信号z(n)执行额外的噪声降低。主信号z(n)和参考信号x(n)通常都被噪声污染。在两个信号中的噪声是相干的情况下(例如,当存在干扰点噪声源时),可以使用自适应滤波器105来减少相干噪声。为此目的,噪声参考信号x(n)被耦合到自适应滤波器105的输入,其中从音频源信号z(n)中减去输出以生成补偿信号r(n)。自适应滤波器105适于最小化补偿信号r(n)的功率,通常在期望音频源不活动时(例如,当没有语音时)并且这导致对相干噪声的抑制。经补偿的信号被馈送到后处理器107,后处理器107基于噪声参考信号x(n)对补偿信号r(n)执行降噪。具体地,后处理器107使用短时傅立叶变换将补偿信号r(n)和噪声参考信号x(n)变换到频率域。然后,对于每个频率分箱,通过减去X(ω)的幅值谱的缩放版本来修改R(ω)的幅值。将得到的复光谱被变换回时域,以产生噪声已被抑制的输出信号q(n)。这种谱减法技术首先在下文中描述:S.F.Boll,“SuppressionofAcousticNoiseinSpeechusingSpectralSubtraction,”IEEETrans.Acoustics,SpeechandSignalProcessing,第27卷,第113–120页,1979年4月。在WO2015139938A中描述了基于各个时间频率瓦片(tile)中的音频源信号和噪声参考信号的相对能量的噪声抑制的具体示例。在许多场景和应用中,期望能够检测由波束形成器捕获的信号中的点音频源的存在。例如,在语音控制系统中,可能希望仅在实际捕获发言者的时间期间尝试检测语音命令。作为另一示例,可能期望通过在不存在语音的时间期间测量捕获的信号来确定噪声估计。因此,针对波束形成器的可靠的点音频源检测器将是非常期望的。过去已经提出了各种点音频源检测算法,但是这些算法倾向于针对点音频源靠近麦克风阵列并且信噪比高的情况而开发。特别是,它们倾向于指向直接路径(可能还有早期反射)相对于后期反射、混响尾部以及实际来自其他源(包括漫反射背景噪声)的噪声占主导的场景。因此,这种点音频源检测方法在不满足这些假设的环境中往往是次优的,并且实际上倾向于为许多实际应用提供次优性能。实际上,一般音频捕获,特别是诸如语音增强(波束形成,去混响,噪声抑制)的过程,由于来自源的直接场的能量与反射语音和声学背景噪声的能量相比是小的,对于混响半径之外的源的难以令人满意地实现。在许多音频捕获系统中,可以应用独立地能够适配音频源的多个波束形成器。例如,为了在音频环境中跟踪两个不同的发言者,音频捕获装置可以包括两个独立的自适应波束形成器。实际上,尽管图1的系统是在许多场景中提供了非常有效的操作和有利的性能,但是其并不是在所有场景中都是最佳的。实际上,尽管许多传统系统,包括图1的示例,当所需音频源/发言者在麦克风阵列的混响半径内时,即对于所需音频源的直接能量(优选地显著地)强于所需音频源的反射能量的应用,提供非常好的性能,当不是这种情况时,其倾向于提供较不理想的结果。在典型的环境中,已经发现发言者通常应该在麦克风阵列的1-1.5米范围内。然而,强烈期望基于音频的免提解决方案、应用和系统,其中用户可能距离麦克风阵列更远。例如,这对于许多通信和许多语音控制系统和应用都是期望的。提供语音增强的系统包括针对这种情况的去混响和噪声抑制,在该领域中称为超级免提系统。更详细地说,当处理额外的漫射噪声和混响半径之外的期望的发言者时,可能会出现以下问题:·波束形成器可能经常具有在期望语音的回声和漫射背景噪声之间进行区分方面存在问题,从而导致语音失真。·自适应波束形成器可以朝向期望的发言者更慢地收敛。在自适应波束尚未收敛的时间期间,参考信号中将存在语音泄漏,导致在该参考信号用于非静态噪声抑制和消除的情况下的语音失真。当有更多所需的源前后交谈时,问题就会增加。处理较慢收敛的自适应滤波器(由于背景噪声)的一种解决方案是补充这一点,其中若干固定波束瞄准不同方向,如图2中所示。但是,这种方法特别针对以下场景开发:在混响半径内存在期望的音频源。其对于混响半径之外的音频源可能效率较低,并且在这种情况下可能经常导致非鲁棒的解决方案,尤其是在还存在声学漫射背景噪声的情况下。使用多个互通波束形成器来改善噪声和混响环境中非主导源的性能可以改善许多场景和系统中的性能。然而,在许多系统中,波束形成器之间的互通涉及检测点音频源是否存在于各个波束中。如前所述,这在许多实际系统中是一个非常具有挑战性的问题。例如,典型的现有技术检测基于各个波束形成器的输出信号的功率比较。然而,对于在混响半径之外和/或信噪比太低的源,这种方法通常是失败的。具体地,对于多波束形成系统,所提出本文档来自技高网...

【技术保护点】
1.一种音频捕获装置,包括:麦克风阵列(301);至少第一波束形成器(303),其被布置为生成波束形成的音频输出信号和至少一个噪声参考信号;第一变换器(309),其用于根据对所述波束形成的音频输出信号的频率变换来生成第一频域信号,所述第一频域信号由时间频率瓦片值表示;第二变换器(311),其用于根据所述至少一个噪声参考信号的频率变换来生成第二频域信号,所述第二频域信号由时间频率瓦片值表示;差异处理器(313),其被布置为生成时间频率瓦片差异量度,针对第一频率的时间频率瓦片差异量度指示针对所述第一频率的所述第一频域信号的时间频率瓦片值的范数的第一单调函数与针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数的第二单调函数之间的差异;点音频源估计器(315),其用于生成指示所述波束形成的音频输出信号是否包括点音频源的点音频源估计,所述点音频源估计器(315)被布置为响应于针对高于频率阈值的频率的时间频率瓦片差异量度的组合差异值而生成所点述音频源估计。

【技术特征摘要】
【国外来华专利技术】2017.01.03 EP 17150115.81.一种音频捕获装置,包括:麦克风阵列(301);至少第一波束形成器(303),其被布置为生成波束形成的音频输出信号和至少一个噪声参考信号;第一变换器(309),其用于根据对所述波束形成的音频输出信号的频率变换来生成第一频域信号,所述第一频域信号由时间频率瓦片值表示;第二变换器(311),其用于根据所述至少一个噪声参考信号的频率变换来生成第二频域信号,所述第二频域信号由时间频率瓦片值表示;差异处理器(313),其被布置为生成时间频率瓦片差异量度,针对第一频率的时间频率瓦片差异量度指示针对所述第一频率的所述第一频域信号的时间频率瓦片值的范数的第一单调函数与针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数的第二单调函数之间的差异;点音频源估计器(315),其用于生成指示所述波束形成的音频输出信号是否包括点音频源的点音频源估计,所述点音频源估计器(315)被布置为响应于针对高于频率阈值的频率的时间频率瓦片差异量度的组合差异值而生成所点述音频源估计。2.根据权利要求1所述的音频捕获装置,其中,所述点音频源估计器(315)被布置为响应于所述组合差异值超过阈值而检测所述波束形成的音频输出中的点音频源的存在。3.根据权利要求1所述的音频捕获装置,其中,所述频率阈值不低于500Hz。4.根据权利要求1所述的音频捕获装置,其中,所述差异处理器(313)被布置为生成噪声相干估计,所述噪声相干估计指示所述波束形成的音频输出信号的幅值与所述至少一个噪声参考信号的幅值之间的相关性;并且所述第一单调函数和所述第二单调函数中的至少一个取决于所述噪声相干估计。5.根据权利要求1所述的音频捕获装置,其中,所述差异处理器(313)被布置为响应于所述噪声相干估计而相对于针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数来缩放针对所述第一频率的所述第一频域信号的时间频率瓦片值的范数。6.根据权利要求1所述的音频捕获装置,其中,所述差异处理器(313)被布置为将针对时间tk在频率ωl的所述时间频率瓦片差异量度生成为基本如下:d=|Z(tk,ωl)|-γC(tk,ωl)|X(tk,ωl)|其中,Z(tk,ωl)是针对所述波束形成的音频输出信号在时间tk在频率ωl的所述时间频率瓦片值;X(tk,ωl)是针对所述至少一个噪声参考信号在时间tk在频率ωl的所述时间频率瓦片值;C(tk,ωl)是在时间tk在频率ωl的噪声相干估计;并且γ是设计参数。7.根据权利要求1所述的音频捕获装置,其中,所述差异处理器(313)被布置为对所述波束形成的音频输出信号的所述时间频率瓦片值和所述至少一个噪声参考信号的所述时间频率瓦片值中的至少一个进行滤波。8.根据权利要求6所述的音频捕获装置,其中,所述滤波在频率方向和时间方向两者上进行。9.根据权利要求1所述的音频捕获装置,包括多个波束形成器(705、709、711),所述多个波束形成器包括所述波束形成器(705);并且所述点音频源估计器(315)被布置为...

【专利技术属性】
技术研发人员:C·P·扬瑟P·克基基安
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1