在存在强噪声干扰的情况下的鲁棒的扬声器定位系统和方法技术方案

技术编号:31479371 阅读:18 留言:0更新日期:2021-12-18 12:12
用于改进音频信号处理的系统和方法包括:多个音频输入部件,其配置为生成多个音频输入信号;以及逻辑设备,其配置为接收多个音频输入信号、确定多个音频信号是否包括与音频源相关联的目标音频、基于多个音频信号和多个音频信号是否包括目标音频的确定来估计音频源相对于多个音频输入部件的相对位置、以及通过基于估计的相对位置增强目标音频来处理多个音频信号以生成音频输出信号。逻辑设备还被配置为使用基于相对传递的协方差来构建跨频带对齐的方向协方差矩阵,并找到使在无失真标准的条件下的波束功率最小化的方向。条件下的波束功率最小化的方向。条件下的波束功率最小化的方向。

【技术实现步骤摘要】
在存在强噪声干扰的情况下的鲁棒的扬声器定位系统和方法


[0001]根据一个或多个实施例,本公开一般涉及音频信号处理,并且更特别地例如涉及用于在存在强噪声干扰的情况下进行鲁棒的扬声器定位的系统和方法。

技术介绍

[0002]近年来,智能扬声器和其他语音控制的设备和器具已经获得普及。智能扬声器通常包括用于从环境接收音频输入(例如,用户的口头命令)的麦克风阵列。当在音频输入中检测到目标音频(例如,口头命令)时,智能扬声器可以将检测到的目标音频转化成一个或多个命令并基于该命令执行不同的任务。这些智能扬声器的一项挑战是高效且有效地将目标音频(例如,口头命令)与操作环境中的噪音隔离。在目标音频可能来自相对于麦克风的任何方向的有噪声环境中,挑战被加重。
[0003]鉴于前述内容,存在对用于处理在有噪声环境中接收的音频信号的改进的系统和方法的需要。

技术实现思路

[0004]本公开提供了改进有噪声环境中的音频信号处理的系统和方法。本文中公开了系统和方法的各种实施例,并且包括:多个音频输入部件,其配置为生成多个音频输入信号;以及逻辑设备,其配置为接收多个音频输入信号、确定多个音频信号是否包括与音频源相关联的目标音频、基于多个音频信号和多个音频信号是否包括目标音频的确定来估计音频源相对于多个音频输入部件的相对位置、以及通过基于估计的相对位置增强目标音频来处理多个音频信号以生成音频输出信号。逻辑设备还被配置为使用基于相对传递的协方差来构建跨频带对齐的方向协方差矩阵,并找到使在无失真标准的条件下的波束功率最小化的方向
[0005]本公开的范围由权利要求限定,该权利要求通过引用并入本部分中。通过考虑以下一个或多个实施例的详细描述,本领域技术人员将被给予对本公开的实施例的更完整的理解以及其附加优点的实现。将参考将首先简要描述的附图的附页。
附图说明
[0006]参考以下附图和随后的详细描述,可以更好地理解本公开的各方面及其优点。应当理解的是,相似的参考标号用于标识一个或多个附图中所图示的相似元件,其中附图中的示出是出于说明本公开的实施例的目的而不是出于限制本公开的实施例的目的。附图中的部件不一定按比例,而是将重点放在清楚地说明本公开的原理上。
[0007]图1图示了根据本公开的一个或多个实施例的音频处理设备的示例操作环境。
[0008]图2是根据本公开的一个或多个实施例的示例音频处理设备的框图。
[0009]图3是根据本公开的一个或多个实施例的示例音频信号处理器的框图。
[0010]图4图示了根据一个或多个实施例的在存在强噪声干扰的情况下提供鲁棒的扬声
器定位的示例系统架构。
[0011]图5是图示根据本公开的一个或多个实施例的用于执行实时音频信号处理的示例过程的流程图。
具体实施方式
[0012]本文中公开了用于在有噪声环境中检测和增强目标音频的系统和方法。
[0013]在各种实施例中,具有多个麦克风的麦克风阵列感测操作环境中的目标音频和噪声并且为每个麦克风生成音频信号。使用麦克风阵列的以到达时间差(TDOA)或到达方向(DOA)形式的扬声器定位是利用应用进行远场语音处理中的公知问题,该应用包括其中在诸如监视、人机交互、相机操纵等中估计扬声器相对于阵列的物理方位是感兴趣的应用,以及其中估计和跟踪(一个或多个)扬声器的位置信息导致(一个或多个)语音活动检测器(VAD)的应用,所述(一个或多个)语音活动检测器(VAD)可以监督诸如波束成形或盲源分离(BSS)之类的方法中的扬声器增强以及降噪任务。
[0014]在本公开中,描述了当较强的主要噪声/干扰源(例如,大声的电视噪声)始终存在时鲁棒地估计一个或多个并存扬声器的TDOA/DOA的系统和方法。在一些实施例中,系统通过采用广义特征值(GEV)波束成形器的一些特征来工作,其为目标扬声器的独特空间指纹或相对传递函数(RTF)的估计创造条件。通过有效地将主要噪声源置零来估计目标RTF。通过应用使用RTF作为输入的修改的TDOA/DOA估计方法,本文中描述的系统可以获得目标扬声器的鲁棒的定位估计。如果多个目标扬声器在存在较强噪声源(例如,比目标扬声器更强的噪声源)的情况下是激活的,则利用适当的调谐,可以间歇地估计每个源的RTF并将其馈送到多源跟踪器,从而分别导致可以驱动多流语音增强系统的每个源的鲁棒的VAD。
[0015]本公开提供了优于常规系统和方法的许多优点。TDOA/DOA方法通常通过以下方式操作:采用从麦克风阵列获得的原始输入的空间相关矩阵,然后扫描所有可能的方向/延迟以形成伪似然,其中其(一个或多个)峰值对应于(一个或多个)源的TDOA/DOA。这些方法在存在单个源时是合适的,或者如果存在多个源,则其功率大致处于同一水平。然而,在当目标扬声器在存在较强的噪声或干扰源的情况下被遮盖时的情况下,例如,当信噪比(SNR)为负时,这种方法会失败,因为与较弱的目标音色(speech)对应的峰值相对于与较强噪声源对应的峰值没有被很好地区分或完全消失。在各种实施例中,这里提出的方法使用修改的TDOA/DOA估计方法,该方法使用估计的目标RTF作为输入,而不是麦克风阵列原始信号的空间相关矩阵。由于通过有效地将主要噪声源置零来估计RTF,其包含比有噪声的原始麦克风阵列相关矩阵少的目标音色的失真空间信息,因此,可以获得目标扬声器的改进的定位估计。
[0016]本公开可以与结合广义特征向量跟踪的波束成形技术一起使用以增强接收的音频信号中的目标音频。在一个或多个实施例中,多通道音频输入信号是通过音频传感器(例如,麦克风)阵列接收的。分析每个音频通道以确定是否存在目标音频,例如,确定目标人是否正在主动讲话。系统跟踪目标和噪声信号以确定目标音频源(例如,目标人)相对于麦克风阵列的位置。可以使用改进的广义特征向量过程来实时确定目标音频的方向。确定的方向然后可由空间滤波过程(诸如最小方差无失真响应(MVDR)波束成形器)使用,以增强目标音频。在处理音频输入信号之后,可以使用增强的音频输出信号,例如,作为传输到一个或
多个扬声器的音频输出、作为电话或IP语音(VoIP)呼叫中的语音通信,以用于音色识别或语音命令处理或其他语音应用。修改的广义特征向量(GEV)系统可用于实时有效地确定目标音频源的方向,无论是否知道麦克风阵列的几何形状或音频环境。
[0017]图1图示了根据本公开的各种实施例的示例操作环境100,音频处理系统可以在该示例操作环境100中操作。操作环境100包括音频处理设备105、目标音频源110和一个或多个噪声源135

145。在图1中所图示的示例中,操作环境100被图示为房间,但是设想的是,操作环境可以包括其他区域,诸如车辆内部、办公室会议房间、家庭房间、室外体育场或机场。根据本公开的各种实施例,音频处理设备105可以包括两个或更多个音频感测部件115a

115d(例如,麦克风),以及可选地包括一个或多个音频输出部件120a

1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于改进音频信号处理的方法,包括:从多个音频输入部件接收多通道音频信号;确定所述多通道音频信号是否包括与音频源相关联的目标音频;基于所述多通道音频信号和所述多通道音频信号是否包括所述目标音频的确定,估计所述音频源相对于所述多个音频输入部件的相对位置;以及通过基于估计的相对位置增强所述多通道音频信号中的所述目标音频来处理所述多通道音频信号,以生成音频输出信号。2.根据权利要求1所述的方法,还包括根据多个频率子带将所述多通道音频信号变换成子带帧,其中所述估计所述音频源的所述相对位置还基于所述子带帧。3.根据权利要求1所述的方法,还包括计算有噪声音色和仅噪声协方差。4.根据权利要求1所述的方法,还包括使用特征分析过程来估计目标音色相对传递函数。5.根据权利要求1所述的方法,还包括计算修改的基于协方差的定位以标识到达时间差。6.根据权利要求1所述的方法,还包括确定输入音频帧是音色帧还是非音色帧。7.根据权利要求1所述的方法,还包括使用所述音频输入部件中的一个作为参考,为多个频带中的每一个构建操纵矩阵。8.根据权利要求1所述的方法,还包括当音色有效时计算基于相对传递函数的协方差。9.根据权利要求1所述的方法,还包括构建跨频带相干对齐的方向协方差矩阵。10.根据权利要求1所述的方法,还包括确定使在无失真标准的条件下的波束功率最小化的方向;以及挑选产生与所述音频源相关联的所述目标音频的最大似然的到达时间差。11.一种用于改进音频信号处理的系统,包括:多个音频输入部件,其配置为生成多个音频输入信号;逻辑设备,其配置为:接收所述多个音频输入信...

【专利技术属性】
技术研发人员:A
申请(专利权)人:辛纳普蒂克斯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1