通过修改的广义特征值波束成形器在音频信号中进行话音增强制造技术

技术编号：24896458 阅读：59 留言：0更新日期：2020-07-14 18:21

一种实时音频信号处理系统包括音频信号处理器，所述音频信号处理器配置为使用修改的广义特征值（GEV）波束成形技术来处理音频信号以生成增强的目标音频输出信号。数字信号处理器包括子带分解电路和目标活动检测器，所述子带分解电路配置为将音频信号分解为频域中的子带帧，所述目标活动检测器配置为检测目标音频是否存在于该子带帧中。基于与该子带帧相关的信息和该目标音频是否存在于该子带帧中的确定，数字信号处理器配置为使用修改的GEV技术来估计目标音频源的相对传递函数（RTF），并且基于估计的RTF生成滤波器。然后可以将滤波器应用于音频信号以生成增强的音频输出信号。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】通过修改的广义特征值波束成形器在音频信号中进行话音增强相关申请的交叉引用本续展专利申请要求序号为No.15/833,977的、2017年12月6日提交的并且题为“通过修改的广义特征值波束成形器在音频信号中进行话音增强”的美国专利申请的优先权和权益，该美国专利申请以其整体通过引用结合于此。
根据一个或多个实施例，本公开一般涉及音频信号处理，并且更具体地，例如涉及用来增强噪声环境中的期望音频信号的系统和方法。
技术介绍
近年来，智能扬声器和其他话音控制的设备和器具已经得到普及。智能扬声器通常包括用于从环境接收音频输入（例如，用户的口头命令）的麦克风的阵列。当在音频输入中检测到目标音频（例如，口头命令）时，智能扬声器可以将检测的目标音频转变为一个或多个命令并且基于命令执行不同的任务。这些智能扬声器的一个挑战是要高效且有效地将目标音频（例如，口头命令）与操作环境中的噪声隔离。在噪声环境（在其中目标音频可来自相对于麦克风的任何方向）中，挑战被加剧。因此，需要用于处理在噪声环境中接收的音频信号的改进的系统和方法。附图说明参考以下附图和随后的详细描述，可以更好地理解本公开的各方面及其优点。应当领会，相同的附图标记用于标识在一个或多个附图中说明的相同的元件，附图中，其中的显示是为了说明本公开的实施例的目的，而不是为了限制其的目的。附图中的部件不一定按比例绘制，而是将重点放在清楚地说明本公开的原理上。图1说明了根据本公开的一个或多个实施例的用于音频处理设备的示例性操作环境。>图2是根据本公开的一个或多个实施例的示例性音频处理设备的框图。图3是根据本公开的一个或多个实施例的示例性音频信号处理器的框图。图4A是根据本公开的实施例的示例性目标增强引擎的框图。图4B是根据本公开的实施例的示例性语音增强引擎的框图。图5说明了根据本公开的一个或多个实施例的用于执行实时音频信号处理的示例性过程。具体实施方式本文中公开了用于检测和增强噪声环境中的目标音频的系统和方法。在各种实施例中，具有多个麦克风的麦克风阵列感测操作环境中的目标音频和噪声并且生成针对每个麦克风的音频信号。本文中公开了结合广义特征向量跟踪的改进的波束成形技术，以便增强接收的音频信号中的目标音频。传统波束成形技术操作以集中于从目标音频源的方向接收的音频。许多波束成形解决方案需要关于麦克风阵列的几何形状和/或目标源的位置的信息。此外，一些波束成形解决方案是处理密集的，并且可随着麦克风数量的增加在复杂度上呈指数增长。照此，传统波束成形解决方案可能不适合于具有由针对低功率设备中的实时音频处理的要求所约束的多样的几何形状和应用的实施方案。本文公开的各种实施例解决了传统波束成形系统中的这些和其他约束。在本公开的一个或多个实施例中，多通道音频输入信号通过音频传感器（例如，麦克风）的阵列被接收。分析每个音频通道以确定目标音频是否存在，例如目标人员是否正在积极地说话。系统跟踪目标和噪声信号以确定目标音频源相对于麦克风阵列的最大传播的声学方向。该方向被称为相对传递函数（RTF）。在各种实施例中，改进的广义特征向量过程用来实时地确定目标音频的RTF。确定的RTF然后可以由空间滤波过程（诸如，最小方差无失真响应（MVDR）波束成形器）使用，以便增强目标音频。在处理音频输入信号之后，可以使用增强的音频输出信号，例如，作为向一个或多个扬声器传送的音频输出、作为IP上话音（VoIP）呼叫或电话中的话音通信、用于语音识别或话音命令处理、或其他话音应用。根据本公开的各种实施例，修改的广义特征向量（GEV）系统和方法用来在不知道音频环境或麦克风的阵列的几何形状的情况下实时地高效确定音频源的RTF。本文中公开的修改的GEV解决方案提供了许多优点。例如，修改的GEV解决方案可以提供可以在各种系统（其包括具有大麦克风阵列的系统）中使用的主特征向量的计算上高效、可缩放、在线的跟踪。本文中公开的解决方案可以在目标音频源的方向上无失真，并且通过实施在所公开的系统和方法内有效的源和噪声模型来增加鲁棒性。本文中公开的系统和方法可用于例如改进在其中在噪声环境中接收目标语音的话音通信系统和自动语音识别（ASR）系统。图1说明了其中音频处理系统可以根据本公开的各种实施例操作的示例性操作环境100。操作环境100包括音频处理设备105、目标音频源110和一个或多个噪声源135-145。在图1中所说明的示例中，操作环境被说明为房间100，但是预期的是，操作环境可以包括其他区域，诸如车辆的内部、办公室会议室、家庭的房间、室外体育场或机场。根据本公开的各种实施例，音频处理设备105可以包括两个或更多个音频感测部件（例如，麦克风）115a–115d，并且可选地包括一个或多个音频输出部件（例如，扬声器）120a–120b。音频处理设备105可以配置为经由音频接收部件115a–115d感测声音并且生成包括两个或更多个音频输入信号的多通道音频输入信号。音频处理设备105可以使用本文所公开的音频处理技术来处理音频输入信号，以便增强从目标音频源110接收的音频信号。例如，处理的音频信号可传送到音频处理设备105内的其它部件（诸如语音识别引擎或话音命令处理器），或传送到外部设备。因此，音频处理设备105可以是处理音频信号的独立设备，或将处理的音频信号转换成其它信号（例如，命令、指令等）的设备以用于与外部设备进行交互或控制外部设备。在其他实施例中，音频处理设备105可以是诸如移动电话或IP上话音（VoIP）实现的设备之类的通信设备，并且处理的音频信号可以通过网络被传送到另一设备以用于输出给远程用户。通信设备还可从远程设备接收处理的音频信号且经由音频输出部件120a-120b输出处理的音频信号。目标音频源110可以是产生由音频处理设备105可检测的音频的任何源。可以基于由用户或系统要求所指定的标准来定义目标音频。例如，目标音频可被定义为人类语音、由特定动物或机器发出的声音。在所说明的示例中，目标音频被定义为人类语音，并且目标音频源110是人。除了目标音频源110之外，操作环境100还可以包括一个或多个噪声源135-145。在各种实施例中，不是目标音频的声音被处理为噪声。在所说明的示例中，噪声源135-145可以包括播放音乐的扩音器135，播放电视节目、电影或体育赛事的电视140，以及非目标扬声器145之间的背景会话。将领会，在各种操作环境中可以存在其他噪声源。注意，目标音频和噪声可以从不同的方向到达音频处理设备105的麦克风115a–115d。例如，噪声源135-145可以在房间100内的不同位置处产生噪声，并且目标音频源（人）110可以在房间100内的位置之间移动时讲话。此外，目标音频和/或噪声可以反射于房间100内的固定物（例如，墙壁）。例如，考虑目标音频可从人110行进以到达麦克风115a-115d中的每个的路径。如箭头125a–125d所指示，目标音频可从人110分别直接行进到麦克风115a–115d。另外，目标音频本文档来自技高网...

【技术保护点】
1.一种用于处理音频信号的方法，包括：/n基于由多个音频输入部件检测的音频输入来接收多通道音频信号；/n确定所述多通道音频信号是否包括与音频源相关联的目标音频；/n基于所述多通道音频信号和所述多通道音频信号是否包括所述目标音频的确定来估计所述音频源相对于所述多个音频输入部件的相对传递函数；以及/n通过基于所述估计的相对传递函数增强所述多通道音频信号中的所述目标音频来处理所述多通道音频信号以生成音频输出信号。/n

【技术特征摘要】
【国外来华专利技术】20171206 US 15/8339771.一种用于处理音频信号的方法，包括：
基于由多个音频输入部件检测的音频输入来接收多通道音频信号；
确定所述多通道音频信号是否包括与音频源相关联的目标音频；
基于所述多通道音频信号和所述多通道音频信号是否包括所述目标音频的确定来估计所述音频源相对于所述多个音频输入部件的相对传递函数；以及
通过基于所述估计的相对传递函数增强所述多通道音频信号中的所述目标音频来处理所述多通道音频信号以生成音频输出信号。

2.根据权利要求1所述的方法，进一步包括根据多个频率子带来将所述多通道音频信号变换到子带帧，其中所述估计所述音频源的所述相对传递函数进一步基于所述子带帧。

3.根据权利要求1所述的方法，其中，所述估计所述RTF包括计算向量。

4.根据权利要求3所述的方法，还包括：
生成噪声功率谱密度矩阵，所述噪声功率谱密度矩阵表示所述音频输入中的噪声的特性；以及
对所述噪声功率谱密度矩阵求逆以生成噪声功率谱密度逆矩阵，其中所述计算所述向量包括使用单个函数以响应于所述多通道音频信号不包括所述目标音频的确定而基于所述音频信号直接更新所述噪声功率谱密度逆矩阵。

5.根据权利要求3所述的方法，进一步包括生成目标音频功率谱密度矩阵，所述目标音频功率谱密度矩阵表示所述音频输入中的所述目标音频的特性，其中所述计算所述向量包括响应于所述多通道音频信号包括所述目标音频的确定而基于所述多通道音频信号更新所述目标音频功率谱密度矩阵。

6.根据权利要求3所述的方法，其中，所述计算的向量是特征向量。

7.根据权利要求3所述的方法，其中，所述计算所述向量包括使用迭代提取算法来计算所述向量。

8.根据权利要求1所述的方法，其中，所述多个音频输入部件包括麦克风的阵列。

9.根据权利要求8所述的方法，进一步包括输出所述音频输出信号。

10.根据权利要求9所述的方法，其中，通过网络将所述音频输出信号输出到外部设备。

11.根据权利要求8所述的方法，还包括：
基于所述音频输出信号确定命令；以及
将所述命令传送到外部设备。

12.根据权利要求11所述的方法，还包括：
基于所述传送的命令从所述外部设备接收数据；以及
响应于从所述外部设备接收所述数据而基于所述接收的数据经由一个或多个扬声...

【专利技术属性】
技术研发人员：FPD穆斯蒂埃，F内斯塔，
申请(专利权)人：辛纳普蒂克斯公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人