当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用两个麦克风进行轻型全360度音频源位置检测制造技术

技术编号:28538165 阅读:38 留言:0更新日期:2021-05-21 09:02
本公开涉及使用两个麦克风进行轻型全360度音频源位置检测。本文描述了一种系统。该系统包括至少一个硬件处理器,该硬件处理器被配置为识别预定声学屏障滤波器,其中,该声学屏障滤波器与物理声学屏障相一致,并且在时间窗口内在第一麦克风和第二麦克风处接收音频信号。硬件处理器还被配置为计算第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量。硬件处理器还将第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量相连以形成特征向量,并且将特征向量输入到位置分类器中以获得音频源位置。

【技术实现步骤摘要】
使用两个麦克风进行轻型全360度音频源位置检测
本公开涉及人工智能领域,更具体地,涉及使用两个麦克风进行轻型全360度音频源位置检测。
技术介绍
确定音频源的空间位置有许多应用。例如,在智能环境或智能运输设备中,知晓音频源的位置是确定声音是来自预期用户、来自某些干扰、还是来自可用于情境感知的某附加来源的基础。音频源的空间位置的确定还使得能够在所选音频源上使用音频增强技术,以进行自动语音辨识(ASR)、发声者识别、音频事件检测、或者甚至碰撞避免。通常,实时音频定位需要多个麦克风阵列或复杂的信号处理和机器学习技术。
技术实现思路
本公开的实施例提供了一种系统。该系统包括:物理声学屏障;麦克风阵列,麦克风阵列包括第一麦克风和第二麦克风;至少一个硬件处理器,至少一个硬件处理器被配置为:识别预定声学屏障滤波器,其中,声学屏障滤波器与物理声学屏障相一致;在时间窗口内,在第一麦克风和第二麦克风处,接收音频信号;计算在第一麦克风和第二麦克风处接收到的音频信号的直接差的第一变化性度量;计算在第一麦克风和第二麦克风处接收到的音频信号的延迟差的第二变化性度量;计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波直接差的第三变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波;计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波延迟差的第四变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波;将第一变化性度量、第二变化性度量、第三变化性度量、以及第四变化性度量相连,以形成特征向量;以及将特征向量输入到位置分类器中,以获得音频源位置。本公开的实施例还提供了一种方法。该方法包括:识别预定声学屏障滤波器,其中,声学屏障滤波器与物理声学屏障相一致;在时间窗口内,在第一麦克风和第二麦克风处,接收音频信号;计算在第一麦克风和第二麦克风处接收到的音频信号的直接差的第一变化性度量、在第一麦克风和第二麦克风处接收到的音频信号的延迟差的第二变化性度量、在第一麦克风和第二麦克风处接收到的音频信号的经滤波直接差的第三变化性度量,其中,音频信号由预定声学屏障滤波器进行滤波,以及计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波延迟差的第四变化性度量,其中,音频信号由预定声学屏障滤波器进行滤波;将第一变化性度量、第二变化性度量、第三变化性度量、以及第四变化性度量相连,以形成特征向量;以及将特征向量输入到位置分类器中,以获得音频源位置。附图说明图1是人听到的幅度和频率内容差异的图示;图2是电子设备接收到的音频中的幅度和频率内容差异的图示;图3是根据本技术的特征提取的框图;图4是位置分类的图示;图5是示例性形状因子的图示;图6是可以放置音频源的示例性环境的图示;图7是方法的过程流程图;图8是电子设备的框图,该电子设备使得能够使用两个麦克风来进行轻型全三百六十度音频声音定位;以及图9是示出了介质的框图,该介质使得能够使用两个麦克风来进行轻型全三百六十度音频声音定位。本公开和附图通篇使用相同数字以引用相同组件和特征。100系列中的数字是指最初在图1中找到的特征;200系列中的数字是指最初在图2中找到的特征;以此类推。具体实施方式传统上,高质量的实时音频位置确定需要多个麦克风阵列或复杂的信号处理和机器学习技术。多个麦克风阵列需要额外的功率。此外,当对音频信号进行处理时,复杂的信号处理和机器学习技术消耗额外的功率。此外,包括用于实现音频源位置检测的附加硬件和软件可能增加设备的总成本。本技术使得能够使用两个麦克风来确定音频源位置。可以在两个麦克风周围的全360°内确定音频源位置。具体地,本技术包括识别预定声学屏障滤波器,以及在时间窗口内在第一麦克风和第二麦克风处接收音频信号,其中,声学屏障滤波器与物理声学屏障相一致。可以基于接收到的音频信号来计算第一变化性度量、第二变化性度量、第三变化性度量和第四变化性度量。第一变化性度量、第二变化性度量、第三变化性度量和第四变化性度量被相连,以形成特征向量。特征向量被输入到位置分类器以获得音频源位置。因此,本技术使得能够使用非常低的计算机开销来检测由两个麦克风的阵列捕获的声源的空间位置。在实施例中,本技术仅使用一对“传感器”来模拟人耳检测声源位置的方式,其中,两个麦克风模拟人耳的功能。具体地,本技术使得能够仅使用安装在设备(膝上型计算机、智能扬声器、信息娱乐中心、自动驾驶车辆等)中的一对麦克风和声学屏障来检测360°到达角。变化性度量可以是均方根(RMS)值。在实施例中,未滤波麦克风信号和经滤波麦克风信号的差的RMS值可以用作描述符特征,并且机器学习可以将描述符作为输入并且基于该描述符来估计声源的位置。在实施例中,本文中使用的机器学习技术是被实现为位置估计器的浅层神经网络(NN)。在实施例中,声源的位置可以是根据本技术来估计或确定的到达角。可以同时通过低成本硬件以及低计算机开销来实现本技术。以这种方式,本技术不需要在硬件和软件之间的权衡,因为每个组件都是低成本的并且消耗较低的开销。特别地,可以使用两个麦克风(例如,大多数膝上型计算机已具有)、较小的声学屏障(可能已经是形状因子的一部分)、以及非常轻型的算法(不需要计算FFT或其他类型的复杂信号处理例程)来实现本技术。本技术不需要数字信号处理(DSP)模块或专用的硬件加速。与人听力类似,本技术能够检测全360°源位置。此外,本技术不受每个麦克风具有略微不同的增益的情况的影响。图1是人100听到的幅度和频率内容差异的图示。如图所示,声源102可以基本上位于人100的前方。声源104可以基本上位于人100的后方。如在此所使用的,基本上在人100的前方可以指人可以通过眼睛看到的位置。相比之下,基本上在人100的后方可以指人不可以通过眼睛看到的位置。在示例中,当声波向人耳膜传播时,与基本上位于人后方的声源相比,来自基本上位于人的前方的声源的音频将遇到人耳的不同物理屏障。具体地,人耳的组成部分可以充当声学屏障。例如,外耳组成部分用于根据音频的到达角来对音频频率分量中的分量进行滤波。具体地,音频可以基于声音到达的方向而被物理外耳组成部分不同地滤波。该方向可以指示声源的位置。因此,曲线图106表示从前方声源102接收到的音频内容的感知频谱。该感知频谱是根据感知频谱的频率内容来图示的。注意,从前方声源102接收到的音频被接收为具有全频谱音频内容。相比之下,曲线图108表示从后方声源104接收到的音频内容的感知频谱。该感知频谱是根据感知频谱的频率内容来图示的。注意,在图1的示例中,前方声源102和后方声源104发射相同的音频内容,如感知频谱110A和110B所示。然而,如112处所示,随着音频内容的频率增加,曲线图108中的实线下的实际接收频谱经历增强的滤波。图1示出了现实世界中的场景,其中,人脑使用频率内容的差异来估计声源的位置。如本文中所使用的,声源是指发出声音的实体。声源的位置可被描述为相对于听到或捕获声音的实体(例如,人或麦克风)在本文档来自技高网...

【技术保护点】
1.一种系统,包括:/n物理声学屏障;/n麦克风阵列,所述麦克风阵列包括第一麦克风和第二麦克风;/n至少一个硬件处理器,所述至少一个硬件处理器被配置为:/n识别预定声学屏障滤波器,其中,所述声学屏障滤波器与所述物理声学屏障相一致;/n在时间窗口内,在所述第一麦克风和所述第二麦克风处,接收音频信号;/n计算在所述第一麦克风和所述第二麦克风处接收到的所述音频信号的直接差的第一变化性度量;/n计算在所述第一麦克风和所述第二麦克风处接收到的所述音频信号的延迟差的第二变化性度量;/n计算在所述第一麦克风和所述第二麦克风处接收到的所述音频信号的经滤波直接差的第三变化性度量,其中,该音频信号由所述预定声学屏障滤波器进行滤波;/n计算在所述第一麦克风和所述第二麦克风处接收到的所述音频信号的经滤波延迟差的第四变化性度量,其中,该音频信号由所述预定声学屏障滤波器进行滤波;/n将所述第一变化性度量、所述第二变化性度量、所述第三变化性度量、以及所述第四变化性度量相连,以形成特征向量;以及/n将所述特征向量输入到位置分类器中,以获得音频源位置。/n

【技术特征摘要】
20191120 US 16/689,5841.一种系统,包括:
物理声学屏障;
麦克风阵列,所述麦克风阵列包括第一麦克风和第二麦克风;
至少一个硬件处理器,所述至少一个硬件处理器被配置为:
识别预定声学屏障滤波器,其中,所述声学屏障滤波器与所述物理声学屏障相一致;
在时间窗口内,在所述第一麦克风和所述第二麦克风处,接收音频信号;
计算在所述第一麦克风和所述第二麦克风处接收到的所述音频信号的直接差的第一变化性度量;
计算在所述第一麦克风和所述第二麦克风处接收到的所述音频信号的延迟差的第二变化性度量;
计算在所述第一麦克风和所述第二麦克风处接收到的所述音频信号的经滤波直接差的第三变化性度量,其中,该音频信号由所述预定声学屏障滤波器进行滤波;
计算在所述第一麦克风和所述第二麦克风处接收到的所述音频信号的经滤波延迟差的第四变化性度量,其中,该音频信号由所述预定声学屏障滤波器进行滤波;
将所述第一变化性度量、所述第二变化性度量、所述第三变化性度量、以及所述第四变化性度量相连,以形成特征向量;以及
将所述特征向量输入到位置分类器中,以获得音频源位置。


2.根据权利要求1所述的系统,其中,所述预定声学屏障滤波器通过复制所述物理声学屏障滤波器的频率响应而与所述物理声学屏障滤波器相一致。


3.根据权利要求1所述的系统,其中,所述位置分类器是浅层神经网络。


4.根据权利要求1所述的系统,其中,所述第一变化性度量、所述第二变化性度量、所述第三变化性度量、和所述第四变化性度量是均方根值。


5.根据权利要求1所述的系统,其中,所述第一变化性度量、所述第二变化性度量、所述第三变化性度量、和所述第四变化性度量是均方根值。


6.根据权利要求1所述的系统,其中,所述预定声学屏障滤波器是与所述物理声学屏障滤波器相一致的带通滤波器。


7.根据权利要求1所述的系统,其中,所述物理声学屏障是改变来自音频源的音频信号的频率分量的表面。


8.根据权利要求1所述的系统,其中,差是通过以下操作来计算的:对所述第一麦克风和所述第二麦克风接收到的所述音频信号进行标准化,并且从经标准化的由所述第二麦克风捕获的音频信号中减去经标准化的由所述第一麦克风捕获的音频信号。


9.根据权利要求1所述的系统,其中,延迟的音频信号是通过将所述第二麦克风处的音频信号延迟预定数量的样本而生成的。


10.根据权利要求1所述...

【专利技术属性】
技术研发人员:赫克托·A·科尔多瓦·马鲁里约瑟·R·卡马乔·佩雷斯保罗·洛佩兹·迈耶朱利欧·C·萨莫拉·埃斯基维尔亚历杭德罗·伊巴拉·冯·博斯特尔
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1