用于声源方向估计的话筒放置制造技术

技术编号:17964027 阅读:77 留言:0更新日期:2018-05-16 07:19
提出了用于声源方向估计和源分离的多个话筒的架构及其在设备中的定位。源的方向是设备的正面、背面、左侧、右侧、顶部和底部,并且可通过话筒信号的幅值和相位差以及适当的话筒定位来确定。声源分离将来自不同方向的声音从话筒信号中的各源的混合中分离。这可通过盲源分离(BSS)、独立成分分析(ICA)和波束成形(BF)技术来完成。设备可以为该设备执行多种音频增强。例如,其可为通信执行降噪,其可选择来自期望方向的源以执行语音识别,并且其可纠正话筒中的声音感知方向并生成期望的声像,如立体声音频输出。

Microphone placement for estimation of sound source direction

The architecture of multiple microphone for acoustic source direction estimation and source separation and its location in equipment are proposed. The direction of the source is the front, back, left, right, top, and bottom of the device, and can be determined by the amplitude and phase difference of the microphone signal and the proper location of the microphone. Sound source separation separates voice from different directions from the mixing of sources in the microphone signal. This can be accomplished by blind source separation (BSS), independent component analysis (ICA) and beamforming (BF) technology. The device can perform a variety of audio enhancements for the device. For example, it can perform noise reduction for communication, which can select the source from the expected direction to perform speech recognition, and it can correct the sound perception direction in the microphone and generate the desired sound image, such as stereo audio output.

【技术实现步骤摘要】
【国外来华专利技术】用于声源方向估计的话筒放置背景包括监视器、膝上型计算机、平板计算机、蜂窝电话的现代电子设备或者具有音频能力的任何设备及系统使用至少一个话筒来拾取音频。取决于复杂度和成本之间的平衡,具有音频能力的电子设备通常使用一到四个话筒。当更多的话筒被用于设备时,如降噪、声源分离和音频输出增强之类的音频性能增加。在另一方面,当更多的话筒被使用时,制造成本及音频处理复杂度同样增加。概述提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的概念的精选。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。本文中所描述的话筒放置实施方式呈现了设备中具有用来确定最大数量的源方向的最小数量的话筒的话筒定位架构。这些话筒放置实施方式提供具有数个话筒的架构及其在设备中的定位,以用于确定可被用于各种音频处理目的的声源方向估计及源分离。在一个示例性话筒放置实施方式中,具有音频能力的电子设备采用使用相对于设备的经定位的声源以准备被输入到应用中的输出的过程。该过程涉及接收从两个或更多个话筒接收到的声音的话筒信号。声源位置是相对于设备使用设备表面上的两个或更多个话筒的放置及由这些话筒接收到的声音的到达时间和幅值差来确定的。设备周围的空间使用经确定的声源位置被划分成诸区域。附加地,话筒信号要用于的应用的数量和类型以及所需输出信号的数量和类型被确定。经确定的区域被用来选择和处理来自期望的区域的话筒信号以近似地优化用于一个或多个应用的输出的信号。本文中所描述的诸话筒放置实施方式可具有许多优点。例如,它们可提供使用最小数量的话筒来确定最大数量的声源方向。它们还可使用经确定的声源方向来优化或近似优化用于各种音频处理应用的输出,各种音频处理应用诸如举例而言,在通信应用中降低噪声、在语音识别应用中执行声源分离及降噪、在音频录制中校正未经正确感知的声源方向,以及更有效地对音频信号进行编码。由于最小数量的话筒可被用来确定声源方向和优化输出,所以电子设备可被制造得更小且更便宜。此外,在一些应用中,音频处理的复杂度可被降低,由此为输入话筒信号的信号处理增加了计算效率。附图描述参考以下描述、所附权利要求书以及附图,将更好地理解本公开的具体特征、诸方面及优点,附图中:图1是具有被放置在设备的前表面和背表面上的话筒的电子设备的描绘。图2是具有被放置在设备的前表面和顶表面上的话筒的电子设备的描绘。图3是具有放置在设备的背表面和顶表面上的话筒的电子设备的描绘。图4是具有三个话筒在设备的顶表面、背表面和前表面上的放置的电子设备的描绘。图5是具有四个话筒在设备的背表面、顶表面、顶表面和前表面上的放置的电子设备的描绘。图6是用于使用经定位的声源以准备被输入到应用中的输出的过程的示例性流程图。图7是根据本文中所描述的话筒放置实施方式的用于处理音频信号的示例性架构的描绘。图8是用来为图7所示的系统确定滤波器系数的二元划分解决方案的示例性描绘。图9是用来为图7所示的系统确定滤波器系数的时不变解决方案的示例性描绘。图10是用于图7所示的系统的自适应源分离过程的示例性描绘。图11描绘了用于图1所示的设备的示例性立体声输出效果增强。图12是可被用来实践本文中所描述的示例性话筒放置实施方式的示例性计算系统。详细描述在下面对话筒放置实施方式的描述中,参考了形成其一部分且以解说的方式示出了可以实践本文中所描述的诸实现的示例的附图。可以理解,可以利用其他实施例,并且可以作出结构上的变化而不背离所要求保护的主题的范围。1.0话筒放置实施方式以下各节提供了本文中所描述的话筒放置实施方式的概述以及用于实践这些实现的示例性设备、系统和过程。作为预备事项,所跟的一些附图在被不同地称为功能、模块、特征、元素等的一个或多个结构组件的上下文中描述了诸概念。附图中所示的各种组件可按任何方式实现。在一种情形中,附图中所解说的将各种组件分离成有区别的单元可反映对应的有区别的组件在实际实现中的使用。替代地或附加地,附图中所解说的任何单个组件均可由多个实际组件来实现。替代地或附加地,对附图中任何两个或更多个分开的组件的描绘可反映单个实际组件所执行的不同功能。其他附图以流程图形式描述了诸概念。以此形式,某些操作被描述为构成按某一顺序执行的有区别的框。这些实现是说明性的而非限制性的。本文中所描述的某些框可被分组在一起并在单个操作中被执行,某些框可被分解成多个组件框,并且某些框可按与本文中所解说的不同的顺序来执行(包括以并行方式执行这些框)。流程图中所示的各框可按任何方式实现。1.1背景话筒定位对于确定声源的方向至关重要。声源方向可被定义为朝设备的前表面、背表面、左表面、右表面、顶表面和底表面行进。当所有话筒具有完全相同的性能且被放置在设备的前表面(称为宽阔面)时,不能够确定声源是来自设备正面的方向还是来自设备背面的方向。另一示例是当各话筒具有完全相同的性能且从前往后垂直放置(称为端射(end-fire))。在该配置中,不能够确定源是来自左边还是来自右边方向。音频设备和系统通常具有电子电路来接收音频信号并将模拟信号转换成数字信号以供进一步处理。它们具有用来将音频声音变换为模拟电信号的话筒模拟电路。在数字话筒情形中,话筒模拟电路被包括在话筒组中。这些数字话筒具有模数(A/D)转换器,以用于将模拟信号转换为具有针对每个样本的采样率Fs及位数N的数字信号样本。具有音频能力的设备和系统通常具有数字信号处理器(DSP)或其他数字信号处理硬件。在DSP的帮助下,用于音频的许多现代数字信号处理算法可以在DSP硬件中实现。例如,声源的数量和声源的方向可经由波束成形(BF)领域中的适当音频处理算法来确定。声源分离随强大的DSP而变得可行,其中许多高级音频处理算法可在DSP中实现。这些算法包括盲源分离(BSS)、独立成分分析(ICA)、主成分分析(PCA)、非负矩阵分解(NMF)和BF。设备通常具有在中央处理单元(CPU)或图形处理单元(GPU)上运行的操作系统(OS)。所有信号处理都可使用应用或App在OS上完成。例如,音频处理可使用具有音频驱动程序的音频处理对象(APO)来实现。为了使这些算法有效地工作,尽管存在许多方式来将话筒定位在设备中,但仍需要适当的话筒定位。例如,当使用两个话筒时,两者可被嵌入到设备的前表面,两者可被嵌入到背表面,两者可处于顶表面,两者可处于任一侧表面,一个可处于前表面而另一个可处于背表面,一个可处于前表面而另一个可处于顶表面,一个可处于背表面而另一个可处于顶表面,等等。在选择定位时存在三个重要的考虑因素:由于不同大小和类型的设备而导致的设备外壳中的用于话筒的可用空间、将(诸)话筒远离扬声器放置以降低声学耦合,以及对话筒进行定位以确定更大数量的声源方向。1.2概览在本公开中,提出了诸话筒放置实施方式,其使用设备中的话筒定位架构以使用最小数量的话筒来确定最大数量的声源方向。在一些实现中,声源的方向来自设备的前表面、背表面、左表面、右表面、顶表面和底表面,并且可以通过话筒信号的幅值和相位差以及适当的话筒定位来确定。声源分离将来自不同方向的声音从话筒信号中的各源的混合中分离,并标识各声源的方向。在一些话筒放置实施方式中,可使用盲源分离(BSS)、独立成分分析(ICA)本文档来自技高网...
用于声源方向估计的话筒放置

【技术保护点】
一种过程,包括:接收从设备上的两个或更多个话筒接收到的声音的话筒信号;使用两个或更多个话筒在所述设备的表面上的放置以及由所述话筒接收到的声音的到达时间和幅值差来确定相对于所述设备的声源位置;使用经确定的声源位置来将所述设备周围的空间划分成各个区域;确定所述话筒信号要被用于的应用的数量和类型以及所需输出信号的数量和类型;以及使用所确定的区域来选择和处理来自期望区域的所述话筒信号以近似地优化用于所确定的一个或多个应用的输出的信号。

【技术特征摘要】
【国外来华专利技术】2015.09.09 US 14/848,7031.一种过程,包括:接收从设备上的两个或更多个话筒接收到的声音的话筒信号;使用两个或更多个话筒在所述设备的表面上的放置以及由所述话筒接收到的声音的到达时间和幅值差来确定相对于所述设备的声源位置;使用经确定的声源位置来将所述设备周围的空间划分成各个区域;确定所述话筒信号要被用于的应用的数量和类型以及所需输出信号的数量和类型;以及使用所确定的区域来选择和处理来自期望区域的所述话筒信号以近似地优化用于所确定的一个或多个应用的输出的信号。2.根据权利要求1所述的过程,其特征在于,将所述设备周围的空间分成各个区域进一步包括:从每个话筒的方向获得子空间,使得从所述子空间到其他话筒的声音的到达时间差大于0;基于所述话筒之间的幅值差来将每个子空间分成三个附加子空间;组合公共子空间,使得不存在重叠的子空间;将所述子空间组合成包含期望的子空间信号的多个期望的子空间;以及为经组合的子空间输出所述期望的子空间信号以供与所述一个或多个应用一起使用。3.根据权利要求1所述的过程,其特征在于,将所述设备周围的空间分成各个区域进一步包括:确定所述话筒之间的幅值差是大于正阈值、小于负阈值还是在所述正阈值和第二负阈值之间。4.根据权利要求3所述的过程,其特征在于,进一步包括经由二元、时不变或自适应解决方案来确定一个或多个区域中的源信号。5.根据权利要求3所述的过程,其特征在于,进一步包括确定一个或多个区域中的子空间信号,其中所述子空间信号的系数通过使用使所述子空间信号的失真最小化的概率分类器来获得。6.根据权利要求1所述的过程,其特征在于,应用的数量通过确定同时运行的应用的数量并将所确定的应用的数量乘以每个应用所要求的输出来确定。7.根据权利要求1所述的过程,其特征在于,输出到所确定的一个或多个应用的信号被近似优化以在通信应用中执行降噪。8.根据权利要求1所述的过程,其特征在于,输出到所确定的一个或多个应用的信号被近似优化以在语音识别应用中执行降噪...

【专利技术属性】
技术研发人员:Y·陆C·B·戈D·L·贝克J·华I·霍罗舍
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1