基于语音活动检测的音频的定向捕获制造技术

技术编号:22947988 阅读:21 留言:0更新日期:2019-12-27 17:50
本文档描述了一种技术,所述技术可具体表现在一种计算机实现的方法,所述方法包括接收表示由麦克风阵列捕获的音频的信息,其中所述信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于所述麦克风阵列的对应方向捕获的音频信号。所述方法还包括使用一个或多个处理设备来针对所述多个数据集中的每一者计算指示从所述对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组所述多个数据集计算的所述一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。

Audio directional capture based on voice activity detection

【技术实现步骤摘要】
【国外来华专利技术】基于语音活动检测的音频的定向捕获
本公开整体涉及包括用于捕获声学信号的麦克风阵列的声学设备。
技术介绍
麦克风阵列可用于沿特定方向捕获声学信号。
技术实现思路
在一个方面,本文档的特征在于一种计算机实现的方法,该方法包括接收表示由麦克风阵列捕获的音频的信息,其中该信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。该方法还包括使用一个或多个处理设备来针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。在另一方面,本文档的特征在于一种装置,该装置包括麦克风阵列、被配置为生成音频信号的一个或多个声换能器,以及包括存储器和一个或多个处理设备的音频处理引擎。音频处理引擎被配置为接收表示由麦克风阵列捕获的音频的信息,其中该信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。音频处理引擎还被配置为针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。在另一方面,本文档的特征在于一个或多个机器可读存储设备,该一个或多个机器可读存储设备具有在其上编码的用于使一个或多个处理设备执行各种操作的计算机可读指令。这些操作包括接收表示由麦克风阵列捕获的音频的信息,其中该信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。这些操作还包括针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。上述方面的具体实施可以包括以下特征中的一个或多个。可从被配置为处理使用麦克风阵列捕获的信号的波束形成器接收表示由麦克风阵列捕获的音频的信息。多个数据集中的每一者可对应于使用波束形成器生成的波束。波束形成器可为固定波束形成器或动态波束形成器中的一种。指示人类语音活动的一个或多个量可包括人类语音活动在针对对应方向的数据集中表示的音频信号中的可能性分数。指示人类语音活动的一个或多个量可包括信噪比(SNR)。SNR可被计算为表示语音信号的第一量与表示非语音信号的第二量的比率。指示人类语音活动的一个或多个量可表示在针对对应方向的数据集中表示的音频信号中存在关键词的可能性分数。生成定向音频信号可包括选择多个数据集中的一个。生成定向音频信号可包括使动态波束形成器根据针对特定方向生成的灵敏度图案来捕获音频。本文所述的各种实施方式可提供以下优点中的一者或多者。通过基于语音活动的方向而不是最主导声源的方向来控制波束形成器,即使在存在生成大量声能的噪声源的情况下,也可以准确地捕获语音输入。在一些情况下,这可提升语音激活设备在存在主导的非语音噪声源诸如空调的情况下的性能。在一些情况下,相关的语音活动的方向可也经由检测口语关键词的发生来确定。这继而可提升语音激活设备在存在来自多个说话者的语音信号的情况下的性能。本公开中所述的两个或更多个特征,包括本
技术实现思路
部分中所述的那些,可组合以形成在本文未具体描述的实施方式。一个或多个实施方式的细节在附图和以下描述中论述。其他特征、对象和优点在说明书、附图和权利要求书中将是显而易见的。附图说明图1是其中可设置语音激活设备的环境的示例。图2A和图2B是可与本文所述的技术—起使用的定向音频捕获设备的示例。图3A是被配置为使用固定波束形成器来控制音频信号的定向捕获的波束控制系统的示意图。图3B是被配置为使用动态波束形成器来控制音频信号的定向捕获的波束控制系统的示意图。图3C是被配置为使用通过使用反馈回路控制的动态波束形成器来控制音频信号的定向捕获的波束控制系统的示意图。图4是根据本文所述的技术的用于捕获定向音频的示例过程的流程图。具体实施方式本文档描述了用于基于语音活动检测来控制音频的定向捕获的技术。现行的有可使用口语命令来控制的各种语音激活设备。可商购获得的此类设备的示例包括由华盛顿州西雅图市(Seattle,WA)的亚马逊公司(AmazonInc.)制造的和FIRE由苹果公司(AppleInc.)制造的各种支持的设备,以及由加利福尼亚州山景城(MountainView,CA)的谷歌公司(GoogleInc.)制造的Google和其他驱动设备。语音激活设备可包括用于口语输入的定向捕获的麦克风阵列(例如,线性阵列、圆形阵列等)。例如,由设备上的麦克风阵列捕获的信号可被处理以强调从特定方向捕获的信号和/或减弱来自一个或多个其他方向的信号。此类过程被称为波束形成,并且由此类过程产生的定向灵敏度图案可被称为波束。执行波束形成过程的设备可被称为波束形成器。沿特定方向来选择灵敏度图案或波束可被称为波束控制。在一些情况下,波束形成器可将波束控制在声能的主导源的方向上。在低噪声环境中—其中人类说话者是声能的主导源,波束形成器可准确地控制波束朝向说话者。然而,在一些情况下—其中声能的主导源是噪声源,波束形成器可控制波束朝向该源,并且因此减弱来自人类说话者的语音输入。例如,如果麦克风阵列被设置在响亮声源(例如,空调、加湿器、除湿器等)附近,则波束形成器可控制波束朝向该声源。在此类情况下,来自另一个方向的语音输入可在无意中被减弱。在一些情况下,当多个说话者存在于环境中(例如,房间,其中多个人在相互交谈)时,声能的主导源可能为没在提供麦克风阵列需要捕获的语音输入的人。相反,语音输入可来自与声能的主导源的方向不同的方向。在上述这些情况下,如果基于主导噪声源的方向来控制波束,可能会错过来自另一个方向的口语输入,这继而可能会不利地影响对应的语音激活设备的性能。本文所述的技术允许由麦克风阵列基于语音活动检测(VAD)(其可包括关键词识别(KWS))来控制音频捕获的方向。例如,波束控制或以其他方式控制定向音频捕获可基于指示语音活动或特定关键词在从特定方向捕获的音频中存在的可能性的初步输出来实现。这些初步输出可被称为软VAD输出(用于语音活动检测)或软KWS输出(用于关键词识别),这些软VAD输出或软KWS输出可用于确定方向,来自该方向的捕获音频被强调以进行后续处理。在一些情况下,基于此类软VAD输出来确定方向可帮助减弱源自非人类主导声源的声学信号,该非人类主导声源诸如为空调、加湿器、除湿器、真空吸尘器、洗衣机、烘干机,或其他机器或动物(例如,宠物)。这继而可提升相关联的语音激活设备在此类喧闹环境中的性能。在一些情况下,基于软KWS输出来确定方向可也通过甚至在环境中有多个其他的人类说话者在说话时准确地拾取相关的语音命令来提升对应的语音激活设备的性能。图1是可用于实现本文所述的定向音频捕获的系统100的示意图。系统100包括可用于捕获源自该设备附近的声学信号的音频捕获设备105。在一本文档来自技高网
...

【技术保护点】
1.一种方法,包括:/n接收表示由麦克风阵列捕获的音频的信息,其中所述信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于所述麦克风阵列的对应方向捕获的音频信号;/n使用一个或多个处理设备针对所述多个数据集中的每一者计算指示从所述对应方向捕获的人类语音活动的一个或多个量;以及/n至少基于针对多组所述多个数据集计算的所述一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。/n

【技术特征摘要】
【国外来华专利技术】20170331 US 15/475,1911.一种方法,包括:
接收表示由麦克风阵列捕获的音频的信息,其中所述信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于所述麦克风阵列的对应方向捕获的音频信号;
使用一个或多个处理设备针对所述多个数据集中的每一者计算指示从所述对应方向捕获的人类语音活动的一个或多个量;以及
至少基于针对多组所述多个数据集计算的所述一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。


2.根据权利要求1所述的方法,其中从被配置为处理使用所述麦克风阵列捕获的信号的波束形成器接收表示由所述麦克风阵列捕获的所述音频的所述信息。


3.根据权利要求2所述的方法,其中所述多个数据集中的每一者对应于使用所述波束形成器生成的波束。


4.根据权利要求2所述的方法,其中所述波束形成器是固定波束形成器或动态波束形成器中的一种。


5.根据权利要求1所述的方法,其中指示人类语音活动的所述一个或多个量包括人类语音活动在针对所述对应方向的所述数据集中表示的所述音频信号中的可能性分数。


6.根据权利要求1所述的方法,其中指示人类语音活动的所述一个或多个量包括信噪比(SNR)。


7.根据权利要求6所述的方法,其中所述SNR被计算为表示语音信号的第一量与表示非语音信号的第二量的比率。


8.根据权利要求1所述的方法,其中指示人类语音活动的所述一个或多个量表示在针对所述对应方向的所述数据集中表示的所述音频信号中存在关键词的可能性分数。


9.根据权利要求1所述的方法,其中生成所述定向音频信号包括选择所述多个数据集中的一个。


10.根据权利要求1所述的方法,其中生成所述定向音频信号包括使动态波束形成器根据针对所述特定方向生成的灵敏度图案来捕获音频。


11.一种装置,包括:
麦克风阵列;
一个或多个声换能器,所述一个或多个声换能器被配置为生成音频信号;和
音频处理引擎,所述音频处理引擎包括存储器和一个或多个处理设备,所述一个或多个处理设备被配置为:
接收表示由所述麦克风阵列捕获的所述音频的信息,其中所述信息包括多个数据集,每个数...

【专利技术属性】
技术研发人员:M·R·希克斯D·R·克里斯特A·R·莫吉米
申请(专利权)人:伯斯有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1