多信道语音活动检测制造技术

技术编号:38594416 阅读:12 留言:0更新日期:2023-08-26 23:31
一种用于多信道语音活动检测的方法(800)包括接收表征由麦克风阵列(106)捕获的流式多信道音频(118)的输入帧序列(164)。所述流式多信道音频的每个信道(119)包括由单独专用麦克风捕获的各自的音频特征(162)。所述方法还包括使用位置指纹模型(120)确定位置指纹(124),所述位置指纹(124)基于所述各自的音频特征来指示多信道音频的源相对于用户设备(102)的位置。所述方法还包括来自特定应用分类器(130)生成输出。所述第一分数(134)指示多信道音频对应于特别音频类型的可能性。所述方法还包括基于作为来自所述特定应用分类器的输出而生成的第一分数确定是否接受或拒绝由特定应用处理的所述多信道音频。处理的所述多信道音频。处理的所述多信道音频。

【技术实现步骤摘要】
【国外来华专利技术】多信道语音活动检测


[0001]本公开涉及多信道语音活动检测。

技术介绍

[0002]在过去的几年中,声音启用设备的普及程度增加了。声音启用(speech

enabled)设备的挑战是能够辨别来自周围环境的背景噪声和指向该设备的声音。这种能力允许设备决定所接收的音频输入是要求设备进一步处理音频(例如,处理命令或查询)还是简单地忽略所接收的音频。当设备受到不同音频源对背景噪声有贡献的环境时,设备难以辨别背景噪声和指向设备的声音的能力。

技术实现思路

[0003]本公开的一个方面提供了一种用于多信道语音活动检测的方法。该方法包括在用户设备的数据处理硬件处接收表征由与数据处理硬件通信的麦克风阵列捕获的流式多信道音频的输入帧序列。流式多信道音频的每个信道可以包括由麦克风阵列中的单独专用麦克风捕获的各自的音频特征。该方法还包括由数据处理硬件使用位置指纹模型确定位置指纹,该位置指纹基于多信道音频的每个信道的各自的音频特征指示多信道音频的源相对于用户设备的位置。该方法还包括由数据处理硬件生成作为来自特定应用分类器的输出的第一分数,该特定应用分类器被配置为接收位置指纹作为输入,该第一分数指示多信道音频对应于特别应用被配置为处理的特别音频类型的可能性。该方法还包括由数据处理硬件基于生成的作为来自特定应用分类器的输出的第一分数确定是否接受或拒绝由特别应用处理的多信道音频。
[0004]本公开的实现可以包括以下可选特征中的之一或多个。在一些实施方式中,该方法还包括由数据处理硬件使用语音活动检测器(VAD)模型生成第二分数,该第二分数指示多信道音频对应于源自人的声音的可能性。在该实施方式中,确定是否接受或拒绝由特别应用处理的多信道音频进一步基于第二分数,该第二分数指示多信道音频对应于源自人的声音的可能性。
[0005]在一些示例中,确定是否接受或拒绝由特别应用处理的多信道音频包括将第一分数和第二分数组合为组合分数,并确定组合分数是否满足接受阈值。在该示例中,该方法还包括以下之一:当组合分数满足接受阈值时,接受由特别应用处理的多信道音频,或者当组合分数不满足接受阈值时,拒绝由特别应用处理的多信道音频。
[0006]可选地,该方法进一步包括由数据处理硬件基于位置指纹和一个或多个先前的位置指纹生成聚合指纹。该方法还可以包括由数据处理硬件使用被配置为接收聚合指纹作为输入的波束形成器从多信道音频中提取音频数据的单个信道。所提取的音频数据的单个信道仅包括对应于由位置指纹指示的源的位置的各自的音频特征。这里,生成指示多信道音频对应于源自人的声音的可能性的第二分数可以包括基于作为VAD模型的输入接收的提取的音频数据的单个信道,生成作为VAD模型的输出的第二分数。
[0007]该方法可以包括由数据处理硬件基于波束形成器的置信度水平来调整第二分数。在一些实施方式中,特别应用经配置以处理的特别音频类型可以包括具有单个源位置的音频或具有多个源位置的音频中的之一。在一些示例中,特别应用经配置以处理的特别音频类型可以包括具有移动源位置的音频或具有静态源位置的音频中的之一。可选地,特别应用经配置以处理的特别音频类型可以包括近源音频或远源音频之一。特别应用经配置以处理的特别音频类型可以包括点源音频或扬声器系统音频中的之一。
[0008]在一些实施方式中,确定指示多信道音频的源相对于用户设备的位置的位置指纹包括使用到达时间差和增益模型来处理多信道音频的每个信道。确定指示多信道音频的源相对于用户设备的位置的位置指纹可以包括使用空间概率模型来处理多信道音频的每个信道。
[0009]在一些示例中,该方法还包括:由数据处理硬件基于位置指纹生成第二分数,该第二分数指示多信道音频对应于与特别应用被配置为处理的特别音频类型不同的音频类型的可能性,以及由数据处理硬件忽略具有相同位置指纹的后续多信道音频。可选地,基于包括与特别应用被配置为处理的特别音频类型对应的多信道音频的正训练样本和包括与特别应用未被配置为处理的一个或多个其它音频类型对应于多信道音频的负训练样本来训练特别应用分类器。
[0010]本公开的另一方面提供了一种用于多信道语音活动检测的系统。该系统包括用户设备的数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储当在数据处理硬件上执行时使数据处理硬件执行操作的指令。操作包括接收输入帧序列,该输入帧序列表征由与数据处理硬件通信的麦克风阵列捕获的流式多信道音频。流式多信道音频的每个信道可以包括由麦克风阵列中的单独专用麦克风捕获的各自的音频特征。操作还包括使用位置指纹模型确定位置指纹,该位置指纹基于多信道音频的每个信道的各自的音频特征指示多信道音频的源相对于用户设备的位置。该操作还包括:生成作为来自特定应用分类器的输出的第一分数,该特定应用分类器被配置为接收位置指纹作为输入,该第一分数指示多信道音频对应于特别应用被配置为处理的特别音频类型的可能性。操作还包括基于作为来自特定应用分类器的输出而生成的第一分数确定是否接受或拒绝由特别应用处理的多信道音频。
[0011]该方面可以包括一个或多个以下可选特征。在一些实施方式中,操作还包括使用语音活动检测器(VAD)模型生成第二分数,第二分数指示多信道音频对应于源自人的声音的可能性。在该实施方式中,确定是否接受或拒绝由特定应用处理的多信道音频还基于第二分数,该第二分数指示多信道音频对应于源自人的声音的可能性。
[0012]在一些示例中,确定是否接受或拒绝由特定应用处理的多信道音频包括将第一分数和第二分数组合为组合分数,并确定组合分数是否满足接受阈值。在该示例中,操作还包括以下操作之一:当组合分数满足接受阈值时,接受由特定应用处理的多信道音频,或者当组合分数不满足接受阈值时,拒绝由特定应用处理的多信道音频。
[0013]可选地,操作还包括基于位置指纹和一个或多个先前的位置指纹生成聚合指纹,并且使用被配置为接收聚合指纹作为输入的波束形成器从多信道音频中提取音频数据的单个信道。所提取的音频数据的单个信道仅包括对应于由位置指纹指示的源的位置的各自的音频特征。这里,生成指示多信道音频对应于源自人的声音的可能性的第二分数可以包
括基于作为VAD模型输入接收的的提取的音频数据的单个信道,生成作为从VAD模型输出的第二分数。
[0014]操作可以包括基于波束形成器的置信度水平来调整第二分数。在一些实施方式中,特别应用经配置以处理的特别音频类型可以包括具有单个源位置的音频或具有多个源位置的音频中的之一。在一些实例中,特别应用经配置以处理的特别音频类型可包括具有移动源位置的音频或具有静态源位置的音频中的之一。可选地,特别应用经配置以处理的特别音频类型可以包括近源音频或远源音频之一。特别应用经配置以处理的特别音频类型可以包括点源音频或扬声器系统音频中的之一。
[0015]在一些实施方式中,确定指示多信道音频的源相对于用户设备的位置的位置指纹包括使用到达时间差和增益模型来处理多信道音频的每个信道。确定指示多信道音频的源相对于用户设备的位置的位置指纹可以包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法(800),其特征在于,包括:在用户设备(102)的数据处理硬件(103)处接收输入帧序列(164),所述输入帧序列(164)表征由与所述数据处理硬件(103)通信的麦克风阵列(106)捕获的流式多信道音频(118),所述流式多信道音频(118)的每个信道(119)包括由所述麦克风阵列(106)中的单独专用麦克风(106)捕获的各自的音频特征(162);由所述数据处理硬件(103)使用位置指纹模型(120)确定位置指纹(124),所述位置指纹(124)基于所述多信道音频(118)的每个信道(119)的所述各自的音频特征(162)指示所述多信道音频(118)的源相对于所述用户设备(102)的位置;由所述数据处理硬件(103)生成作为来自特定应用分类器(130)的输出的第一分数(134),所述特定应用分类器(130)被配置为接收所述位置指纹(124)作为输入,所述第一分数(134)指示所述多信道音频(118)对应于特别应用(150)被配置为处理特别音频类型的可能性;以及由所述数据处理硬件(103)基于生成的作为来自所述特定应用分类器(130)的输出的所述第一分数(134)确定是否接受或拒绝由所述特别应用(150)处理的所述多信道音频(118)。2.根据权利要求1所述的方法(800),其特征在于,进一步包括:由所述数据处理硬件(103)使用语音活动检测器(VAD)模型(230)生成第二分数(136),所述第二分数指示所述多信道音频(118)对应于源自人的声音(speech)的可能性,其中,确定是否接受或拒绝由所述特别应用(150)处理的所述多信道音频(118)还基于所述第二分数(136),所述第二分数(136)指示所述多信道音频(118)对应于源自人的声音的可能性。3.根据权利要求2所述的方法(800),其特征在于,确定是否接受或拒绝由所述特别应用(150)处理的所述多信道音频(118)包括:将所述第一分数(134)和所述第二分数(136)组合为组合分数;确定所述组合分数是否满足接受阈值;以及以下之一:当所述组合分数满足所述接受阈值时,接受由所述特别应用(150)处理的所述多信道音频(118);或者当所述组合分数不满足所述接受阈值时,拒绝由所述特别应用(150)处理的所述多信道音频(118)。4.根据权利要求2或3所述的方法(800),其特征在于,进一步包括:由所述数据处理硬件(103)基于所述位置指纹(124)和一个或多个先前的位置指纹(124)生成聚合指纹;由所述数据处理硬件(103)使用被配置为接收所述聚合指纹作为输入的波束形成器(222),从所述多信道音频(118)中提取音频数据的单个信道(119),所述提取的音频数据的单个信道(119)仅包括对应于由所述位置指纹(124)指示的所述源的位置的各自的音频特征(162),以及其中,生成指示所述多信道音频(118)对应于源自人的声音的可能性的第二分数(136)包括基于作为所述VAD模型(230)的输入接收的所述提取的音频数据的单个信道(119)生成
作为所述VAD模型(230)的输出的所述第二分数(136)。5.根据权利要求4所述的方法(800),其特征在于,进一步包括,由所述数据处理硬件(103)基于所述波束形成器(222)的置信度水平调整所述第二分数(136)。6.根据权利要求1

5中任一项所述的方法(800),其特征在于,所述特别应用(150)经配置以处理的所述特别音频类型包括具有单个源位置的音频(320)或具有多个源位置的音频(310)中的之一。7.根据权利要求1

6中任一项所述的方法(800),其特征在于,所述特别应用(150)经配置以处理的所述特别音频类型包括具有移动源位置的音频(420)或具有静态源位置的音频(410)中的之一。8.根据权利要求1

7中任一项所述的方法(800),其特征在于,所述特别应用(150)经配置以处理的所述特别音频类型包括近源音频或远源音频中的之一。9.根据权利要求1

8中任一项所述的方法(800),其特征在于,所述特别应用(150)经配置以处理的所述特别音频类型包括点源音频或扬声器系统音频中的之一。10.根据权利要求1

9中任一项所述的方法(800),其特征在于,确定指示所述多信道音频(118)的所述源相对于所述用户设备(102)的所述位置的所述位置指纹(124)包括使用到达时间差和增益模型处理所述多信道音频(118)的每个信道(119)。11.根据权利要求1

10中任一项所述的方法(800),其特征在于,确定指示所述多信道音频(118)的所述源相对于所述用户设备(102)的所述位置的所述位置指纹(124)包括使用空间概率模型处理所述多信道音频(118)的每个信道(119)。12.根据权利要求1

11中任一项所述的方法(800),其特征在于,进一步包括:由所述数据处理硬件(103)基于所述位置指纹(124),生成作为来自特定应用分类器(130)输出的第二分数(136),所述第二分数(136)指示所述多信道音频(118)对应于与所述特别应用(150)被配置为处理的所述特别音频类型不同的音频类型的可能性;以及由所述数据处理硬件(103)忽略具有所述相同位置指纹(124)的后续流式多信道音频(118)。13.根据权利要求1

12中任一项所述的方法(800),其特征在于,所述特定应用分类器(130)基于以下接受训练:正训练样本(712a),包括与所述特别应用(150)被配置为处理的所述特别音频类型对应的多信道音频(118);以及负训练样本(712b),包括与所述特别应用(150)未被配置为处理的一个或多个其它音频类型对应的多信道音频(118)。14.一种系统(100),其特征在于,包括:用户...

【专利技术属性】
技术研发人员:诺兰
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1