【技术实现步骤摘要】
【国外来华专利技术】多信道语音活动检测
[0001]本公开涉及多信道语音活动检测。
技术介绍
[0002]在过去的几年中,声音启用设备的普及程度增加了。声音启用(speech
‑
enabled)设备的挑战是能够辨别来自周围环境的背景噪声和指向该设备的声音。这种能力允许设备决定所接收的音频输入是要求设备进一步处理音频(例如,处理命令或查询)还是简单地忽略所接收的音频。当设备受到不同音频源对背景噪声有贡献的环境时,设备难以辨别背景噪声和指向设备的声音的能力。
技术实现思路
[0003]本公开的一个方面提供了一种用于多信道语音活动检测的方法。该方法包括在用户设备的数据处理硬件处接收表征由与数据处理硬件通信的麦克风阵列捕获的流式多信道音频的输入帧序列。流式多信道音频的每个信道可以包括由麦克风阵列中的单独专用麦克风捕获的各自的音频特征。该方法还包括由数据处理硬件使用位置指纹模型确定位置指纹,该位置指纹基于多信道音频的每个信道的各自的音频特征指示多信道音频的源相对于用户设备的位置。该方法还包括由数据处理硬件生成作为来自特定应用分类器的输出的第一分数,该特定应用分类器被配置为接收位置指纹作为输入,该第一分数指示多信道音频对应于特别应用被配置为处理的特别音频类型的可能性。该方法还包括由数据处理硬件基于生成的作为来自特定应用分类器的输出的第一分数确定是否接受或拒绝由特别应用处理的多信道音频。
[0004]本公开的实现可以包括以下可选特征中的之一或多个。在一些实施方式中,该方法还包括由数据处理硬件使用语音活动检测器 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法(800),其特征在于,包括:在用户设备(102)的数据处理硬件(103)处接收输入帧序列(164),所述输入帧序列(164)表征由与所述数据处理硬件(103)通信的麦克风阵列(106)捕获的流式多信道音频(118),所述流式多信道音频(118)的每个信道(119)包括由所述麦克风阵列(106)中的单独专用麦克风(106)捕获的各自的音频特征(162);由所述数据处理硬件(103)使用位置指纹模型(120)确定位置指纹(124),所述位置指纹(124)基于所述多信道音频(118)的每个信道(119)的所述各自的音频特征(162)指示所述多信道音频(118)的源相对于所述用户设备(102)的位置;由所述数据处理硬件(103)生成作为来自特定应用分类器(130)的输出的第一分数(134),所述特定应用分类器(130)被配置为接收所述位置指纹(124)作为输入,所述第一分数(134)指示所述多信道音频(118)对应于特别应用(150)被配置为处理特别音频类型的可能性;以及由所述数据处理硬件(103)基于生成的作为来自所述特定应用分类器(130)的输出的所述第一分数(134)确定是否接受或拒绝由所述特别应用(150)处理的所述多信道音频(118)。2.根据权利要求1所述的方法(800),其特征在于,进一步包括:由所述数据处理硬件(103)使用语音活动检测器(VAD)模型(230)生成第二分数(136),所述第二分数指示所述多信道音频(118)对应于源自人的声音(speech)的可能性,其中,确定是否接受或拒绝由所述特别应用(150)处理的所述多信道音频(118)还基于所述第二分数(136),所述第二分数(136)指示所述多信道音频(118)对应于源自人的声音的可能性。3.根据权利要求2所述的方法(800),其特征在于,确定是否接受或拒绝由所述特别应用(150)处理的所述多信道音频(118)包括:将所述第一分数(134)和所述第二分数(136)组合为组合分数;确定所述组合分数是否满足接受阈值;以及以下之一:当所述组合分数满足所述接受阈值时,接受由所述特别应用(150)处理的所述多信道音频(118);或者当所述组合分数不满足所述接受阈值时,拒绝由所述特别应用(150)处理的所述多信道音频(118)。4.根据权利要求2或3所述的方法(800),其特征在于,进一步包括:由所述数据处理硬件(103)基于所述位置指纹(124)和一个或多个先前的位置指纹(124)生成聚合指纹;由所述数据处理硬件(103)使用被配置为接收所述聚合指纹作为输入的波束形成器(222),从所述多信道音频(118)中提取音频数据的单个信道(119),所述提取的音频数据的单个信道(119)仅包括对应于由所述位置指纹(124)指示的所述源的位置的各自的音频特征(162),以及其中,生成指示所述多信道音频(118)对应于源自人的声音的可能性的第二分数(136)包括基于作为所述VAD模型(230)的输入接收的所述提取的音频数据的单个信道(119)生成
作为所述VAD模型(230)的输出的所述第二分数(136)。5.根据权利要求4所述的方法(800),其特征在于,进一步包括,由所述数据处理硬件(103)基于所述波束形成器(222)的置信度水平调整所述第二分数(136)。6.根据权利要求1
‑
5中任一项所述的方法(800),其特征在于,所述特别应用(150)经配置以处理的所述特别音频类型包括具有单个源位置的音频(320)或具有多个源位置的音频(310)中的之一。7.根据权利要求1
‑
6中任一项所述的方法(800),其特征在于,所述特别应用(150)经配置以处理的所述特别音频类型包括具有移动源位置的音频(420)或具有静态源位置的音频(410)中的之一。8.根据权利要求1
‑
7中任一项所述的方法(800),其特征在于,所述特别应用(150)经配置以处理的所述特别音频类型包括近源音频或远源音频中的之一。9.根据权利要求1
‑
8中任一项所述的方法(800),其特征在于,所述特别应用(150)经配置以处理的所述特别音频类型包括点源音频或扬声器系统音频中的之一。10.根据权利要求1
‑
9中任一项所述的方法(800),其特征在于,确定指示所述多信道音频(118)的所述源相对于所述用户设备(102)的所述位置的所述位置指纹(124)包括使用到达时间差和增益模型处理所述多信道音频(118)的每个信道(119)。11.根据权利要求1
‑
10中任一项所述的方法(800),其特征在于,确定指示所述多信道音频(118)的所述源相对于所述用户设备(102)的所述位置的所述位置指纹(124)包括使用空间概率模型处理所述多信道音频(118)的每个信道(119)。12.根据权利要求1
‑
11中任一项所述的方法(800),其特征在于,进一步包括:由所述数据处理硬件(103)基于所述位置指纹(124),生成作为来自特定应用分类器(130)输出的第二分数(136),所述第二分数(136)指示所述多信道音频(118)对应于与所述特别应用(150)被配置为处理的所述特别音频类型不同的音频类型的可能性;以及由所述数据处理硬件(103)忽略具有所述相同位置指纹(124)的后续流式多信道音频(118)。13.根据权利要求1
‑
12中任一项所述的方法(800),其特征在于,所述特定应用分类器(130)基于以下接受训练:正训练样本(712a),包括与所述特别应用(150)被配置为处理的所述特别音频类型对应的多信道音频(118);以及负训练样本(712b),包括与所述特别应用(150)未被配置为处理的一个或多个其它音频类型对应的多信道音频(118)。14.一种系统(100),其特征在于,包括:用户...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。