【技术实现步骤摘要】
【国外来华专利技术】多模式语音定位
技术介绍
可以使用机学习技术将人类语音转换为文本。然而,在包括两个或更多个讲话者的环境中,现有技术的语音识别器不能够可靠地将语音与正确的讲话者相关联。
技术实现思路
使用由一个或多个相机捕获的图像数据以及由两个或更多个麦克风的麦克风阵列捕获的音频数据,来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定在环境内观察到的每个人类面部的定位,包括面部的位置和取向。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的音频数据的频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。识别出的音频源由分类器指示为基于输入数据的输出。识别出的音频源由分类器估计为音频数据表示的声音所源自的人类面部。附图说明图1A-1C描绘了包括示例性计算机化会议助理的计算环境。图2示意性示出了通过声源定位机对声音信号的分析。图3示意性示出了通过波束形成机对声音信号的波束形成。 >图4示意性示出了通本文档来自技高网...
【技术保护点】
1.一种由计算系统执行的方法,所述方法包括:/n针对监视物理环境的一个或多个相机的相机阵列中的每个相机:/n接收由所述相机捕获的图像数据,以及/n基于所述图像数据来确定由所述相机捕获的每个人类面部的定位,每个人类面部的所述定位包括所述人类面部相对于参考坐标系的位置和取向;/n针对监视所述物理环境的两个或更多个麦克风的麦克风阵列中的每个麦克风:/n接收由所述麦克风捕获的音频数据,以及/n变换由所述麦克风捕获的所述音频数据以获得在多个频率间隔中离散化的、所述音频数据的频域表示;/n向在先训练的音频源定位分类器提供输入数据,所述输入数据包括:/n由所述麦克风阵列中的每个麦克风捕获 ...
【技术特征摘要】
【国外来华专利技术】20180507 US 62/668,198;20180627 US 16/020,9341.一种由计算系统执行的方法,所述方法包括:
针对监视物理环境的一个或多个相机的相机阵列中的每个相机:
接收由所述相机捕获的图像数据,以及
基于所述图像数据来确定由所述相机捕获的每个人类面部的定位,每个人类面部的所述定位包括所述人类面部相对于参考坐标系的位置和取向;
针对监视所述物理环境的两个或更多个麦克风的麦克风阵列中的每个麦克风:
接收由所述麦克风捕获的音频数据,以及
变换由所述麦克风捕获的所述音频数据以获得在多个频率间隔中离散化的、所述音频数据的频域表示;
向在先训练的音频源定位分类器提供输入数据,所述输入数据包括:
由所述麦克风阵列中的每个麦克风捕获的所述音频数据的所述频域表示,以及
由所述相机阵列中的每个相机捕获的每个人类面部的所述定位,其中,每个人类面部的所述定位表示候选音频源;以及
基于所述输入数据从所述音频源定位分类器接收来自一个或多个候选音频源中的、被估计为所述音频数据所源自的所述人类面部的识别出的音频源的指示。
2.根据权利要求1所述的方法,其中,所述识别出的音频源是由所述音频源定位分类器基于针对所述频域表示的所述多个频率间隔中的每个频率间隔识别出的估计的置信度的组合来识别的。
3.根据权利要求1所述的方法,还包括:
将所述识别出的音频源归因于所述音频数据所源自的身份。
4.根据权利要求3所述的方法,还包括:
针对每个人类面部,通过使用在先训练的面部识别分类器基于所述图像数据来确定所述人类面部的身份;并且
其中,将所述识别出的音频源归因于所述身份包括:将指示所述身份的数据标签与所述音频数据相关联。
5.根据权利要求3所述的方法,还包括:
通过使用在先训练的语音识别分类器基于所述音频数据来确定所述识别出的音频源的身份;并且
其中,将所述识别出的音频源归因于所述身份包括:将指示所述身份的数据标签与所述音频数据相关联。
6.根据权利要求3所述的方法,其中,将所述识别出的音频源归因于所述身份包括:将指示所述身份的数据标签存储为所述音频数据的元数据。
7.根据权利要求6所述的方法,还包括:
存储另一数据标签,所述另一数据标签指示被估计为所述音频数据所源自的所述人类面部的所述识别出的音频源的所述定位的所述位置和/或所述取向。
8.根据权利要求1所述的方法,其中,所述音频数据表示由所述...
【专利技术属性】
技术研发人员:E·克鲁普卡,肖雄,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。