【技术实现步骤摘要】
【国外来华专利技术】基于车辆的对乘员音频和可视输入的确定
技术介绍
语音控制系统通常伴随具有离线训练和在线识别的基于统计学的算法。在学术界和工业界,发言者识别(例如,谁正在发言)和话语识别(例如,正在说什么)已成为两个活跃的主题。语音识别典型地被理解为发言者识别和话语识别的组合。语音识别可以使用发言者语音的所学习的方面来确定正在说什么。例如,某些语音识别系统可能无法非常准确地识别来自随机发言者的话语,但对已由语音识别系统训练过的个体语音可以达到高准确度。音频-可视话语识别在学术界已经研究了几十年。普通的音频-可视话语识别包括面部检测、跟踪;面部特征定位;用于可视话语的面部特征表示;话语的音频和可视表示的融合。现有用于车载信息娱乐(IVI)系统(例如OnStar、SYNC、以及Nuance)的话语控制系统典型地依赖于声学信号处理技术来进行话语识别。现有用于车载信息娱乐的话语控制系统尚未引入可视信号处理技术来进行语音识别。【附图说明】在附图中以示例方式而不是以限制的方式说明了本文描述的内容。为了说明的简单和清晰,在附图中示出的元件不一定按比例绘制。例如,为了清晰,某些元件的尺寸可能相对其他元件被放大了。此外,在认为适当之处,附图标记在附图之间重复,以指示相应的或类似的元件。在附图中:图1为示例性车载信息娱乐(IVI)系统的示意图;图2为示出了示例性语音识别过程的流程图;图3为操作中的示例性车载信息娱乐系统(IVI)的示意图;图4示出了在唇部跟踪期间被处理的若干示例性图像;图5是示例性系统的示意图;以及图6是全部根据本公开的至少一些实现方式布置的示例性系统的示意图。【具体实施方式】现 ...
【技术保护点】
一种计算机实现的方法,包括:接收音频数据,其中,所述音频数据包括来自车辆的一个或多个乘员的口语输入;接收可视数据,其中,所述可视数据包括所述车辆的所述一个或多个乘员的视频;以及至少部分地基于所接收的可视数据,来确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联。
【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括: 接收音频数据,其中,所述音频数据包括来自车辆的一个或多个乘员的口语输入; 接收可视数据,其中,所述可视数据包括所述车辆的所述一个或多个乘员的视频;以及 至少部分地基于所接收的可视数据,来确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联。2.根据权利要求1所述的方法,还包括: 至少部分地基于所接收的音频数据,来执行话语识别;以及 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别。3.根据权利 要求1所述的方法,还包括: 至少部分地基于所接收的音频数据,来执行话语识别; 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别;以及 至少部分地基于所执行的话语识别来确定用户命令。4.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分。5.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分;以及 至少部分地基于所述面部检测,来将所述车辆的所述一个或多个乘员与个体简档关联起来。6.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪。7.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来将所述车辆的所述一个或多个乘员与个体简档关联起来; 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪; 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中是否有任何乘员正在发言;以及 至少部分地基于对所述车辆的所述一个或多个乘员中是否有任何乘员正在发言的确定,来降低车辆音频输出的音量。8.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来将所述车辆的所述一个或多个乘员与个体简档关联起来; 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪; 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中的哪个正在发言; 所述方法还包括: 至少部分地基于所接收的音频数据,来执行话语识别;以及 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别。9.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分;以及至少部分地基于所述面部检测,来将所述车辆的所述一个或多个乘员与个体简档关联起来; 至少部分地基于所接收的可视数据和所执行的面部检测,来执行对所述车辆的所述一个或多个乘员的唇部跟踪; 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中是否有任何乘员正在发言;以及 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中的哪个正在发言; 所述方法还包括: 至少部分地基于所接收的音频数据,来执行话语识别;以及 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别;以及至少部分地基于所执行的话语识别,来确定用户命令。10.一种包括计算机程序产品的制品,所述计算机程序产品具有存储在其中的指令,所述指令如果被执行则导致: 接收音频数据,其中,所述音频数据包括来自车辆的一个或多个乘员的口语输入;接收可视数据,其中,所述可视数据包括所述车辆的所述一个或多个乘员的视频;以及至少部分地基于所接收的可视数据,来确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联。11.根据权利要求10所述的制品,其中,所述指令如果被执行则还导致: 至少部分地基于所接收的音频数据,来执行话语识别; 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别;以及至少部分地基于所执行的话语识别,来确定用户命令。12.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分。13.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分;以及 至少部分地基于所述面部检测,来将所述车辆的所述一个或多个乘员与个体简档关联起来。14.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪。15.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来将所述车辆的所述一个或多个乘员与个体简档关联起来; 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪; 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中是否有任何乘员正在发言;以及 至少部分地基于对所述车辆的所述一个或多个乘员中是否有任何乘员正在发言的确定,来降低车辆音频输出的音量。16.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。