当前位置: 首页 > 专利查询>英特尔公司专利>正文

基于车辆的对乘员音频和可视输入的确定制造技术

技术编号:10372992 阅读:224 留言:0更新日期:2014-08-28 14:57
描述了包括用于接收来自车辆的一个或多个乘员的音频数据和可视数据的操作的系统、装置、制品和方法。可以至少部分地基于所接收的可视数据来做出关于车辆的一个或多个乘员中的哪个与所接收的音频数据相关联的确定。

【技术实现步骤摘要】
【国外来华专利技术】基于车辆的对乘员音频和可视输入的确定
技术介绍
语音控制系统通常伴随具有离线训练和在线识别的基于统计学的算法。在学术界和工业界,发言者识别(例如,谁正在发言)和话语识别(例如,正在说什么)已成为两个活跃的主题。语音识别典型地被理解为发言者识别和话语识别的组合。语音识别可以使用发言者语音的所学习的方面来确定正在说什么。例如,某些语音识别系统可能无法非常准确地识别来自随机发言者的话语,但对已由语音识别系统训练过的个体语音可以达到高准确度。音频-可视话语识别在学术界已经研究了几十年。普通的音频-可视话语识别包括面部检测、跟踪;面部特征定位;用于可视话语的面部特征表示;话语的音频和可视表示的融合。现有用于车载信息娱乐(IVI)系统(例如OnStar、SYNC、以及Nuance)的话语控制系统典型地依赖于声学信号处理技术来进行话语识别。现有用于车载信息娱乐的话语控制系统尚未引入可视信号处理技术来进行语音识别。【附图说明】在附图中以示例方式而不是以限制的方式说明了本文描述的内容。为了说明的简单和清晰,在附图中示出的元件不一定按比例绘制。例如,为了清晰,某些元件的尺寸可能相对其他元件被放大了。此外,在认为适当之处,附图标记在附图之间重复,以指示相应的或类似的元件。在附图中:图1为示例性车载信息娱乐(IVI)系统的示意图;图2为示出了示例性语音识别过程的流程图;图3为操作中的示例性车载信息娱乐系统(IVI)的示意图;图4示出了在唇部跟踪期间被处理的若干示例性图像;图5是示例性系统的示意图;以及图6是全部根据本公开的至少一些实现方式布置的示例性系统的示意图。【具体实施方式】现在参考随附的附图对一个或多个实施例或实现方式进行描述。虽然讨论的是具体的配置和布置,但应当理解,这仅是出于举例说明的目的进行的。相关领域技术人员将认识到,在不脱离本说明书精神和范围的情况下可以使用其它配置和布置。在此描述的技术和/或布置也可以在不同于在此所描述的各种其它系统和应用中使用,这对相关领域技术人员来说是显而易见的。虽然下述说明提出了可以体现在例如像片上系统(SoC)架构的架构中的各种实现方式,但在此所描述的技术和/或布置的实现方式并不限于具体的架构和/或计算系统,并且可以通过任何用于类似目的的架构和/或计算系统来实现。举例来说,例如采用多个集成电路(IC)芯片和/或封装的各种架构、和/或各种计算设备和/或消费性电子产品(CE)设备(例如机顶盒、智能电话等)可以实现在此所描述的技术和/或布置。此外,虽然下述说明可能提出许多具体细节(诸如系统组件的逻辑实现方式、类型和相互关系,逻辑划分/集成选择等等),但要求保护的主题可以在没有这些具体细节的情况下被实现。在其他例子中,例如,可能没有详细地示出诸如控制结构和完整的软件指令序列之类的一些内容,以免模糊这里所公开的内容。在此所公开的内容可以用硬件、固件、软件或它们的任意组合来实现。在此所公开的内容也可以作为存储在机器可读介质上的指令来实现,所述指令可以由一个或多个处理器读出并执行。机器可读介质可以包括任何用于以机器(例如,计算设备)可读形式存储或传送信息的介质和/或机制。例如,机器可读介质可以包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪存装置;电学的、光学的、声学的或其它形式的传播信号(例如,载波、红外信号、数字信号,等等)以及其他。在本说明书中对“一种实现方式”,“实现方式”,“示例性实现方式”等的提及表示所描述的实现方式可以包括特定的特征、结构或特性,但不是每种实现方式都必须包括所述特定的特征、结构或特性。并且,这样的短语不一定指的是同一实现方式。此外,当结合一实现方式来描述特定的特征、结构或特性时,所主张的是:结合其他实现方式(不管是否在本文中被显式地描述)来实现这样的特征、结构或特性落入本领域技术人员的知识范围内。下面描述的系统、装置、制品和方法包括用于从车辆的一个或多个乘员接收音频数据和可视数据的操作。可以至少部分地基于所接收的可视数据,来做出关于车辆的一个或多个乘员中的哪个与所接收的音频数据相关联的确定。在某些示例中,可以实现唇部检测和跟踪以用于车载信息娱乐(IVI)系统中的智能语音控制。某些IVI系统可以基于少数几个预定义的词汇来执行基于话语的识别控制。车载话语识别系统通常具有挑战,例如,车载话语识别系统通常具有信噪比在5到20分贝范围内的噪音环境。此外,车载话语识别系统通常还具有安装在距发言者30至100厘米处的低成本的麦克风。更自然的用户接口可能会利用更自然的和/或更稳健的语言处理技术。例如,在某些示例性实现方式中,IVI系统可以提取发言者的可视数据,以增强噪音稳健的语音识别系统。例如,当多于一个的用户说出语音指令时,对于IVI系统来说,可能有用的是分辨哪个发言者正在发言并适应特定于用户的话语识别器。类似地,当驾驶员正在做出语音指令时,可能有用的是自动降低收音机音量以使背景噪音更低。如将在下面更详细地描述的,某些示例性实现方式可以将唇部检测和跟踪用于发言者识别(例如,发言者变化检测)和用于自适应的特定于用户的语音识别。在所述音频-可视语音识别系统中,唇读可以依赖于唇部轮廓检测和/或跟踪的准确性。类似地,准确的唇部检测同样可以依赖于面部检测的稳健性。如在此所用的,术语“发言者识别”可以指谁正在发言的识别。如在此所用的,术语“话语识别”可以指正在说什么的识别。如在此所用的,术语“语音识别”可以指至少部分基于谁正在发言的识别对正在说什么的识别,或者,换句话说,作为发言者识别和话语识别的组合。音频-可视语音控制一般是计算昂贵的,但可能能够提供比单独的话语识别更高的识别准确性。图1是根据本公开的至少某些实现方式布置的示例性车载信息娱乐(IVI)系统100的示意图。在图示的实现方式中,IVI系统100可以包括成像装置104和麦克风装置106。IVI系统100可以是可操作地与车辆108相关联的。例如,IVI系统100可以位于车辆108内。在某些示例中,IVI系统100可以包括为清楚起见而未在图1中示出的附加项目。例如,IVI系统100可以包括处理器、射频型(RF)收发器和/或天线。另外,IVI系统100可以包括为清除起见而未在图1中示出的其他项目,如扬声器、显示器、加速计、存储器、路由器、网络接口逻辑等等。如在此所用的,术语“车载信息娱乐”可以指被配置为执行娱乐和/或信息服务的位于车辆内的系统。在某些示例中,车载信息娱乐可以指:逐转弯的导航(turn-by-turnnavigation)、免提通话、车辆诊断、紧急服务、911帮助、音乐搜索、可听文本消息、商业搜索、兴趣点网络搜索、语音至文本消息传送、无线充电、远程监控等等,和/或它们的组合。在上述应用当中,可能利用在此所讨论的语音识别技术的用户接口特征的某些更具体的示例可以包括:智能手机应用的语音控制、语音激活的导航系统、语音控制和触摸屏访问的组合、语音命令、基于蓝牙的语音通信应用、基于语音的Facebook应用、驾驶时基于语音的文本消息、交互式语音响应等等,和/或它们的组合。成像装置104可以被配置为从车辆108的一个或多个乘员110捕捉可视数据。例如,成像装置104可以被配置为从驾驶员11本文档来自技高网...
基于车辆的对乘员音频和可视输入的确定

【技术保护点】
一种计算机实现的方法,包括:接收音频数据,其中,所述音频数据包括来自车辆的一个或多个乘员的口语输入;接收可视数据,其中,所述可视数据包括所述车辆的所述一个或多个乘员的视频;以及至少部分地基于所接收的可视数据,来确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联。

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括: 接收音频数据,其中,所述音频数据包括来自车辆的一个或多个乘员的口语输入; 接收可视数据,其中,所述可视数据包括所述车辆的所述一个或多个乘员的视频;以及 至少部分地基于所接收的可视数据,来确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联。2.根据权利要求1所述的方法,还包括: 至少部分地基于所接收的音频数据,来执行话语识别;以及 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别。3.根据权利 要求1所述的方法,还包括: 至少部分地基于所接收的音频数据,来执行话语识别; 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别;以及 至少部分地基于所执行的话语识别来确定用户命令。4.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分。5.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分;以及 至少部分地基于所述面部检测,来将所述车辆的所述一个或多个乘员与个体简档关联起来。6.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪。7.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来将所述车辆的所述一个或多个乘员与个体简档关联起来; 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪; 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中是否有任何乘员正在发言;以及 至少部分地基于对所述车辆的所述一个或多个乘员中是否有任何乘员正在发言的确定,来降低车辆音频输出的音量。8.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来将所述车辆的所述一个或多个乘员与个体简档关联起来; 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪; 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中的哪个正在发言; 所述方法还包括: 至少部分地基于所接收的音频数据,来执行话语识别;以及 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别。9.根据权利要求1所述的方法,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分;以及至少部分地基于所述面部检测,来将所述车辆的所述一个或多个乘员与个体简档关联起来; 至少部分地基于所接收的可视数据和所执行的面部检测,来执行对所述车辆的所述一个或多个乘员的唇部跟踪; 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中是否有任何乘员正在发言;以及 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中的哪个正在发言; 所述方法还包括: 至少部分地基于所接收的音频数据,来执行话语识别;以及 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别;以及至少部分地基于所执行的话语识别,来确定用户命令。10.一种包括计算机程序产品的制品,所述计算机程序产品具有存储在其中的指令,所述指令如果被执行则导致: 接收音频数据,其中,所述音频数据包括来自车辆的一个或多个乘员的口语输入;接收可视数据,其中,所述可视数据包括所述车辆的所述一个或多个乘员的视频;以及至少部分地基于所接收的可视数据,来确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联。11.根据权利要求10所述的制品,其中,所述指令如果被执行则还导致: 至少部分地基于所接收的音频数据,来执行话语识别; 至少部分地基于所执行的话语识别和对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定,来执行语音识别;以及至少部分地基于所执行的话语识别,来确定用户命令。12.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分。13.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的面部检测,其中,所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分;以及 至少部分地基于所述面部检测,来将所述车辆的所述一个或多个乘员与个体简档关联起来。14.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪。15.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至少部分地基于所接收的可视数据,来将所述车辆的所述一个或多个乘员与个体简档关联起来; 至少部分地基于所接收的可视数据,来执行对所述车辆的所述一个或多个乘员的唇部跟踪; 至少部分地基于所述唇部跟踪,来确定所述车辆的所述一个或多个乘员中是否有任何乘员正在发言;以及 至少部分地基于对所述车辆的所述一个或多个乘员中是否有任何乘员正在发言的确定,来降低车辆音频输出的音量。16.根据权利要求10所述的制品,其中,确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括: 至...

【专利技术属性】
技术研发人员:P·王Y·张
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1