使嘴部图像与输入指令关联的系统和方法技术方案

技术编号:23865780 阅读:30 留言:0更新日期:2020-04-18 16:52
一种自动会话识别系统使用:计算机存储器;执行成像软件和音频处理软件的处理器;以及传输会话输入的物理源的图像的相机。音频处理软件包括从至少一个会话输入导出的音频样本的音频数据流。至少一个定时器被配置为响应于至少一个定时器接收到的各个触发点而向所述计算机存储器传输所测量的经过时间值。音频处理软件被配置为对定时器触发点进行起效和解除起效,以测量音频样本之间的相应音频采样时间和过渡周期时间。音频处理软件还被配置为将过渡周期时间与对应于指令之间的期望过渡时间值的指令间隔时间值进行比较,由此确定会话输入为指令数据或非指令数据。

System and method of associating mouth image with input command

【技术实现步骤摘要】
【国外来华专利技术】使嘴部图像与输入指令关联的系统和方法相关申请的交叉引用本申请要求2017年3月23日提交的标题为“SystemandMethodofCorrelatingMouthImagestoInputCommands”的待审美国临时专利申请No.62/475,510的优先权,并且通过引用将其全部并入该案。
技术介绍
本公开涉及自动会话识别和从会话输入装置接收音频指令的领域,其中,将音频指令与来自成像装置或图像传感器(例如聚焦于音频指令源的相机)的图像数据进行交叉检查。口述词句是通过嘴部运动调节从说话者的嘴部通过空气传播的声波而产生的。用户的车辆会话输入系统通常包括一个或多个被放置以检测语音的麦克风。典型地,这些麦克风是机电组件,这些机电组件在一定范围的会话(频率小于20khz的声波)的机械频率上发生机械共振。可以将数字语音令牌(时间性会话片段)发送到人工语音识别系统,并转换为数字请求(例如,车辆信息娱乐系统或车辆控制系统中的信息技术请求,或通过无线网络传输的外部基于Web的服务请求)。这些音频请求的成果是使所需功能简化和/或自动化,以增强用户的舒适度和/或便利性和/或安全性——通常这三个方面都被增强。为了改善人工语音识别系统的性能,已经开发了许多数字和算法驱动的方法。例如,基于从音频内容中学习特定用户会话特征的令牌匹配系统通常用于提高人工语音识别系统的成功率。另一种典型的方法是使用人工智能技术来将语音输入的会话特征与一个或多个音标特征(例如语言、发音等)进行匹配。通常用于减少噪声的一种附加方法是要求用户按下通常在方向盘上的机电按钮,以将语音捕获限制在按下按钮的时间。在一些情况下,声音检测和处理系统使用一个或多个麦克风,并且使用后续信号处理来降低噪声(包括道路噪声、来自车辆娱乐系统产生的噪声和非用户的音频输入)的影响。降噪可以通过适当的麦克风的几何布置来实现,以在降低噪声的同时增强用户语音输入。另外,多个麦克风相对于正常驾驶过程中用户位置的适当对称布置有助于降低外部噪声源的影响。具体地,例如,假设用户是车辆的驾驶员,“目视道路”,则在眼睛自然地面向前方时将麦克风相对于自然嘴部位置的视轴矢量对称地放置。研究显示,对麦克风输入的后续相位对消处理可以大大降低噪声的影响。在此示例中,在多个麦克风处检测到的用户会话信号的相位是相同的(因此距离用户嘴部的行进距离相同),而多个麦克风处的来自车辆内部/外部其他位置的噪声相位则具有不同的相位,因此可以通过各种信号处理技术过滤掉此声音。自动会话识别处理中的误差可导致错误地确定意旨的用户会话,从而导致用户潜在的挫败感(和/或分心)。例如,会话识别可能会错误地解读声音并发出错误的请求(例如,呼叫错误的人)。或者,会话识别会忽略该请求。包括了声音检测和测量系统在内的自动会话识别处理的一个目标是最大化用户的会话输入声音(信号)的质量,并最小化不需要的声音(噪声),例如,最大化信噪比(SNR:SignaltoNoise)。自动会话识别领域中的一个问题在于,对于现有技术的系统而言,缺乏可靠的方式来用附加的带外(out-of-band)信息(即,除标准音频信号分析之外的信息)来复查所感知的会话输入。本领域在构造自动会话识别系统方面存在需求,以使发出至车辆操作及性能系统的用户指令在来源、授权和内容方面都得到保证。
技术实现思路
在一个实施例中,本公开提供了一种自动会话识别系统,其包括:计算机存储器;处理器,其执行成像软件和音频处理软件;相机,其传输来自从与相机相关联的视场内获取的图像的数字像素数据的多个连续帧;会话输入装置,其将从至少一个会话输入导出的音频样本的音频数据流传输到所述音频处理软件;以及至少一个定时器,其被配置为响应于所述至少一个定时器接收到的各个触发点而向所述计算机存储器传输所测量的经过时间值。音频处理软件被配置为对定时器触发进行起效和解除起效,以测量音频样本之间的相应的音频采样时间和过渡周期时间。音频处理软件还被配置为将过渡周期时间与对应于指令间的期望过渡时间值的指令间隔时间值进行比较。在第二实施例中,自动会话识别系统包括:计算机存储器;处理器,其执行成像软件、音频处理软件和指令处理软件;相机,其传输来自从与相机相关联的视场内获取的图像的数字像素数据的多个连续帧;以及会话输入装置,其将从至少一个会话输入导出的音频样本的音频数据流传输到所述音频处理软件。成像软件从数字像素数据帧中隔离出代表了会话输入物理源的像素子集。指令处理软件可以是存储在存储器中的计算机可读指令的子程序,并且按时间将各音频样本与代表了图像数据的各组连续帧中的物理源的各像素子集相关联。成像软件被配置为通过从像素的各子集中推导出物理源的各自位置来跟踪会话输入的物理源的多个位置。指令处理软件根据会话输入的所述物理源相对于所述会话输入装置的各自位置来将音频样本验证为指令。在另一个实施例中,自动会话识别的数据获取系统包括:计算机存储器,处理器,其执行成像软件、音频处理软件、指令处理软件和编解码软件。该系统还包括:相机,其向存储器传输来自从与相机相关联的视场内获取的图像的数字像素数据的多个帧。会话输入装置向存储器传输从各会话输入导出的一组音频数据流。成像软件从数字像素数据帧中隔离出代表了会话输入源的像素子集。处理器基于代表了会话输入源的像素子集来针对各组数字音频样本生成语音令牌资料,其中,处理器在数据库中存储相应的会话资料,针对与各个用户相关联的已识别会话资料来过滤数据库,并且将已识别会话资料存储为针对相应个人的各自编解码。附图说明图1A是本文所述的自动会话识别系统的示意图。图1B是由相机采集的图像数据的第一帧,该相机在相机视场中具有第一用户并且与本文所述的自动会话识别系统相关联。图1C是由相机采集的图像数据的第二帧,该相机在相机视场中具有第二用户并且与本文所述的自动会话识别系统相关联。图1D是由相机采集的图像数据的第三帧,该相机在相机视场中具有第三用户并且与本文所述的自动会话识别系统相关联。图2A是在使用本文所述的自动会话识别系统的车辆中,针对不同用户位置的可调节相机视场的示意图。图2B是来自图2A的相机的图像数据的第一帧,并且聚焦在位于相机视场内的第一位置处的用户嘴部。图2C是来自图2A的相机的图像数据的第二帧,并且聚焦在位于相机视场内的第二位置处的用户嘴部。图3A是由图1的自动会话识别系统检索的音频信号的语音令牌配置文件的曲线图。图3B是与图3A的语音令牌配置文件相关联并且显示用户嘴部在运动的图像数据的帧。图3C是与图3A的语音令牌配置文件相关联并且显示用户嘴部静止的图像数据的第二帧。图4A是安装在车辆中的相机的侧视图,该相机视场内有用户头部并且用户头部略微转向用户右侧。图4B是安装在车辆中的相机的侧视图,该相机视场内有用户头部并且用户头部直接面对相机,且用户眼睛注视道路。图4C是安装在车辆中的相机的侧视图,该相机视场内有用户头部并且用户头部略微转向用户左侧。图4D是安装在车辆中的相机的侧本文档来自技高网
...

【技术保护点】
1.一种用于监测车辆内区域的系统,包括:/n计算机存储器;/n处理器,其执行成像软件和音频处理软件;/n成像装置,其将来自从车辆内与所述成像装置相关联的视场获取的图像的像素数据的多个帧传输到所述成像软件;/n会话输入装置,其将从至少一个会话输入导出的音频样本的音频数据流传输到所述音频处理软件;/n其中,所述处理器被配置为从所述像素数据的帧和所述音频样本中识别所述音频数据流的源。/n

【技术特征摘要】
【国外来华专利技术】20170323 US 62/475,5101.一种用于监测车辆内区域的系统,包括:
计算机存储器;
处理器,其执行成像软件和音频处理软件;
成像装置,其将来自从车辆内与所述成像装置相关联的视场获取的图像的像素数据的多个帧传输到所述成像软件;
会话输入装置,其将从至少一个会话输入导出的音频样本的音频数据流传输到所述音频处理软件;
其中,所述处理器被配置为从所述像素数据的帧和所述音频样本中识别所述音频数据流的源。


2.根据权利要求1所述的系统,进一步包括:
至少一个定时器,其被配置为响应于所述至少一个定时器接收到的各个触发点而向所述计算机存储器传输所测量的经过时间值;
其中,所述音频处理软件被配置为对定时器触发点进行起效和解除起效,以测量所述音频样本之间的相应音频采样时间和过渡周期时间,从而识别所述音频数据流的源。


3.根据权利要求2所述的系统,其中,所述音频处理软件还被配置为将所述过渡周期时间与对应于指令间的期望过渡时间值的指令间隔时间值进行比较。


4.根据权利要求1所述的系统,进一步包括:幅度阈值,所述幅度阈值存储在所述计算机存储器中,
其中,所述音频处理软件被进一步配置为将相应音频样本的幅度与所述幅度阈值进行比较,以区分有效音频样本、无效音频样本和音频样本之间的过渡周期。


5.根据权利要求4所述的系统,进一步包括:指令处理软件,所述指令处理软件被配置为(i)跟踪时域内的效音频样本、(ii)丢弃无效的音频样本,并且(iii)跟踪所述时域内的所述过渡周期。


6.根据权利要求5所述的系统,其中,所述指令处理软件还跟踪所述时域内的所述像素数据的帧,并利用所述处理器和所述计算机存储器来在所述时域中将所述像素数据的帧与时间上对应的有效音频样本和过渡周期分为一组。


7.根据权利要求1所述的系统,其中,所述成像软件被配置为将所述像素数据的连续帧进行比较,并确定所述连续帧之间的图像差异。


8.根据权利要求7所述的系统,其中,所述会话输入源自用户嘴部,并且所述图像差异包括所述帧中的像素差异,所述像素差异确定了用户嘴部在运动和/或不动。


9.根据权利要求8所述的系统,其中,所述处理器访问存储在所述计算机存储器中的指令处理软件,并且根据由所述像素数据的子集表示的所述嘴部的虚拟位置来计算所述嘴部相对于所述成像装置的所述视场的物理位置。


10.根据权利要求9所述的系统,其中,所述处理器访问存储在所述计算机存储器中的指令处理软件,并且确定出在有效音频样本期间或者在过渡周期期间的所述嘴部的多个虚拟位置。


11.根据权利要求1...

【专利技术属性】
技术研发人员:伦纳德·切赫詹森·利斯曼
申请(专利权)人:乔伊森安全系统收购有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1