使嘴部图像与输入指令关联的系统和方法技术方案

技术编号：23865780 阅读：30 留言：0更新日期：2020-04-18 16:52

一种自动会话识别系统使用：计算机存储器；执行成像软件和音频处理软件的处理器；以及传输会话输入的物理源的图像的相机。音频处理软件包括从至少一个会话输入导出的音频样本的音频数据流。至少一个定时器被配置为响应于至少一个定时器接收到的各个触发点而向所述计算机存储器传输所测量的经过时间值。音频处理软件被配置为对定时器触发点进行起效和解除起效，以测量音频样本之间的相应音频采样时间和过渡周期时间。音频处理软件还被配置为将过渡周期时间与对应于指令之间的期望过渡时间值的指令间隔时间值进行比较，由此确定会话输入为指令数据或非指令数据。

System and method of associating mouth image with input command

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使嘴部图像与输入指令关联的系统和方法相关申请的交叉引用本申请要求2017年3月23日提交的标题为“SystemandMethodofCorrelatingMouthImagestoInputCommands”的待审美国临时专利申请No.62/475,510的优先权，并且通过引用将其全部并入该案。
技术介绍
本公开涉及自动会话识别和从会话输入装置接收音频指令的领域，其中，将音频指令与来自成像装置或图像传感器(例如聚焦于音频指令源的相机)的图像数据进行交叉检查。口述词句是通过嘴部运动调节从说话者的嘴部通过空气传播的声波而产生的。用户的车辆会话输入系统通常包括一个或多个被放置以检测语音的麦克风。典型地，这些麦克风是机电组件，这些机电组件在一定范围的会话(频率小于20khz的声波)的机械频率上发生机械共振。可以将数字语音令牌(时间性会话片段)发送到人工语音识别系统，并转换为数字请求(例如，车辆信息娱乐系统或车辆控制系统中的信息技术请求，或通过无线网络传输的外部基于Web的服务请求)。这些音频请求的成果是使所需功能简化和/或自动化，以增强用户的舒适度和/或便利性和/或安全性——通常这三个方面都被增强。为了改善人工语音识别系统的性能，已经开发了许多数字和算法驱动的方法。例如，基于从音频内容中学习特定用户会话特征的令牌匹配系统通常用于提高人工语音识别系统的成功率。另一种典型的方法是使用人工智能技术来将语音输入的会话特征与一个或多个音标特征(例如语言、发音等)进行匹配。通常用于减少噪声的一种附加方法是要求用户按下通常在方向盘上的机电按钮，...

【技术保护点】
1.一种用于监测车辆内区域的系统，包括：/n计算机存储器；/n处理器，其执行成像软件和音频处理软件；/n成像装置，其将来自从车辆内与所述成像装置相关联的视场获取的图像的像素数据的多个帧传输到所述成像软件；/n会话输入装置，其将从至少一个会话输入导出的音频样本的音频数据流传输到所述音频处理软件；/n其中，所述处理器被配置为从所述像素数据的帧和所述音频样本中识别所述音频数据流的源。/n

【技术特征摘要】
【国外来华专利技术】20170323 US 62/475,5101.一种用于监测车辆内区域的系统，包括：
计算机存储器；
处理器，其执行成像软件和音频处理软件；
成像装置，其将来自从车辆内与所述成像装置相关联的视场获取的图像的像素数据的多个帧传输到所述成像软件；
会话输入装置，其将从至少一个会话输入导出的音频样本的音频数据流传输到所述音频处理软件；
其中，所述处理器被配置为从所述像素数据的帧和所述音频样本中识别所述音频数据流的源。

2.根据权利要求1所述的系统，进一步包括：
至少一个定时器，其被配置为响应于所述至少一个定时器接收到的各个触发点而向所述计算机存储器传输所测量的经过时间值；
其中，所述音频处理软件被配置为对定时器触发点进行起效和解除起效，以测量所述音频样本之间的相应音频采样时间和过渡周期时间，从而识别所述音频数据流的源。

3.根据权利要求2所述的系统，其中，所述音频处理软件还被配置为将所述过渡周期时间与对应于指令间的期望过渡时间值的指令间隔时间值进行比较。

4.根据权利要求1所述的系统，进一步包括：幅度阈值，所述幅度阈值存储在所述计算机存储器中，
其中，所述音频处理软件被进一步配置为将相应音频样本的幅度与所述幅度阈值进行比较，以区分有效音频样本、无效音频样本和音频样本之间的过渡周期。

5.根据权利要求4所述的系统，进一步包括：指令处理软件，所述指令处理软件被配置为(i)跟踪时域内的效音频样本、(ii)丢弃无效的音频样本，并且(iii)跟踪所述时域内的所述过渡周期。

6.根据权利要求5所述的系统，其中，所述指令处理软件还跟踪所述时域内的所述像素数据的帧，并利用所述处理器和所述计算机存储器来在所述时域中将所述像素数据的帧与时间上对应的有效音频样本和过渡周期分为一组。

7.根据权利要求1所述的系统，其中，所述成像软件被配置为将所述像素数据的连续帧进行比较，并确定所述连续帧之间的图像差异。

8.根据权利要求7所述的系统，其中，所述会话输入源自用户嘴部，并且所述图像差异包括所述帧中的像素差异，所述像素差异确定了用户嘴部在运动和/或不动。

9.根据权利要求8所述的系统，其中，所述处理器访问存储在所述计算机存储器中的指令处理软件，并且根据由所述像素数据的子集表示的所述嘴部的虚拟位置来计算所述嘴部相对于所述成像装置的所述视场的物理位置。

10.根据权利要求9所述的系统，其中，所述处理器访问存储在所述计算机存储器中的指令处理软件，并且确定出在有效音频样本期间或者在过渡周期期间的所述嘴部的多个虚拟位置。

11.根据权利要求1...

【专利技术属性】
技术研发人员：伦纳德·切赫，詹森·利斯曼，
申请(专利权)人：乔伊森安全系统收购有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人