当前位置: 首页 > 专利查询>苹果公司专利>正文

使用多模态信号分析进行命令处理制造技术

技术编号:20881792 阅读:46 留言:0更新日期:2019-04-17 13:09
在时间间隔期间从个体收集与第一信号模态(诸如,注视的所述方向)相对应的第一组信号。还收集与不同信号模态(诸如,由所述个体作出的手指向姿态)相对应的第二组信号。响应于命令,其中所述命令不识别所述命令所指向的特定对象,所述第一组信号和所述第二组信号用于识别所关注的候选对象,并且执行与从所述候选对象中选定对象相关联的操作。

【技术实现步骤摘要】
【国外来华专利技术】使用多模态信号分析进行命令处理
本公开整体涉及被设计用于检测和响应自然人类移动和会话查询的系统,并且更具体地涉及被设计用于识别个体所关注的实体并对其采取动作的系统,识别方法是利用从若干类型信号(诸如,姿态和注视方向)的组合得到的可能不精确的提示。
技术介绍
若干系统(包括一些计算机游戏系统)已经实现检测特定类型的人类姿态或移动的技术。然而,在许多情况下,这些系统中对移动和语音的解释通常限于非常特定的领域(诸如,正在播放的特定游戏,或需要握在手中的特定输入设备的移动)和位置(例如,与系统交互的个体可能必须位于单个房间中的特定相机角度范围内)。尽管一些虚拟现实系统可使得用户能够沉浸在选定环境中,但可在此类系统内使用自然人类行为以用于一般目的的程度也受到最大的限制。
技术实现思路
本专利技术描述了用于使用多模态信号分析来处理个人的(例如,以自然语言表达的)命令和查询的方法和装置的各种实施方案。在至少一些实施方案中,该方法可包括在至少特定时间间隔期间获取与第一信号模态(例如,个体注视的方向)相对应的第一组信号。该方法还可包括获取与不同信号模态(诸如,手指向姿态或头部移动诸如点头)相对应的第二组信号。在一些实施方案中,获取的数据组中的一者或两者可包括定时信息,例如,数据组中可指出作出各种姿态或注视方向保持稳定一段时间的特定时间。响应于命令,例如来自个体的口头命令,该命令未明确地、决定性地或最终地识别命令所指向的目标对象,该方法可包括利用第一数据组和/或第二数据组来识别所关注的一个或多个候选对象以及使得执行与一个或多个候选对象中的选定对象相关联的操作。在至少一些实施方案中,在至少某个时间段内,与模态中的一者或多者相对应的有用信号数据可能丢失,在这种情况下,可利用可用数据来识别候选对象。例如,在注视和姿态为选择的模态的实施方案中,如果在某个时间段内注视信号不可用但姿态信号可用,则可使用姿态信号(反之亦然)。如果在与命令相关联的某个时间段内注视数据和姿态数据均不可用,但个体的外部环境的视频可用,则可在没有任何定向性特征的情况下尽最大努力仅根据视频来识别所关注的候选对象。在一些实施方案中,命令可以除语音或声音之外的模态来表达:例如,经由手语或使用触摸屏界面。一般来讲,在各种实施方案中使用的技术可涉及响应命令或查询来分析与各种信号模态中的任一者相对应的信号,并且不限于特定模态诸如姿态、注视或语音。如本文所用,术语对象通常可指无生命的事物、有生命的实体(包括例如动物、人或植物)和/或地点,其中任一者均可表示命令所指向的目标。在一些情况下,操作可简单地包括命名选定对象—例如,如果命令包括语音查询“那曾是什么?”,则响应可包括通过产生语音响应诸如“那曾是美洲驼”来提供名称或标识符。在其他情况下,可执行更复杂的操作—例如,响应于被配备为自动停放的汽车中的个体发布的命令“停放在那里”,该方法可包括识别与字词“那里”相对应的停车位以及在识别的停车位处发起车辆的停放。一般来讲,在各种实施方案中,可基于对自然移动和自然语言的分析来识别目标对象或地点并对其采取动作,而不需要个体使用受限的一组界面。不精确的语言,诸如包括“这”或“那”的指示代词或相对地点的副词诸如“这里”或“那里”可用于各种实施方案中的命令中,并且计算设备处理命令的责任之一可包括以一定的准确度和及时性水平识别命令所指向的非精确指示的对象。在一些实施方案中,该方法可包括确定命令涉及过去的时间点,并且利用缓冲的信号数据(与在检测或处理命令的时间之前的选定时间窗口相对应)来响应命令。在一些情况下,在发起操作时,被识别为此类命令的目标的特定对象可能不再对个体可见(或者不再可供个体查看)。在各种实施方案中,可采用各种各样的信号源—例如,可使用位于车辆内的相机、麦克风等;可使用智能电话传感器;可使用虚拟现实(VR)或增强现实(AR)设备,诸如头戴式耳机或眼镜;可使用其他可穿戴设备诸如手表或健身跟踪器,等等。对于姿态信号而言,例如,除摄影机和/或静物相机之外,在不同实施方案中还可使用各种其他源,诸如深度相机、惯性传感器、电磁信号检测器、超声信号检测器、雷达信号检测器等。类似地,对于注视检测而言,除静物相机和/或摄影机之外,在一些实施方案中还可使用不是基于相机的光学传感器或EMG(肌电图)传感器。在一些情况下,可统一检查从若干不同类型的源或传感器收集的信号以处理命令—例如,可将从汽车内的相机收集的信号与从由汽车内的个体握持的电话设备收集的信号组合/相关联。在不同实施方案中,可使用各种界面或通信技术来提供对命令的响应,包括例如触摸屏、语音合成器等。在一些实施方案中,响应给定命令,可并行处理从多个源收集的信号数据。在一个实施方案中,系统可包括一个或多个传感器设备和一个或多个命令处理设备。传感器设备可收集例如与一个或多个个体有关的注视和/或姿态数据组(或与各个信号模态相对应的其他类型的数据组)。至少一个数据组可包含指示碰巧吸引个体的注意力的一个或多个对象所曾处(或所处)的方向的信息。响应于命令,命令处理设备可分析由传感器设备收集的数据组,识别命令可指向的所关注的一个或多个候选对象或实体,并且使得与从候选对象中选择的特定对象或实体相关联的至少一个操作被执行。在一些实施方案中,可在收集传感器数据的相同设备中的一些设备处执行命令处理操作中的至少一些操作。在不同实施方案中,响应于命令,可执行各种各样的操作,诸如命名选定对象、拍摄对象照片或视频、翻译与选定对象有关的符号或字词、停放或驾驶车辆、指示街道或公路标志的内容(在一些情况下还可能涉及语言翻译)等等。在各种实施方案中,例如使用一组规则或启发法或机器学习模型,命令处理设备可将相应的预测关注性得分或相关性得分分配给不同的候选对象,并且至少部分地基于其得分从候选对象中选择对象。在一些情况下,可能不正确地识别了选定为命令的目标对象的特定对象,并且发布命令的个体可提供指示选定对象不是命令所指向的对象的反馈。在此类情景中,在一些实施方案中,可采用迭代方法,其中可按顺序对不同对象(例如,基于它们各自的关注性得分从原始的候选对象组或从新的候选对象组选择的对象)采取动作,直到命令完成(或直到处理设备、命令发布者或这两者作出避免进一步处理命令的决定)。在一些实施方案中,命令处理可包括从一个或多个相机获取静止影像或视频影像,并将选定对象识别算法应用于图像。在各种实施方案中,可利用外部数据库诸如地图数据库(其可指示各种建筑、道路、地理/地质特征部等的位置)、产品数据库(诸如,包含各种车辆模型或动物的图像的数据库)和/或其他数据库(例如,联系人列表或其他个人资料信息)来处理至少一些命令。在至少一个实施方案中,命令可包括对关于所关注的对象的特定细节的请求(例如,“那家餐馆的营业时间是多少?”)。为了响应此类命令,可采用基于互联网的数据源诸如搜索引擎。根据一些实施方案,非暂态存储介质可包括程序指令,当在一个或多个处理器上执行时,该程序指令获取并分析指示来自一个或多个个体的相应信号模态的数据组。该分析可用于识别所关注的候选对象,并且可例如响应于命令来对所关注的选定对象执行操作。在一个实施方案中,所关注的选定对象可为在虚拟现实(VR)或增强现实(AR)环境中定义的虚拟对象。在各本文档来自技高网...

【技术保护点】
1.一种方法,包括:在一个或多个计算设备处,执行以下操作:在至少第一时间间隔期间从个体获取第一组一个或多个信号,其中所述第一组一个或多个信号对应于第一信号模态并且指示相对于所述个体在所述第一时间间隔期间的位置的特定方向;在至少第二时间间隔期间从所述个体获取第二组一个或多个信号,所述第二时间间隔至少部分地与所述第一时间间隔重叠,其中所述第二组一个或多个信号对应于第二信号模态;响应于命令,其中所述命令不决定性地识别所述命令所指向的所关注的特定对象,至少部分地基于所述特定方向并至少部分地基于对所述第二组的分析,识别所述个体所关注的一个或多个候选对象;以及使得与所述所关注的一个或多个候选对象中的第一选定候选对象相关联的操作被执行。

【技术特征摘要】
【国外来华专利技术】2016.08.15 US 62/375,267;2017.08.14 US 15/676,9211.一种方法,包括:在一个或多个计算设备处,执行以下操作:在至少第一时间间隔期间从个体获取第一组一个或多个信号,其中所述第一组一个或多个信号对应于第一信号模态并且指示相对于所述个体在所述第一时间间隔期间的位置的特定方向;在至少第二时间间隔期间从所述个体获取第二组一个或多个信号,所述第二时间间隔至少部分地与所述第一时间间隔重叠,其中所述第二组一个或多个信号对应于第二信号模态;响应于命令,其中所述命令不决定性地识别所述命令所指向的所关注的特定对象,至少部分地基于所述特定方向并至少部分地基于对所述第二组的分析,识别所述个体所关注的一个或多个候选对象;以及使得与所述所关注的一个或多个候选对象中的第一选定候选对象相关联的操作被执行。2.根据权利要求1所述的方法,还包括由所述一个或多个计算设备执行以下操作:将所述第一组一个或多个信号的至少一个子组存储在缓冲器中,其中所述子组对应于与所述第一信号模态相关联的缓冲间隔,并且其中所述分析包括检查所述缓冲器的内容。3.根据权利要求1所述的方法,其中所述第一组或所述第二组中的至少一组包括指示以下各项中的一者或多者的信号:指向姿态、头部取向或移动、躯干取向或移动、使用除手之外的身体部位作出的姿态、注视方向、面部表情、一个或多个语音标记或无意识的生理反应。4.根据权利要求1所述的方法,还包括由所述一个或多个计算设备执行以下操作:从以下各项中的一者或多者获取所述第一组一个或多个信号中的至少一个信号:(a)可穿戴设备;(b)传感器,所述传感器位于所述个体占用的移动车辆内或附接到所述个体占用的移动车辆;(c)摄影机;(d)静物相机;(e)深度相机;(f)惯性传感器;(g)电磁信号检测器;(h)超声信号检测器;(i)雷达信号检测器;(j)非相机光学传感器;(k)EMG(肌电图)传感器;或(l)智能电话。5.根据权利要求1所述的方法,还包括由所述一个或多个计算设备执行以下操作:至少部分地基于对以下各项的分析来确定所述命令:(a)所述第二组一个或多个信号中的一个或多个语音信号;(b)经由触摸屏界面接收的一个或多个信号;或(c)以手语表达的一个或多个信号。6.根据权利要求1所述的方法,其中与所述第一选定候选对象相关联的所述操作包括以下各项中的一者或多者:(a)经由图形显示或自动语音指示所述第一选定候选对象的名称;(b)捕获所述第一选定候选对象的照片或视频;(c)翻译与所述第一选定候选对象相对应的一个或多个字词或符号;或(d)发起车辆的停放。7.根据权利要求1所述的方法,还包括由所述一个或多个计算设备执行以下操作:确定所述命令包括所关注的对象的非精确指示符,其中所述非精确指示符包括以下各项中的一者或多者:(a)指示代词;或(b)相对地点的副词。8.一种系统,包括:一个或多个传感器设备;和一个或多个命令处理设备;其中所述一个或多个传感器设备被配置为:在第一时间间隔的至少一部分期间从个体收集与第一信号模态相对应的第一数据组,其中所述第一数据组包括相对于所述个体的位置的方向相关信息;在至少第二时间间隔期间从所述个体收集与第二信号模态相对应的第二数据组,所述第二时间间隔至少部分地与所述第一时间间隔重叠;以及其中所述一个或多个命令处理设备被配置为:响应于确定已经发布命令,其中所述命令不最终识别所述命令所指向的所关注的特定对象,至少部分地基于对所述第一数据组和所述第二数据组的分析...

【专利技术属性】
技术研发人员:W·金茨勒D·A·鲍曼
申请(专利权)人:苹果公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1