多模态用户界面制造技术

技术编号:32507522 阅读:21 留言:0更新日期:2022-03-02 10:35
一种用于多模态用户输入的设备,包括处理器,该处理器被配置为处理从第一输入设备接收到的第一数据。第一数据表示来自用户的基于第一输入模式的第一输入。第一输入对应于命令。处理器被配置为基于对第一数据的处理向输出设备发送反馈消息。反馈消息指示用户基于不同于第一输入模式的第二输入模式来提供标识与第一输入相关联的命令的第二输入。处理器被配置为:从第二输入设备接收第二数据,第二数据表示第二输入;并且更新映射,以将第一输入与由第二输入标识的命令相关联。由第二输入标识的命令相关联。由第二输入标识的命令相关联。

【技术实现步骤摘要】
【国外来华专利技术】多模态用户界面
[0001]优先权
[0002]本申请要求于2019年7月12日提交的共同拥有的美国临时专利申请第62/873,775号和于2019年11月15日提交的美国非临时专利申请第16/685,946号的优先权,这些专利申请中的每一个专利申请的内容都通过引用的方式明确地整体并入本文。


[0003]本公开总体上涉及用户界面(user interface),更具体地,涉及支持多种用户输入模态的用户界面。

技术介绍

[0004]许多用户界面基于自动语音识别(ASR)和自然语言处理(NLP),并且经过许多不同命令、口音和语言的训练,在大量客户群中非常有用。训练此类用户界面以便在各种用户中广泛应用需要大量的资源,并且使用户界面普遍适用于大客户群而进行的许多训练因基于每个用户而造成“浪费”,因为每个单独的用户通常只使用单一的语言、口音和支持的命令子集。

技术实现思路

[0005]根据本公开的一种实现方式,用于多模态用户输入的设备包括一个或多个处理器,该一个或多个处理器被配置为处理从第一输入设备接收到的第一数据。第一数据表示来自用户的基于第一输入模式的第一输入,并且第一输入对应于命令。一个或多个处理器被配置为基于对第一数据的处理向输出设备发送反馈消息。反馈消息指示用户基于不同于第一输入模式的第二输入模式来提供标识与第一输入相关联的命令的第二输入。一个或多个处理器被配置为:从第二输入设备接收第二数据,第二数据表示第二输入;并且更新映射,以将第一输入与由第二输入标识的命令相关联。
[0006]根据本公开的另一种实现方式,一种用于多模态用户输入的方法包括在设备的一个或多个处理器处处理从第一输入设备接收到的第一数据。第一数据表示来自用户的基于第一输入模式的第一输入,并且第一输入对应于命令。该方法包括基于对第一数据的处理,从一个或多个处理器向输出设备发送反馈消息。反馈消息指示用户基于不同于第一输入模式的第二输入模式来提供标识与第一输入相关联的命令的第二输入。该方法包括在一个或多个处理器处从第二输入设备接收第二数据。第二数据表示第二输入。该方法还包括在一个或多个处理器处更新映射,以将第一输入与由第二输入标识的命令相关联。
[0007]根据本公开的另一种实现方式,一种用于多模态用户输入的装置包括用于处理从第一输入设备接收到的第一数据的部件。第一数据表示来自用户的基于第一输入模式的第一输入,并且第一输入对应于命令。该装置包括用于基于对第一数据的处理向输出设备发送反馈消息的部件。反馈消息指示用户基于不同于第一输入模式的第二输入模式来提供标识与第一输入相关联的命令的第二输入。该装置包括用于从第二输入设备接收第二数据的
部件,第二数据表示第二输入。该装置包括用于更新映射,以将第一输入与由第二输入标识的命令相关联的部件。
[0008]根据本公开的另一种实现方式,非暂时性计算机可读介质包括指令,当该指令由设备的一个或多个处理器执行时,该指令使一个或多个处理器处理从第一输入设备接收到的第一数据。第一数据表示来自用户的基于第一输入模式的第一输入,第一输入对应于命令。当指令右一个或多个处理器执行时,该指令使一个或多个处理器基于对第一数据的处理向输出设备发送反馈消息。反馈消息指示用户基于不同于第一输入模式的第二输入模式来提供标识与第一输入相关联的命令的第二输入。当该指令由一个或多个处理器执行时,该指令使一个或多个处理器从第二输入设备接收第二数据,第二数据表示第二输入。当指令由一个或多个处理器执行时,该指令还使一个或多个处理器更新映射,以将第一输入与由第二输入标识的命令相关联。
附图说明
[0009]图1是根据本公开的一些示例的包括可用于处理多模态用户输入的设备的系统的特定说明性实现方式的图。
[0010]图2是根据本公开的一些示例的图1的设备的组件的特定实现方式的图。
[0011]图3是根据本公开的一些示例的包括可用于处理多模态用户输入的设备的系统的另一种特定实现方式的图。
[0012]图4是根据本公开的一些示例的包括可用于处理多模态用户输入的设备的系统的另一种特定实现方式的示例的图。
[0013]图5是根据本公开的一些示例的可用于处理多模态用户输入的设备的另一种实现方式的图。
[0014]图6是根据本公开的一些示例的可以由图1的设备执行的处理多模态用户输入的方法的实现方式的图。
[0015]图7是根据本公开的一些示例的可以由图1的设备执行的处理多模态用户输入的方法的另一种实现方式的图。
[0016]图8是根据本公开的一些示例的可以由图1的设备执行的处理多模态用户输入的方法的另一种实现方式的图。
[0017]图9是根据本公开的一些示例的可以由图1的设备执行的处理多模态用户输入的方法的另一种实现方式的图。
[0018]图10是根据本公开的一些示例的可以由图1的设备执行的处理多模态用户输入的方法的另一种实现方式的图。
[0019]图11是根据本公开的一些示例的可用于处理多模态用户输入的车辆的图。
[0020]图12A是根据本公开的一些示例的可用于处理多模态用户输入的虚拟现实或增强现实耳机的图。
[0021]图12B是根据本公开的一些示例的可用于处理多模态用户输入的可穿戴电子设备的图。
[0022]图13是根据本公开的一些示例的可用于处理多模态用户输入的设备的特定说明性示例的框图。
具体实施方式
[0023]描述了使用多种输入模态实现用户交互的设备和方法。许多用户界面基于自动语音识别(ASR)和自然语言处理(NLP),并且经过许多不同命令、口音和语言的训练,在大量客户群中非常有用。训练此类用户界面以便在各种用户中广泛应用需要大量的资源,并且使用户界面普遍适用于大客户群而进行的许多训练因基于每个用户而造成“浪费”,因为每个单独的用户通常只使用单一的语言、口音和支持的命令子集。
[0024]通过实现多模态用户交互以及个性化解释用户命令的能力,本文描述的技术能够训练多模态用户界面供特定用户使用,从而减少或消除了对传统用户界面的广泛适用性的广泛训练。在一些实现方式中,不同的嵌入网络用于不同的输入模态(例如,用于语音的嵌入网络、用于视觉输入的嵌入网络、用于手势输入的嵌入网络等),并且被配置为区分使用相应模态接收到的不同命令。为了说明,“嵌入网络”可以包括一个或多个神经网络层,该一个或多个神经网络层被配置(例如,训练)为处理输入数据,诸如语音数据(例如,时域语音数据或频域语音数据),以生成嵌入向量。“嵌入向量”是与输入数据相比相对低维的向量(例如,多个值的集合),表示输入数据,并且可以用于区分输入数据的不同实例。不同的嵌入网络输出被转换到公共嵌入空间,并且被融合成组合嵌入向量。例如,语音输入的n维语音嵌入向量可以被转换成k维第一嵌入向量,并且手势输入的m维手势嵌入向量可以被转换成k维第二嵌入向量(其中,m、n和k可以彼此相等或不同)。k维第一嵌入向量表示语音输入,并且k维第二嵌入向量表示k维向量空间(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于多模态用户输入的设备,所述设备包括:一个或多个处理器,所述一个或多个处理器被配置为:处理从第一输入设备接收到的第一数据,所述第一数据表示来自用户的基于第一输入模式的第一输入,所述第一输入对应于命令;基于对所述第一数据的处理向输出设备发送反馈消息,其中,所述反馈消息指示所述用户基于不同于所述第一输入模式的第二输入模式来提供标识与所述第一输入相关联的命令的第二输入;从第二输入设备接收第二数据,所述第二数据表示所述第二输入;以及更新映射,以将所述第一输入与由所述第二输入标识的所述命令相关联。2.根据权利要求1所述的设备,其中,所述第一输入模式是语音模式、手势模式或视频模式中的一种,并且其中,所述第二输入模式是所述语音模式、所述手势模式或所述视频模式中不同的一种。3.根据权利要求1所述的设备,其中,所述反馈消息指示所述用户提供所述第二输入,以消除所述第一输入的歧义。4.根据权利要求3所述的设备,其中,所述一个或多个处理器还被配置为响应于与所述第一输入的识别处理未能满足置信度阈值相关联的置信度来发送所述反馈消息。5.根据权利要求1所述的设备,其中,所更新的映射将所述第一输入和所述第二输入的组合与所述命令相关联。6.根据权利要求1所述的设备,其中,所述一个或多个处理器包括多模态识别引擎,所述多模态识别引擎包括:融合嵌入网络,所述融合嵌入网络被配置为组合与所述第一输入模式相关联的第一嵌入网络的输出和与所述第二输入模式相关联的第二嵌入网络的输出,以生成组合嵌入向量;以及分类器,所述分类器被配置为将所述组合嵌入向量映射到特定命令。7.根据权利要求6所述的设备,还包括存储器,所述存储器被配置为存储:对应于所述用户的第一嵌入网络数据和第一权重数据;以及对应于第二用户的第二嵌入网络数据和第二权重数据,基于所述用户与所述第二用户之间的输入命令差异,所述第一嵌入网络数据不同于所述第二嵌入网络数据,并且基于所述用户与所述第二用户之间的输入模式可靠性差异,所述第一权重数据不同于所述第二权重数据。8.根据权利要求1所述的设备,其中,所述第一输入模式对应于视频模式,并且其中,所述一个或多个处理器被配置为响应于具有低于照明阈值的值的环境光度量来发送所述反馈消息。9.根据权利要求1所述的设备,其中,所述第一输入模式对应于语音模式,并且其中,所述一个或多个处理器被配置为响应于具有超过噪声阈值的值的噪声度量来发送所述反馈消息。10.根据权利要求1所述的设备,还包括被配置为表示图形用户界面的显示器。11.根据权利要求1所述的设备,还包括被配置为捕获包括一个或多个关键词或语音命令的音频输入的一个或多个麦克风。
12.根据权利要求1所述的设备,还包括被配置为捕获包括一个或多个手势或视觉命令的视频输入的一个或多个相机。13.根据权利要求1所述的设备,还包括被配置为接收表示手势输入的数据的一个或多个天线。14.根据权利要求1所述的设备,还包括被配置为向用户呈现或引导反馈消息的一个或多个扬声器。15.根据权利要求1所述的设备,其中,所述用户包括机器人或其他电子设备。16.根据权利要求1所述的设备,其中,所述第一输入设备和所述输出设备被结合到虚拟现实耳机或增强现实耳机中。17.根据权利要求1所述的设备,其中,所述第一输入设备和所述输出设备被结合到车辆中。18.一种用于多模态用户输入的方法,所述方法包括:在设备的一个或多个处理器处处理从第一输入设备接收到的...

【专利技术属性】
技术研发人员:R乔达里LH金S文Y郭F萨基E维泽
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1