多模态用户界面制造技术

技术编号：32507522 阅读：21 留言：0更新日期：2022-03-02 10:35

一种用于多模态用户输入的设备，包括处理器，该处理器被配置为处理从第一输入设备接收到的第一数据。第一数据表示来自用户的基于第一输入模式的第一输入。第一输入对应于命令。处理器被配置为基于对第一数据的处理向输出设备发送反馈消息。反馈消息指示用户基于不同于第一输入模式的第二输入模式来提供标识与第一输入相关联的命令的第二输入。处理器被配置为：从第二输入设备接收第二数据，第二数据表示第二输入；并且更新映射，以将第一输入与由第二输入标识的命令相关联。由第二输入标识的命令相关联。由第二输入标识的命令相关联。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】多模态用户界面
[0001]优先权
[0002]本申请要求于2019年7月12日提交的共同拥有的美国临时专利申请第62/873,775号和于2019年11月15日提交的美国非临时专利申请第16/685,946号的优先权，这些专利申请中的每一个专利申请的内容都通过引用的方式明确地整体并入本文。

[0003]本公开总体上涉及用户界面(user interface)，更具体地，涉及支持多种用户输入模态的用户界面。

技术介绍

[0004]许多用户界面基于自动语音识别(ASR)和自然语言处理(NLP)，并且经过许多不同命令、口音和语言的训练，在大量客户群中非常有用。训练此类用户界面以便在各种用户中广泛应用需要大量的资源，并且使用户界面普遍适用于大客户群而进行的许多训练因基于每个用户而造成“浪费”，因为每个单独的用户通常只使用单一的语言、口音和支持的命令子集。

技术实现思路

[0005]根据本公开的一种实现方式，用于多模态用户输入的设备包括一个或多个处理器，该一个或多个处理器被配置为处理从第一输入设备接收到的第一数据。第一数据表示来自用户的基于第一输入模式的第一输入，并且第一输入对应于命令。一个或多个处理器被配置为基于对第一数据的处理向输出设备发送反馈消息。反馈消息指示用户基于不同于第一输入模式的第二输入模式来提供标识与第一输入相关联的命令的第二输入。一个或多个处理器被配置为：从第二输入设备接收第二数据，第二数据表示第二输入；并且更新映射，以将第一输入与由第二输入标识的命令相关联。
[00...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于多模态用户输入的设备，所述设备包括：一个或多个处理器，所述一个或多个处理器被配置为：处理从第一输入设备接收到的第一数据，所述第一数据表示来自用户的基于第一输入模式的第一输入，所述第一输入对应于命令；基于对所述第一数据的处理向输出设备发送反馈消息，其中，所述反馈消息指示所述用户基于不同于所述第一输入模式的第二输入模式来提供标识与所述第一输入相关联的命令的第二输入；从第二输入设备接收第二数据，所述第二数据表示所述第二输入；以及更新映射，以将所述第一输入与由所述第二输入标识的所述命令相关联。2.根据权利要求1所述的设备，其中，所述第一输入模式是语音模式、手势模式或视频模式中的一种，并且其中，所述第二输入模式是所述语音模式、所述手势模式或所述视频模式中不同的一种。3.根据权利要求1所述的设备，其中，所述反馈消息指示所述用户提供所述第二输入，以消除所述第一输入的歧义。4.根据权利要求3所述的设备，其中，所述一个或多个处理器还被配置为响应于与所述第一输入的识别处理未能满足置信度阈值相关联的置信度来发送所述反馈消息。5.根据权利要求1所述的设备，其中，所更新的映射将所述第一输入和所述第二输入的组合与所述命令相关联。6.根据权利要求1所述的设备，其中，所述一个或多个处理器包括多模态识别引擎，所述多模态识别引擎包括：融合嵌入网络，所述融合嵌入网络被配置为组合与所述第一输入模式相关联的第一嵌入网络的输出和与所述第二输入模式相关联的第二嵌入网络的输出，以生成组合嵌入向量；以及分类器，所述分类器被配置为将所述组合嵌入向量映射到特定命令。7.根据权利要求6所述的设备，还包括存储器，所述存储器被配置为存储：对应于所述用户的第一嵌入网络数据和第一权重数据；以及对应于第二用户的第二嵌入网络数据和第二权重数据，基于所述用户与所述第二用户之间的输入命令差异，所述第一嵌入网络数据不同于所述第二嵌入网络数据，并且基于所述用户与所述第二用户之间的输入模式可靠性差异，所述第一权重数据不同于所述第二权重数据。8.根据权利要求1所述的设备，其中，所述第一输入模式对应于视频模式，并且其中，所述一个或多个处理器被配置为响应于具有低于照明阈值的值的环境光度量来发送所述反馈消息。9.根据权利要求1所述的设备，其中，所述第一输入模式对应于语音模式，并且其中，所述一个或多个处理器被配置为响应于具有超过噪声阈值的值的噪声度量来发送所述反馈消息。10.根据权利要求1所述的设备，还包括被配置为表示图形用户界面的显示器。11.根据权利要求1所述的设备，还包括被配置为捕获包括一个或多个关键词或语音命令的音频输入的一个或多个麦克风。
12.根据权利要求1所述的设备，还包括被配置为捕获包括一个或多个手势或视觉命令的视频输入的一个或多个相机。13.根据权利要求1所述的设备，还包括被配置为接收表示手势输入的数据的一个或多个天线。14.根据权利要求1所述的设备，还包括被配置为向用户呈现或引导反馈消息的一个或多个扬声器。15.根据权利要求1所述的设备，其中，所述用户包括机器人或其他电子设备。16.根据权利要求1所述的设备，其中，所述第一输入设备和所述输出设备被结合到虚拟现实耳机或增强现实耳机中。17.根据权利要求1所述的设备，其中，所述第一输入设备和所述输出设备被结合到车辆中。18.一种用于多模态用户输入的方法，所述方法包括：在设备的一个或多个处理器处处理从第一输入设备接收到的...

【专利技术属性】
技术研发人员：R乔达里，LH金，S文，Y郭，F萨基，E维泽，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人