This paper relates to multimodal response, in particular, a system, method, and apparatus for using multimodal response in dynamically generating output of a client device customized for the current mode of the client device are disclosed. Multimodal client devices can perform various interactions across multimodal spectrum, including voice only interaction, voice dominated interaction, multimodal interaction, visual dominated interaction, visual only interaction, etc. Multimodal responses may include core messages to be rendered for all interaction types and one or more modal dependent components for providing additional information to the user.
【技术实现步骤摘要】
多模态响应
本公开涉及多模态响应,更具体地涉及用于在动态生成针对客户端设备的当前模态所定制的客户端设备输出中使用多模态响应的系统、方法和装置。
技术介绍
自动化助理(也称为“个人助理”、“移动助理”等)可以在多模态客户端设备上和/或在诸如经由网络连接到多模态客户端设备的“云”中的计算设备的一个或多个远程计算设备上实现。多模态客户端设备可以向用户提供与设备的多种模式的交互。更具体地,多模态设备具有可用于用户向设备输入数据的若干模式和/或可用于设备向用户渲染输出的若干模式。例如,对多模态设备的用户输入可以包括口述输入(例如用户说话)、文本输入(例如用户在键盘上键入、用户在触敏屏幕上录入文本等)、手势输入(例如用户手部动作、用户注视、用户头部运动等)、触觉输入(例如向客户端设备施加各种力,诸如挤压客户端设备、拿起客户端设备、摇动客户端设备、以特定定向放置客户端设备等)以及其他类型的输入(例如按下客户端设备上的物理按钮、使用鼠标点击用户界面中的按钮、使用鼠标执行动作——诸如使用鼠标滚轮向上和/或向下移动屏幕上的信息等)等。相似地,多模态设备可以以许多方式向用户渲染输出,所述许多方式包括音频输出(例如使用扬声器生成输出以便用户收听)、视觉输出(例如在屏幕上显示文本、图像、视频等,客户端设备上的灯亮灭闪光,改变设备上的灯的颜色等)、触觉输出(例如使客户端设备振动)等。
技术实现思路
本文关于用于在动态生成针对客户端设备的当前模态所定制的客户端设备输出中使用多模态响应的系统、方法和装置。客户端设备的当前 ...
【技术保护点】
1.一种由一个或多个处理器实现的方法,所述方法包括:/n基于由多模态客户端设备的用户提供的用户接口输入的一个或多个实例,确定客户端设备动作;/n至少部分地基于来自所述多模态客户端设备的一个或多个传感器的传感器数据,确定所述多模态客户端设备的当前客户端设备模态,/n其中所述当前客户端设备模态是对于所述多模态客户端设备可用的多个分立的客户端设备模态中的一个,以及/n其中确定所述当前客户端设备模态所基于的所述传感器数据是除了由用户接口输入的所述一个或多个实例生成的任何传感器数据之外的传感器数据;/n使用多模态响应来生成针对所述客户端设备动作的客户端设备输出,/n其中所述多模态响应包括针对所述多个分立的客户端设备模态的、针对所述客户端设备动作的输出的组成部分,以及/n其中生成所述客户端设备输出包括:选择与所述当前客户端设备模态相关的、所述多模态响应的所述组成部分中的一个或多个组成部分;以及/n使得所述客户端设备输出由所述多模态客户端设备的一个或多个用户接口输出设备渲染。/n
【技术特征摘要】 【专利技术属性】
20180904 US 62/726,947;20190118 US 16/251,9821.一种由一个或多个处理器实现的方法,所述方法包括:
基于由多模态客户端设备的用户提供的用户接口输入的一个或多个实例,确定客户端设备动作;
至少部分地基于来自所述多模态客户端设备的一个或多个传感器的传感器数据,确定所述多模态客户端设备的当前客户端设备模态,
其中所述当前客户端设备模态是对于所述多模态客户端设备可用的多个分立的客户端设备模态中的一个,以及
其中确定所述当前客户端设备模态所基于的所述传感器数据是除了由用户接口输入的所述一个或多个实例生成的任何传感器数据之外的传感器数据;
使用多模态响应来生成针对所述客户端设备动作的客户端设备输出,
其中所述多模态响应包括针对所述多个分立的客户端设备模态的、针对所述客户端设备动作的输出的组成部分,以及
其中生成所述客户端设备输出包括:选择与所述当前客户端设备模态相关的、所述多模态响应的所述组成部分中的一个或多个组成部分;以及
使得所述客户端设备输出由所述多模态客户端设备的一个或多个用户接口输出设备渲染。
2.根据权利要求1所述的方法,其中,所述多模态响应是由所述多模态客户端设备从远程服务器接收的,并且其中,生成所述客户端设备输出是由所述多模态客户端设备进行的。
3.根据权利要求2所述的方法,其中,所述多模态响应是由所述多模态客户端设备响应于由所述多模态客户端设备传输到所述远程服务器的请求而从所述远程服务器接收的,所述请求是基于所述用户接口输入,并且其中,确定所述多模态客户端设备的所述当前客户端设备模态是由所述多模态客户端设备进行的并且发生在传输所述请求之后。
4.根据权利要求2所述的方法,进一步包括:
在所述客户端设备输出的至少一部分正在由所述多模态客户端设备的所述一个或多个用户接口输出设备渲染时:
检测所述多模态客户端设备从所述当前客户端设备模态到分立的新客户端设备模态的切换;
响应于检测到所述切换,使用所述多模态响应来生成替选客户端设备输出,其中所述替选客户端设备输出相对于所述客户端设备输出包括附加内容或更少内容;以及
使得所述替选客户端设备输出由所述多模态客户端设备渲染。
5.根据权利要求4所述的方法,
其中,所述客户端设备输出包括:经由所述多模态客户端设备的所述一个或多个用户接口输出设备中的至少一个扬声器渲染的可听输出以及经由所述一个或多个用户接口输出设备中的至少一个显示器渲染的视觉输出,
其中,所述替选客户端设备输出缺少所述视觉输出,以及
其中,使得所述替选客户端设备输出由所述多模态客户端设备渲染包括:停止由所述至少一个显示器渲染所述视觉输出。
6.根据权利要求1所述的方法,其中,至少部分地基于所述传感器数据来确定所述当前客户端设备模态包括:
确定所述多模态客户端设备的定向;以及
基于所述多模态客户端设备的所述定向来选择所述当前客户端设备模态。
7.根据权利要求5所述的方法,其中,所述多模态响应的所述组成部分包括:核心消息组成部分和一个或多个取决于模态的组成部分。
8.根据权利要求7所述的方法,其中,生成所述客户端设备输出进一步包括:至少选择所述多模态响应的所述核心消息组成部分,并且其中,选择与所述当前客户端设备模态相关的、所述多模态响应的所述组成部分中的所述一个或多个组成部分包括:选择所述取决于模态的组成部分中的一个或多个组成部分。
9.根据权利要求8所述的方法,其中,所述当前客户端设备模态是仅语音交互,并且所述客户端设备输出仅经由所述一个或多个用户接口输出设备中的一个或多个扬声器来渲染。
10.根据权利要求8所述的方法,其中,所述当前客户端设备模态是语音主导交互,所述客户端设备输出的所述核心消息组成部分仅经由所述一个或多个用户接口输出设备中的一个或多个扬声器渲染,并且所述客户端设备输出的所述一个或多个取决于模态的组成部分经由所述一个或多个用户接口输出设备中的触摸屏渲染。
技术研发人员:阿普丽尔·普法尔,贾里德·斯特劳德曼,哈利·郁,阿德里安娜·奥尔莫斯·安蒂利翁,乔纳森·利夫尼,奥坎·科拉克,詹姆斯·詹戈拉,尼汀·坎德沃尔,杰森·卡恩斯,安德鲁·沃森,约瑟夫·阿谢尔,瓦莱里·尼高,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。