多模态响应制造技术

技术编号:22754788 阅读:21 留言:0更新日期:2019-12-07 03:50
本文涉及多模态响应,尤其公开了用于在动态生成针对客户端设备的当前模态而定制的客户端设备输出中使用多模态响应的系统、方法和装置。多模态客户端设备可以进行跨多模态谱的各种交互,所述交互包括仅语音交互、语音主导交互、多模态交互、视觉主导交互、仅视觉交互等。多模态响应可以包括:要针对全部交互类型被渲染的核心消息以及用于向用户提供附加信息的一个或多个取决于模态的组成部分。

Multimodal response

This paper relates to multimodal response, in particular, a system, method, and apparatus for using multimodal response in dynamically generating output of a client device customized for the current mode of the client device are disclosed. Multimodal client devices can perform various interactions across multimodal spectrum, including voice only interaction, voice dominated interaction, multimodal interaction, visual dominated interaction, visual only interaction, etc. Multimodal responses may include core messages to be rendered for all interaction types and one or more modal dependent components for providing additional information to the user.

【技术实现步骤摘要】
多模态响应
本公开涉及多模态响应,更具体地涉及用于在动态生成针对客户端设备的当前模态所定制的客户端设备输出中使用多模态响应的系统、方法和装置。
技术介绍
自动化助理(也称为“个人助理”、“移动助理”等)可以在多模态客户端设备上和/或在诸如经由网络连接到多模态客户端设备的“云”中的计算设备的一个或多个远程计算设备上实现。多模态客户端设备可以向用户提供与设备的多种模式的交互。更具体地,多模态设备具有可用于用户向设备输入数据的若干模式和/或可用于设备向用户渲染输出的若干模式。例如,对多模态设备的用户输入可以包括口述输入(例如用户说话)、文本输入(例如用户在键盘上键入、用户在触敏屏幕上录入文本等)、手势输入(例如用户手部动作、用户注视、用户头部运动等)、触觉输入(例如向客户端设备施加各种力,诸如挤压客户端设备、拿起客户端设备、摇动客户端设备、以特定定向放置客户端设备等)以及其他类型的输入(例如按下客户端设备上的物理按钮、使用鼠标点击用户界面中的按钮、使用鼠标执行动作——诸如使用鼠标滚轮向上和/或向下移动屏幕上的信息等)等。相似地,多模态设备可以以许多方式向用户渲染输出,所述许多方式包括音频输出(例如使用扬声器生成输出以便用户收听)、视觉输出(例如在屏幕上显示文本、图像、视频等,客户端设备上的灯亮灭闪光,改变设备上的灯的颜色等)、触觉输出(例如使客户端设备振动)等。
技术实现思路
本文关于用于在动态生成针对客户端设备的当前模态所定制的客户端设备输出中使用多模态响应的系统、方法和装置。客户端设备的当前模态可以是多模态谱内的多个候选模态中的一个并且可以指示将利用的用户接口输入和/或客户端设备输出的当前方法。在一些实施方式中,候选模态的多模态谱包括仅语音(voiceonly)交互、语音主导(voiceforward)交互、多模态交互(也称为“模态间(intermodal)交互”)、视觉主导(visualforward)交互、仅视觉(visualonly)交互等。客户端设备可以利用一个或多个模态,例如客户端设备利用仅语音交互、语音主导交互、多模态交互和仅视觉交互。在一些实施方式中,客户端设备的当前模态可以基于来自客户端设备的一个或多个传感器的传感器数据和/或基于经由客户端设备的用户的用户接口输入的对模态的选择来确定。例如,多模态客户端设备可以使用来自一个或多个传感器的传感器数据来确定多模态客户端设备的当前模态,所述一个或多个传感器诸如相机、惯性测量单元(“IMU”)、陀螺仪、定位系统(例如全球定位系统(“GPS”)、麦克风,接近传感器、压力传感器等。客户端设备可以使用其模态以及各种其他信息,通过选择与当前客户端设备模态相对应的多模态响应的一个或多个部分来使用多模态响应,动态地生成客户端输出,所述各种信息包括:用户接口输入、用户接口输入的一个或多个模态、客户端设备的类型、客户端设备的位置、用户相对于客户端设备的位置等。根据许多实施方式,多模态响应可以包括核心消息以及取决于模态的附加信息。例如,对多模态客户端设备的口述用户接口输入可以指示客户端动作,诸如调整连网智能恒温器的被设置的/期望的温度(例如,诸如“increasetemperaturebyfivedegrees(将温度增加五度)”的用户接口输入)。用于针对调整恒温器温度的客户端设备动作渲染输出的多模态响应可以包括核心消息,诸如确认期望的温度已经被调整。客户端设备的当前模态以及各种其他信息可以确定此确认是否被渲染为音频输出、视觉输出、音频和视觉输出二者等。相似地,取决于模态的附加信息可以提供附加输出以经由客户端设备渲染。例如,视觉输出可以指示新设置的温度以及房间的当前温度。用于在一个或多个设备模态中使用的附加视觉输出可以指示各种信息,诸如达到新温度的估计时间、相关联的智能恒温器的名称、外面的温度等。相似地,用于在一个或多个设备模态中使用的附加音频输出可以指示要由客户端设备渲染的各种信息,诸如新温度、当前温度、对将花费多久达到期望的温度的估计等。在许多实施方式中,客户端设备可以动态地选择多模态响应的部分以渲染针对各种模态中的相应模态的输出。例如,多模态响应的一部分可以被选择以用于仅语音交互,并且多模态响应的不同部分可以被选择以用于仅视觉交互。作为另一个示例,多模态响应的一个或多个视觉组成部分可以经由在语音主导交互中的客户端设备渲染,而相反地,多模态响应的视觉组成部分将不会经由仅语音交互中的客户端设备渲染。在许多实施方式中,可以用于针对多个候选模态中的任一个来生成客户端设备输出的单个多模态响应相对于多个单独的响应可以提供存储效率,所述多个单独的响应均针对单个对应的模态而定制。例如,与存储针对每一个模态类型的个体设备响应相比,用于动态地生成针对许多设备模态的输出的单个多模态响应可以被存储在存储器或其他数据结构的更小部分中。例如,语音主导交互可以含有与多模态交互相同的被渲染的音频输出。与存储语音主导交互响应以及多模态交互响应二者中的相同的音频输出相比,从针对语音主导交互和多模态交互的相同的多模态响应中提取的音频输出可以减少存储器存储需求。附加地或替选地,相对于均针对单个对应的模态而定制的多个单独的响应,单个多模态响应可以在客户端设备输出生成中提供计算效率和/或减少的时延。例如,具有单个多模态响应而不是均针对单个对应的模态而定制的单独的响应可以减小确定用于响应于用户输入而渲染的输出中所利用的索引和/或其他数据结构的大小,从而实现更快和/或更有效率的对响应的检索。而且,例如,在一些实施方式中,多模态响应可以从远程服务器传输到客户端设备,并且客户端设备本身可以基于多模态响应来生成输出以供响应于用户输入而渲染。传输单个多模态响应(与针对每一个模态交互类型的响应相比)可以使得客户端设备能够在交互类型之间快速切换而无需请求并等待接收针对附加交互类型的响应。例如,诸如蜂窝电话的多模态客户端设备在用户正在进行仅语音交互时可以屏幕侧朝下地放置。如果用户拿起蜂窝电话并看屏幕,则当前设备模态可以例如改变为多模态交互。多模态客户端设备可以选择多模态响应的不同部分并继续渲染输出而无需等待从远程服务器接收单独的多模态交互响应。此外,针对客户端设备的当前模态而定制的客户端设备输出的动态生成可以附加地或替选地直接导致各种其他效率。例如,通过生成专门针对当前模态而定制的客户端设备输出,客户端设备资源不会被浪费在不必要地渲染当前模态不需要的各种内容。例如,假设客户端设备是移动电话并且基于指示电话“面朝下”的传感器数据而具有“仅语音”的当前模态。利用本文公开的技术,在“仅语音”模态中,仅可以提供可听输出,从而防止对相关视觉输出的不必要的同时渲染。而且例如,针对当前模态而定制的客户端设备输出的动态生成可以减少用户输入量和/或使得自动化助理能够在技术任务的执行中更有效率地协助用户。例如,在用户与自动化助理之间的、其中输出是针对当前模态而定制的多轮对话会话期间,可以动态地定制输出以在对话会话期间鉴于一个/多个模态来最有效率地向用户传达信息。附加地或替选地,取决于设备的当前模态,客户本文档来自技高网...

【技术保护点】
1.一种由一个或多个处理器实现的方法,所述方法包括:/n基于由多模态客户端设备的用户提供的用户接口输入的一个或多个实例,确定客户端设备动作;/n至少部分地基于来自所述多模态客户端设备的一个或多个传感器的传感器数据,确定所述多模态客户端设备的当前客户端设备模态,/n其中所述当前客户端设备模态是对于所述多模态客户端设备可用的多个分立的客户端设备模态中的一个,以及/n其中确定所述当前客户端设备模态所基于的所述传感器数据是除了由用户接口输入的所述一个或多个实例生成的任何传感器数据之外的传感器数据;/n使用多模态响应来生成针对所述客户端设备动作的客户端设备输出,/n其中所述多模态响应包括针对所述多个分立的客户端设备模态的、针对所述客户端设备动作的输出的组成部分,以及/n其中生成所述客户端设备输出包括:选择与所述当前客户端设备模态相关的、所述多模态响应的所述组成部分中的一个或多个组成部分;以及/n使得所述客户端设备输出由所述多模态客户端设备的一个或多个用户接口输出设备渲染。/n

【技术特征摘要】
20180904 US 62/726,947;20190118 US 16/251,9821.一种由一个或多个处理器实现的方法,所述方法包括:
基于由多模态客户端设备的用户提供的用户接口输入的一个或多个实例,确定客户端设备动作;
至少部分地基于来自所述多模态客户端设备的一个或多个传感器的传感器数据,确定所述多模态客户端设备的当前客户端设备模态,
其中所述当前客户端设备模态是对于所述多模态客户端设备可用的多个分立的客户端设备模态中的一个,以及
其中确定所述当前客户端设备模态所基于的所述传感器数据是除了由用户接口输入的所述一个或多个实例生成的任何传感器数据之外的传感器数据;
使用多模态响应来生成针对所述客户端设备动作的客户端设备输出,
其中所述多模态响应包括针对所述多个分立的客户端设备模态的、针对所述客户端设备动作的输出的组成部分,以及
其中生成所述客户端设备输出包括:选择与所述当前客户端设备模态相关的、所述多模态响应的所述组成部分中的一个或多个组成部分;以及
使得所述客户端设备输出由所述多模态客户端设备的一个或多个用户接口输出设备渲染。


2.根据权利要求1所述的方法,其中,所述多模态响应是由所述多模态客户端设备从远程服务器接收的,并且其中,生成所述客户端设备输出是由所述多模态客户端设备进行的。


3.根据权利要求2所述的方法,其中,所述多模态响应是由所述多模态客户端设备响应于由所述多模态客户端设备传输到所述远程服务器的请求而从所述远程服务器接收的,所述请求是基于所述用户接口输入,并且其中,确定所述多模态客户端设备的所述当前客户端设备模态是由所述多模态客户端设备进行的并且发生在传输所述请求之后。


4.根据权利要求2所述的方法,进一步包括:
在所述客户端设备输出的至少一部分正在由所述多模态客户端设备的所述一个或多个用户接口输出设备渲染时:
检测所述多模态客户端设备从所述当前客户端设备模态到分立的新客户端设备模态的切换;
响应于检测到所述切换,使用所述多模态响应来生成替选客户端设备输出,其中所述替选客户端设备输出相对于所述客户端设备输出包括附加内容或更少内容;以及
使得所述替选客户端设备输出由所述多模态客户端设备渲染。


5.根据权利要求4所述的方法,
其中,所述客户端设备输出包括:经由所述多模态客户端设备的所述一个或多个用户接口输出设备中的至少一个扬声器渲染的可听输出以及经由所述一个或多个用户接口输出设备中的至少一个显示器渲染的视觉输出,
其中,所述替选客户端设备输出缺少所述视觉输出,以及
其中,使得所述替选客户端设备输出由所述多模态客户端设备渲染包括:停止由所述至少一个显示器渲染所述视觉输出。


6.根据权利要求1所述的方法,其中,至少部分地基于所述传感器数据来确定所述当前客户端设备模态包括:
确定所述多模态客户端设备的定向;以及
基于所述多模态客户端设备的所述定向来选择所述当前客户端设备模态。


7.根据权利要求5所述的方法,其中,所述多模态响应的所述组成部分包括:核心消息组成部分和一个或多个取决于模态的组成部分。


8.根据权利要求7所述的方法,其中,生成所述客户端设备输出进一步包括:至少选择所述多模态响应的所述核心消息组成部分,并且其中,选择与所述当前客户端设备模态相关的、所述多模态响应的所述组成部分中的所述一个或多个组成部分包括:选择所述取决于模态的组成部分中的一个或多个组成部分。


9.根据权利要求8所述的方法,其中,所述当前客户端设备模态是仅语音交互,并且所述客户端设备输出仅经由所述一个或多个用户接口输出设备中的一个或多个扬声器来渲染。


10.根据权利要求8所述的方法,其中,所述当前客户端设备模态是语音主导交互,所述客户端设备输出的所述核心消息组成部分仅经由所述一个或多个用户接口输出设备中的一个或多个扬声器渲染,并且所述客户端设备输出的所述一个或多个取决于模态的组成部分经由所述一个或多个用户接口输出设备中的触摸屏渲染。

【专利技术属性】
技术研发人员:阿普丽尔·普法尔贾里德·斯特劳德曼哈利·郁阿德里安娜·奥尔莫斯·安蒂利翁乔纳森·利夫尼奥坎·科拉克詹姆斯·詹戈拉尼汀·坎德沃尔杰森·卡恩斯安德鲁·沃森约瑟夫·阿谢尔瓦莱里·尼高
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1