自动化助手功能的免热词调配制造技术

技术编号:28048522 阅读:32 留言:0更新日期:2021-04-09 23:39
对自动化助手的一个或多个功能的免热词调配。来自提供自动化助手接口(图形的和/或可听的)的助手设备的一个或多个传感器组件的传感器数据被处理以确定接近于该助手设备的用户的各种属性的发生和/或置信度量度。是否对该自动化助手的一个或多个功能中的每一个进行调配是基于该各种属性中的一个或多个的发生和/或置信度。例如,可以发起对传感器数据中的至少一些的一定处理,诸如发起之前休眠的、对至少一些传感器数据的本地处理和/或向远程自动化助手组件的发起对至少一些音频数据的传输。

【技术实现步骤摘要】
【国外来华专利技术】自动化助手功能的免热词调配
技术介绍
人类可以与在本文被称作“自动化助手”(也被称作“数字代理”、“交互式个人助手”、“智能个人助手”、“助手应用”、“对话代理”等)的交互式软件应用进行人机对话。例如,人类(在他们与自动化助手交互时可以被称作“用户”)可以使用口头的自然语言输入(即,讲话)和/或通过提供文本(例如,键入的)自然语言输入向自动化助手提供命令和/或请求,所述口头的自然语言输入在一些情况下可以被转换为文本并然后被处理。自动化助手通过提供响应性用户接口输出而对请求作出响应,所述响应性用户接口输出可以包括可听和/或视觉用户接口输出。如上文所提到的,许多自动化助手被配置为经由所说讲话来与之交互。为了保护用户隐私和/或保存资源,在自动化助手将对所说讲话完全处理之前,用户必须经常以明确方式调用该自动化助手。自动化助手的明确调用通常响应于在客户端设备处所接收的一定用户接口输入而进行。该客户端设备包括助手接口,其向该客户端设备的用户提供接口以用于与该自动化助手交互(例如,接收来自用户的输入,以及提供可听和/或图形响应)以及与实施该自动化助手的一个或多个附加组件(例如,处本文档来自技高网...

【技术保护点】
1.一种促进用户和自动化助手之间的免热词交互的方法,所述方法由一个或多个处理器执行并且包括:/n在客户端设备处,接收基于来自所述客户端设备的一个或多个相机的输出的图像帧的流;/n在所述客户端设备处,使用在所述客户端设备本地存储的至少一个经训练的机器学习模型来处理所述流的图像帧以检测以下的发生:/n用户的指向所述客户端设备的注视;/n在所述客户端设备处,确定所述用户相对于所述客户端设备的距离,其中确定所述用户相对于所述客户端设备的距离是基于以下之一或二者:/n所述图像帧中的一个或多个,和/n来自所述客户端设备的附加传感器的附加传感器数据;/n在所述客户端设备处,基于检测到所述用户的注视的发生并且...

【技术特征摘要】
【国外来华专利技术】20180504 US PCT/US2018/031164;20180504 US PCT/US201.一种促进用户和自动化助手之间的免热词交互的方法,所述方法由一个或多个处理器执行并且包括:
在客户端设备处,接收基于来自所述客户端设备的一个或多个相机的输出的图像帧的流;
在所述客户端设备处,使用在所述客户端设备本地存储的至少一个经训练的机器学习模型来处理所述流的图像帧以检测以下的发生:
用户的指向所述客户端设备的注视;
在所述客户端设备处,确定所述用户相对于所述客户端设备的距离,其中确定所述用户相对于所述客户端设备的距离是基于以下之一或二者:
所述图像帧中的一个或多个,和
来自所述客户端设备的附加传感器的附加传感器数据;
在所述客户端设备处,基于检测到所述用户的注视的发生并且基于所述用户相对于所述客户端设备的距离来确定执行以下操作:
对所述客户端设备的一个或多个麦克风所检测的音频数据的一定处理;以及
在所述客户端设备处,响应于确定执行对所述音频数据的所述一定处理而发起对所述音频数据的所述一定处理。


2.根据权利要求1所述的方法,
其中,发起对所述音频数据的所述一定处理包括以下操作中的一个或多个:
在所述客户端设备处发起对所述音频数据的本地自动话音辨识;
向与所述自动化助手相关联的远程服务器发起对所述音频数据的传输;以及
向所述远程服务器发起对来自所述本地自动话音辨识的所辨识的文本的传输。


3.根据权利要求1所述的方法,其中,所述音频数据的至少一部分是缓冲音频数据,所述缓冲音频数据是在检测用户的注视之前被缓冲在所述客户端设备本地的临时缓冲器中。


4.根据前述任一项权利要求所述的方法,进一步包括在发起对所述音频数据的所述一定处理之前:
经由所述客户端设备的输出组件来渲染至少一个人类可感知提示。


5.根据权利要求4所述的方法,其中,所述至少一个人类可感知提示包括:响应于检测到所述用户的指向所述客户端设备的注视的发生而渲染的第一队列。


6.根据前述任一项权利要求所述的方法,其中,使用所述至少一个经训练的机器学习模型来处理所述图像帧以检测所述用户的指向所述客户端设备的所述一个或多个相机的注视的发生包括:
使用所述至少一个经训练的机器学习模型来处理所述图像帧的序列,以针对所述序列中的图像帧中的每一个来确定所述用户的注视是否指向所述客户端设备;以及
基于所述序列中的、其中所述用户的注视被确定为指向所述一个或多个相机的图像帧的数量来检测所述用户的指向所述客户端设备的注视的发生。


7.根据前述任一项权利要求所述的方法,进一步包括:
在发起对经由所述客户端设备的一个或多个麦克风所检测的音频数据的所述一定处理之前:
在所述客户端设备处,进行以下操作之一或二者:
基于对所述音频数据中的至少一部分的本地处理,检测语音活动;以及
基于对所述图像帧中的一个或多个和所述音频数据的至少一部分的本地处理,检测所述用户的嘴部运动和所述语音活动的同时发生;
其中,发起对所述音频数据的所述一定处理是进一步响应于检测到以下之一或二者:所述语音活动、以及所述用户的嘴部运动和所述语音活动的同时发生。


8.根据权利要求7所述的方法,其中,检测所述用户的注视的发生在第一时间进行,其中,检测所述语音活动以及所述用户的嘴部运动和所述语音活动的同时发生之一或二者在所述第一时间之后的第二时间发生,并且所述方法进一步包括:
在发起对所述音频数据的一定处理之前并且在所述第二时间之前:
响应于检测到所述用户的指向所述客户端设备的所述一个或多个相机的注视的发生,经由所述客户端设备的输出组件来渲染第一人类可感知提示;以及
在发起对所述音频数据的一定处理之前并且在渲染所述第一人类可感知提示之后:
响应于检测到所述语音活动以及所述用户的嘴部运动和所述语音活动的同时发生之一或二者,经由所述客户端设备的所述输出组件或附加输出组件来渲染第二人类可感知提示。


9.根据权利要求8所述的方法,其中,所述第一人类可感知提示是经由所述客户端设备的显示器渲染的第一视觉线索,并且其中,所述第二人类可感知提示是经由所述客户端设备的所述显示器渲染的第二视觉线索。


10.根据权利要求8或权利要求9所述的方法,进一步包括:
响应于发起对所述音频数据的所述一定处理并且在所述第二时间之后:
经由所述客户端设备的所述输出组件或所述附加输出组件来渲染第三人类可感知提示。


11.根据前述任一项权利要求所述的方法,其中,确定所述用户相对于所述客户端设备的距离是基于所述图像帧中的一个或多个。


12.根据权利要求11所述的方法,其中,确定所述用户的距离是基于所述图像帧中的一个或多个中所检测到的所述用户的眼睛之间的、所确定的眼睛距离。


13.根据前述任一项权利要求所述的方法,其中,基于检测到所述用户的注视并且基于所述用户相对于所述客户端设备的距离来确定执行对所述音频数据的所述一定处理包括:
基于所述用户的距离满足阈值距离来确定执行所述一定处理。


14.根据前述任一项权利要求所述的方法,其中,基于检测到所述用户的注视并且基于所述用户相对于所述客户端设备的距离来确定执行对所述音频数据的所述一定处理包括:
基于所述用户的距离的量级并且基于所述用户的注视的注视置信度量度来确定执行对所述音频数据的所述一定处理,所述注视置信度量度是基于使用所述至少一个经训练的机器学习模型对所述流的图像帧的处理来生成的。


15.根据前述任一项权利要求所述的方法,进一步包括;
基于在所述客户端设备本地对所述图像帧中的一个或多个的处理来确定所述用户是所辨识的用户;
其中,确定执行对所述音频数据的所述一定处理是进一步基于确定所述用户是所辨识的用户。


16.根据前述任一项权利要求所述的方法,其中,对所述音频数据的所述一定处理包括对所述音频数据的自动话音辨识以生成所辨识的话音,并且所述方法进一步包括:
至少部分地基于所辨识的话音来确定助手请求量度,所述助手请求量度指示所辨识的话音是针对所述自动化助手的请求的概率;以及
至少部分地基于所述助手请求量度,确定是否经由所述客户端设备渲染对所辨识的话音的响应。


17.根据权利要求16所述的方法,其中,确定是否渲染对所辨识的话音的响应是进一步基于以下中的一个或多个:
所述用户的距离;
所述用户是否是所辨识的用户,所述用户是否是所辨识的用户是基于以下来确定的:基于所述图像帧中的一个或多个的脸部辨识和/或基于所述音频数据的至少一部分的讲话者识别;以及
所述用户的注视的注视置信度量度,所述注视置信度量度是基于使用所述至少一个经训练的机器学习模型对所述流的图像帧的处理来生成的。


18.一种促进用户和自动化助手之间的免热词交互的方法,所述方法由一个或多个处理器执行并且包括:
接收基于来自所述客户端设备的一个或多个相机的输出的图像帧的流;
在所述客户端设备处,使用在所述客户端设备本地存储的至少一个经训练的机器学习模型来处理所述流的图像帧以检测以下的发生:
用户的指向所述客户端设备的注视;
响应于检测到所述用户的指向所述客户端设备的注视的发生,在所述客户端设备的显示器处渲染第一人类可感知队列;
在渲染所述第一人类可感知队列的同时:
在所述客户端设备处,进行以下操作中的一个或多个:
基于对所述客户端设备的一个或多个麦克风所捕获的音频数据的至少一部分的本地处理,检测语音活动;
基于对所述图像帧中的一个或多个以及所述音频数据的至少一部分的本地处理,检测所述用户的嘴部运动和所述语音活动的同时发生;以及
基于对所述图像帧中的一个或多个的本地处理,检测所述用户的手势;
响应于继续检测到所述注视的发生以及检测到所述语音活动、所述用户的嘴部运动和所述语音活动的同时发生以及所述用户的手势中的一个或多个:
在所述客户端设备的所述显示器处,利用第二人类可感知队列的渲染替代所述第一人类可感知队列的渲染;
在所述客户端...

【专利技术属性】
技术研发人员:贾克琳·康策尔曼肯尼斯·米克斯特苏里什·乔杜里图安·恩古耶松井英明卡罗琳·潘托法鲁维奈·贝塔达普拉
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1