用于调用自动助理的动态和/或场境特定热词制造技术

技术编号:27192625 阅读:16 留言:0更新日期:2021-01-31 11:36
本文描述了使得能够使用“动态”或“场境特定的”热词来调用自动助理的技术。在各种实施方式中,可以至少部分在用户的一个或多个计算设备上执行在默认收听状态下的自动助理。当处于默认收听状态时,可以对由一个或多个麦克风捕获的音频数据监视默认热词。检测到默认热词,使自动助理转换到语音识别状态。可以检测和分析由与计算设备集成在一起的硬件传感器所生成的传感器信号,以确定用户的属性。基于该分析,自动助理可以转换到增强的收听状态,在该状态中可以对音频数据监视增强的热词。检测到增强的热词在无需检测到默认热词的情况下触发自动助理执行响应动作。下触发自动助理执行响应动作。下触发自动助理执行响应动作。

【技术实现步骤摘要】
【国外来华专利技术】用于调用自动助理的动态和/或场境特定热词

技术介绍

[0001]人们可以参与和在此称为“自动助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”、“虚拟助理”等)的人机对话。例如,人类(其当他们与自动助理交互时可以称为“用户”)可以使用自由形式的自然语言输入来提供命令、查询和/或请求(本文被统称为“查询”),其中自由形式的自然语言输入可以包括被转换成文本然后被处理的有声话语和/或键入的自由形式的自然语言输入。
[0002]在许多情况下,在自动助理可以解释并响应用户的请求之前,它必须首先例如使用通常被称为“热词”或“唤醒词”的预定义口头调用短语来被“调用”。因此,许多自动助理在本文中称为“有限的热词收听状态”或“默认收听状态”下操作,在该状态下,它们总是“收听”由麦克风针对有限(或受限,或者“默认”)的热词集采样的音频数据。音频数据中捕获的除了默认的热词集以外的任何话语都将被忽略。一旦用默认的热词集中的一个或多个热词调用了自动助理,它就可以在此处称为“语音识别状态”的状态下操作,其中在调用之后的至少一些时间间隔内,自动助理对于由麦克风采样的音频数据进行语音到文本(“STT”)处理以生成文本输入,继而对该文本输入进行语义处理以确定用户的意图(并实现该意图)。
[0003]在默认收听状态下操作自动助理提供了多种好处。限制被“收听”的热词的数量可以节省功率和/或计算资源。例如,可以训练设备上机器学习模型以生成指示何时检测到一个或多个热词的输出。实施这样的模型可能仅需要最少的计算资源和/或功率,其对于经常受到资源限制的助理设备尤其有用。在客户端设备上本地存储这样的训练模型还提供了与隐私有关的优点。例如,大多数用户不希望在运行自动助理的计算设备的听力能力范围内对他们说的一切执行STT处理。另外,设备上模型还防止将指示不打算由自动助理处理的用户话语的数据提供给通常至少部分在云上运行的语义处理器。
[0004]除了这些优点之外,在有限的热词收听状态下操作自动助理也带来了各种挑战。为了避免无意中调用自动助理,通常将热词选择为在日常对话中不经常说出的单词或短语(例如“长尾”单词或短语)。但是,存在其中要求用户在调用自动助理执行某些操作之前说出长尾热词可能会很麻烦的各种情况。一些自动助理可以在用户说出命令之后提供用于“连续收听”模式的选项,从而用户在执行后续命令之前不需要用热词“重新唤醒”自动助理。但是,将自动助理转换到连续收听模式意味着自动助理可能正在对于多得多话语执行多得多的STT处理,从而可能浪费功率和/或计算资源。另外,并且如上所述,大多数用户更喜欢仅提交给(addressed to)自动助理的话语被STT处理。

技术实现思路

[0005]本文描述了用于使自动助理能够使用“动态”热词的技术。在各种情况下,配置有本公开的所选方面的自动助理可以更智能地收听场境特定热词,有时体现在本文中称为“增强”的热词集中。在各种实施方式中,补充或代替用于调用自动助理的默认热词,自动助理可以收听这些场境特定热词。换句话说,在各种实施方式中,配置有本公开的所选方面的自动助理可以在某些情况下至少暂时地扩展或改变其热词词汇。
[0006]在各种实施方式中,可以在各种不同的情况下选择性地启用动态热词,诸如用户足够接近助理设备,或者基于用户的外观、语音和/或其它识别特性来识别用户。这些其它识别特性可能包括,例如,RFID徽章、视觉标记、制服、才华(a piece of flair)、用户的身材(这可能指示用户是成年人)、可能影响用户口头交流和/或经由常规用户输入(例如,鼠标、触摸屏等)交流的能力的身体障碍等等。
[0007]作为示例,在一些实施方式中,如果通过接近传感器检测到用户,例如,在能够用于与自动助理接洽的计算设备的预定接近度内,则可以激活一个或多个附加的热词以使邻近的用户能够更轻松地调用自动助理。在一些实施方式中,用户越靠近助理设备,就可以激活越多的动态热词。例如,在助理设备的三米之内检测到的用户可以激活第一动态热词集。如果在例如一米之内的更近接近度检测到用户,则可以激活附加或替代的热词。
[0008]作为另一示例,在一些实施方式中,可以下载和/或“激活”与用户相关联(例如,定制给用户)的一个或多个动态热词,诸如用户手动选择或输入的热词。然后,用户可以说出这些自定义热词中的一个或多个热词来调用自动助理,而无需说出人们通常可以用来调用自动助理的默认的热词集。
[0009]在一些实施方式中,可以基于接近度和识别的一些组合来激活动态热词。这在嘈杂和/或拥挤的环境中可能特别有益。例如,在这样的环境中,任何数量的其它人也可能正在试图使用可能相对标准化的默认热词与自动助理进行交互。为了避免其它人意外激活自动助理,当用户足够靠近自动助理时(例如,握住她的智能手机或戴上她的智能手表,例如,可能会检测到接合的卡扣或紧固件并触发增强的热词集的激活)并且识别时,自动助理可以停止收听标准或默认的热词,并且可以改为收听针对特定用户量身定制的自定义热词。或者,在可替代的方案中,自动助理可以继续收听默认热词,但是可以提升基于这些默认热词的调用所需的置信度阈值,同时激活或降低与自定义热词相关联的阈值。
[0010]作为另一示例,在一些实施方式中,动态热词可以与一群人(例如,雇员、性别、年龄范围、共享视觉特性等)相关联,并且在检测到和/或识别出这些人中的一个或多个人的情况下,可以激活该动态热词。例如,一群人可以共享视觉特性。在一些实施方式中,当助理设备的一个或多个硬件传感器检测到这些视觉特性中的一个或多个视觉特性时,可以激活一个或多个动态热词,否则该一个或多个动态热词对于非群组成员是不可用的。
[0011]可以由自动助理或代表自动助理以各种方式来检测热词。在一些实施方式中,可以训练机器学习模型(诸如神经网络),以检测音频数据流中一个或多个热词的有序或无序序列。在一些这样的实施方式中,可以针对每个适用的热词(或包含多个热词的“热短语”)来训练单独的机器学习模型。
[0012]在一些实施方式中,可以根据需要下载经训练以检测这些动态热词的机器学习模型。例如,假设例如基于对捕获的用户的一个或多个图像执行的面部识别处理或对于根据用户语音而生成的音频数据执行的语音识别处理来识别特定用户。如果这些模型在设备上尚不可用,则可以基于用户的在线个人资料从云中下载这些模型。
[0013]在一些实施方式中,为了改善用户体验并减少延迟,可以将当检测到场境特定热词时意欲由自动助理执行的响应动作被预先缓存在用户与自动助理接洽的设备上。这样,一旦检测到场境特定热词,自动助理便可以采取立即动作。这与自动助理首先可能与一个或多个计算系统(例如,云)进行往返网络通信以满足用户的请求的情况形成对比。
[0014]本文描述的技术引起多种技术优势。扩展或者变更在某些情况下(至少暂时)可用于调用自动助理的词汇可以减少在使自动助理执行一些场境相关的操作(例如停止计时器、暂停音乐等)之前首先调用自动助理的需要。一些现有的助理设备通过允许本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用一个或多个处理器实现的方法,包括:在默认收听状态下执行自动助理,其中,所述自动助理至少部分地在由用户操作的一个或多个计算设备上执行;当在所述默认收听状态下时,对由一个或多个麦克风捕获到的音频数据监视一个或多个热词的默认集中的一个或多个热词,其中,检测到所述默认集中的所述热词中的一个或多个热词触发使所述自动助理从所述默认收听状态转换到语音识别状态;检测由与所述计算设备中的一个或多个计算设备集成的一个或多个硬件传感器生成的一个或多个传感器信号;分析所述一个或多个传感器信号以确定所述用户的属性;基于所述分析,将所述自动助理从所述默认收听状态转换到增强收听状态;以及当处于所述增强收听状态时,对由所述麦克风中的一个或多个麦克风捕获到的所述音频数据监视一个或多个热词的增强集中的一个或多个热词,其中,检测到所述增强集中的所述热词中的一个或多个热词在无需检测到所述默认集中的所述热词中的一个或多个热词的情况下触发所述自动助理执行响应动作,并且其中,所述增强集中的所述热词中的一个或多个热词不在所述默认集中。2.根据权利要求1所述的方法,其中,所述一个或多个硬件传感器包括接近传感器,并且所述用户的属性包括:通过所述接近传感器检测到所述用户,或者通过所述接近传感器检测到所述用户在所述计算设备中的一个或多个计算设备的预定距离内。3.根据前述权利要求中的任一项所述的方法,其中,所述一个或多个硬件传感器包括相机。4.根据权利要求3所述的方法,其中,所述用户的属性包括:通过所述相机检测到所述用户,或者通过所述相机检测到所述用户在所述计算设备中的一个或多个计算设备的预定距离内。5.根据权利要求4所述的方法,其中,所述分析包括面部识别处理。6.根据权利要求5所述的方法,其中,所述用户的属性包括所述用户的身份。7.根据权利要求3所述的方法,其中,所述用户的属性包括所述用户在群组中的成员资格。8.根据前述权利要求中的任一项所述的方法,其中,所述一个或多个硬件传感器包括所述麦克风中的一个或多个麦克风。9.根据权利要求8所述的方法,其中,所述一个或多个属性包括基于由所述麦克风中的一个或多个麦克风捕获到的所述音频数据听觉地检测到所述用户。10.根据权利要求8所述的方法,其中,所述分析包括语音识别处理。11.根据权利要求10所述的方法,其中,所述用户的属性包括所述用户的身份。12.根据权利要求8所述的方法,其中,所述用户的属性包括所述用户在群组中的成员资格。13.根据前述权利要求中的任一项所述的方法,其中,所述响应动作包括将所述自动助
理转换到所述语音识别状态。14.根据前述权利要求中的任一项所述的方法,其中,所述响应动作包括所述自动助理执行由所述用户使用所述增强集中的所述热词中的一个或多个热词所请求的任务。15.一种系统,包括一个或多个处理器和存储器,所述存储器可操作地与所述一个或多个处理器耦合,其中,所述存储器存储指令,响应于通过一个或多个处理器执行所述指令,所述指令使所述一个或多个处理...

【专利技术属性】
技术研发人员:迭戈
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利