当前位置: 首页 > 专利查询>苹果公司专利>正文

自然助理交互制造技术

技术编号:37996673 阅读:5 留言:0更新日期:2023-06-30 10:10
本公开设计自然助理交互。本发明专利技术提供了用于操作虚拟助理以提供自然助理交互的系统和过程。根据一个或多个示例,一种方法包括在具有存储器和一个或多个处理器的电子设备处:接收第一音频流,所述第一音频流包括一个或多个话语;确定所述第一音频流是否包括词汇触发;生成所述一个或多个话语的一个或多个候选文本表示;确定所述虚拟助理是否要忽略所述一个或多个候选文本表示的至少一个候选文本表示。如果要忽略至少一个候选文本表示,则基于除了要被忽略的所述至少一个候选文本表示之外的所述一个或多个候选文本表示的候选文本表示,生成一个或多个候选意图。生成一个或多个候选意图。生成一个或多个候选意图。

【技术实现步骤摘要】
自然助理交互
[0001]相关申请的交叉引用
[0002]本申请是中国国家申请号为201910147749.1、申请日为2019年2月27日、专利技术名称为“自然助理交互”的专利技术专利申请的分案申请。
[0003]本专利申请要求于2018年3月26日提交的标题为“NATURAL ASSISTANT INTERACTION(自然助理交互)”的美国临时申请序列号62/648,084和于2018年6月26日提交的标题为“NATURAL ASSISTANT INTERACTION(自然助理交互)”的美国非临时申请序列号16/019,331的优先权。这两个专利申请的内容全文以引用方式并入本文以用于所有目的。


[0004]这整体涉及虚拟助理,并且更具体地讲,涉及通过虚拟助理提供自然语言交互。

技术介绍

[0005]虚拟助理(或数字助理或智能自动化助理)可提供有益的人机界面。此类助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可向正在电子设备上运行的数字助理提供包含用户请求的语音输入。虚拟助理可从该语音输入解译用户意图并且将用户意图操作化成任务。随后可通过执行电子设备的一项或多项服务来执行这些任务,并且可将响应于用户请求的相关输出返回给用户。
[0006]在接收到触发短语诸如“嘿,Siri”时,虚拟助理可被启用。启用后,虚拟助理可接收和处理用户的语音输入。例如,用户的语音输入可包括前导触发短语,以启用虚拟助理,随后是信息请求(例如,“嘿,Siri,今天的天气如何?”)。然而,用触发短语(例如,“嘿,Siri”)引导每个语音输入可能不方便并且很快会变得麻烦。它也不代表自然的交流方式。例如,当第一用户与第二用户交谈时,第一用户通常不应当用第二用户的名字来引导每个句子。因此,要求用户用触发短语引导每个语音输入并不代表自然的交流方式并且效率较低。

技术实现思路

[0007]本专利技术提供了用于通过虚拟助理提供自然语言交互的系统和过程。
[0008]根据一个或多个示例,方法包括在具有一个或多个处理器、存储器和麦克风的电子设备处:经由麦克风接收第一音频流,第一音频流包括一个或多个话语,以及确定第一音频流是否包括词汇触发。根据确定的第一音频流包括词汇触发,该方法还包括生成一个或多个话语的一个或多个候选文本表示,以及确定虚拟助理是否要忽略一个或多个候选文本表示的至少一个候选文本表示。根据确定的虚拟助理要忽略至少一个候选文本表示,该方法还包括基于除了要被忽略的至少一个候选文本表示之外的一个或多个候选文本表示的候选文本表示生成一个或多个候选意图。该方法还包括确定一个或多个候选意图是否包括至少一个可执行意图。根据确定的一个或多个候选意图包括至少一个可执行意图,该方法还包括执行至少一个可执行意图并输出执行至少一个可执行意图的结果。
[0009]本文公开了示例非暂态计算机可读介质。一种示例非暂态计算机可读存储介质存储一个或多个程序。一个或多个程序包括指令,该指令在由电子设备的一个或多个处理器执行时,使得电子设备经由麦克风接收第一音频流,第一音频流包括一个或多个话语;确定第一音频流是否包括词汇触发;根据确定的第一音频流包括词汇触发,生成一个或多个话语的一个或多个候选文本表示;确定虚拟助理是否要忽略一个或多个候选文本表示的至少一个候选文本表示;根据确定的虚拟助理要忽略至少一个候选文本表示,基于除了要被忽略的至少一个候选文本表示之外的一个或多个候选文本表示的候选文本表示生成一个或多个候选意图;确定一个或多个候选意图是否包括至少一个可执行意图;根据确定的一个或多个候选意图包括至少一个可执行意图,执行至少一个可执行意图;以及输出执行至少一个可执行意图的结果。
[0010]本文公开了示例电子设备。一种示例电子设备包括:一个或多个处理器;存储器;和一个或多个程序,其中该一个或多个程序存储在存储器中并且被配置为由一个或多个处理器执行,该一个或多个程序包括用于执行以下操作的指令:经由麦克风接收第一音频流,第一音频流包括一个或多个话语;确定第一音频流是否包括词汇触发;根据确定的第一音频流包括词汇触发,生成一个或多个话语的一个或多个候选文本表示;确定虚拟助理是否要忽略一个或多个候选文本表示的至少一个候选文本表示;根据确定的虚拟助理要忽略至少一个候选文本表示,基于除了要被忽略的至少一个候选文本表示之外的一个或多个候选文本表示的候选文本表示生成一个或多个候选意图;确定一个或多个候选意图是否包括至少一个可执行意图;根据确定的一个或多个候选意图包括至少一个可执行意图,执行至少一个可执行意图;输出执行至少一个可执行意图的结果。
[0011]示例性电子设备包括:用于经由麦克风接收第一音频流的装置,第一音频流包括一个或多个话语;用于确定第一音频流是否包括词汇触发的装置;根据确定的第一音频流包括词汇触发,用于生成一个或多个话语的一个或多个候选文本表示的装置;用于确定虚拟助理是否要忽略一个或多个候选文本表示的至少一个候选文本表示的装置;根据确定的虚拟助理要忽略至少一个候选文本表示,用于基于除了要被忽略的至少一个候选文本表示之外的一个或多个候选文本表示的候选文本表示生成一个或多个候选意图的装置;用于确定一个或多个候选意图是否包括至少一个可执行意图的装置;根据确定的一个或多个候选意图包括至少一个可执行意图,用于执行至少一个可执行意图的装置;和用于输出执行至少一个可执行意图的结果的装置。
[0012]促进基于语音的人机交互的当前技术通常需要在来自用户的话语的开始部分使用触发短语。如上所述,这个要求可使得人机交互变得麻烦并且使得人机用户界面不太自然和高效。在本申请中描述的用于提供自然语言交互的各种技术消除或减少了这种用触发短语引导每个用户话语的要求的需要。相反,触发字词或短语可放置在可包括一个或多个用户话语的音频流的任何部分中。此外,本申请中所述的技术不需要使用包括多个字词的触发短语(例如,“嘿,Siri”)。单个字词(例如,“Siri”)可用于指示包括用户话语的音频流指向虚拟助理。这使得交流方式更加自然。
[0013]此外,本申请中描述的用于促进基于语音的人机交互的各种技术提高了设备的可操作性,并且使得用户设备界面更有效(例如,不需要用触发短语引导每个用户话语),另外,通过使用户能够更快速和有效地使用设备,这还可以降低电力使用并延长设备的电池
寿命。
附图说明
[0014]图1为示出了根据各种示例的用于实现数字助理的系统和环境的框图。
[0015]图2A是示出根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备的框图。
[0016]图2B为示出了根据各种示例的用于事件处理的示例性部件的框图。
[0017]图3示出了根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备。
[0018]图4为根据各种示例的具有显示器和触敏表面的示例性多功能设备的框图。
[0019]图5A示出了根据各种示例的便携式多功能设备上的应用程序的菜单的示例性用户界面。...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:在具有一个或多个处理器和存储器的电子设备处:提供语音输出;接收用户话语;从通信地耦接到所述电子设备的传感器获得用户注视数据;基于所述用户注视数据确定所述用户话语指向虚拟助理的可能性;确定所述用户话语指向所述虚拟助理的可能性是否超过阈值;以及根据确定所述用户话语指向所述虚拟助理的所述可能性超过所述阈值,基于所述用户话语确定候选意图。2.根据权利要求1所述的方法,其中所述传感器是第一传感器,所述方法还包括:从通信地耦接到所述电子设备的第二传感器获得上下文信息,其中所述用户话语指向所述虚拟助理的所述可能性还基于所述上下文信息。3.根据权利要求1至2所述的方法,其中在提供所述语音输出之后所述用户话语被接收到。4.根据权利要求1至3所述的方法,还包括:确定所述用户话语是否参考所述语音输出,其中所述用户注视数据是响应于确定所述用户话语参考所述语音输出而获得的。5.根据权利要求1至4所述的方法,还包括:根据确定所述用户话语指向所述虚拟助理的所述可能性低于所述阈值,忽略所述用户话语。6.根据权利要求1至5所述的方法,还包括:确定与所述候选意图相关联的任务是否能够被执行。7.根据权利要求6所述的方法,还包括:根据与所述候选意图相关联的所述任务能够被执行:执行所述任务;和提供指示...

【专利技术属性】
技术研发人员:J
申请(专利权)人:苹果公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1