当前位置: 首页 > 专利查询>苹果公司专利>正文

低延迟智能自动化助理制造技术

技术编号:35269608 阅读:33 留言:0更新日期:2022-10-19 10:38
在示例性过程中,本发明专利技术提供了数字助理的低延迟操作。在该示例中,可以在等待语音结束点条件的检测时,至少部分地执行自然语言处理、任务流处理、对话流处理、语音合成或其任何组合。在检测到语音结束点条件时,可以将通过执行操作而获得的结果呈现给所述用户。在另一个示例中,提供了数字助理的鲁棒操作。在该示例中,由所述数字助理进行的任务流处理可以包括基于所确定的任务流得分从多个候选任务流中选择候选任务流。所述任务流得分可以基于语音识别置信度得分、意图置信度得分、流参数得分或其任意组合。执行所述的选定候选任务流并将对应结果呈现给所述用户。将对应结果呈现给所述用户。将对应结果呈现给所述用户。

【技术实现步骤摘要】
低延迟智能自动化助理
[0001]本申请是申请日为2018年4月24日、于2019年11月8日进入中国国家阶段的申请号为201880030830.5、专利技术名称为“低延迟智能自动化助理”的中国专利技术专利申请的分案申请。
[0002]相关申请的交叉引用
[0003]本申请要求以下专利申请的优先权:于2017年5月12日提交的标题为“Low

Latency Intelligent Automated Assistant”的美国申请序列号62/505,546;于2017年6月1日提交的标题为“Low

Latency Intelligent Automated Assistant”的丹麦申请号PA201770427;于2017年6月1日提交的标题为“Low

Latency Intelligent Automated Assistant”的丹麦申请号PA201770428;于2017年6月1日提交的标题为“Low

Latency Intelligent Automated Assistant”的丹麦申请号PA201770429;以及于2017年8月17日提交的标题为“Low

Latency Intelligent Automated Assistant”的美国申请序列号15/679,595,以上专利申请的内容据此全文以引用方式并入。


[0004]本专利技术整体涉及智能自动化助理,并且更具体地讲,涉及低延迟智能自动化助理。

技术介绍

[0005]智能自动化助理(或数字助理)可在人类用户与电子设备之间提供有利界面。此类助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可向正在电子设备上运行的数字助理提供包含用户请求的语音输入。数字助理可从该语音输入解译用户意图并且将用户意图操作化成任务。随后可通过执行电子设备的一项或多项服务来执行这些任务,并且可将响应于用户请求的相关输出返回给用户。
[0006]数字助理通常在移动计算平台上实现,诸如智能电话和平板计算机。然而,此类移动计算平台可能具有有限的计算资源(例如,存储器和处理器能力)并且因此在此类平台上实现的数字助理可能需要更长的处理时间,并从而在响应用户请求时会有更大的延迟。这可能会导致不良的用户体验,从而可限制数字助理在移动平台上的广泛采用。

技术实现思路

[0007]本专利技术提供了用于操作数字助理的系统和过程。在一个示例性过程中,本专利技术提供了数字助理的低延迟操作。在该示例中,接收到音频流。具体地,从第一时间到第二时间接收包含用户话语的音频流的第一部分,并且从第二时间到第三时间接收音频流的第二部分。该过程确定音频流的第一部分是否满足预定条件。响应于确定音频流的第一部分满足预定条件,在第二时间和第三时间之间至少部分地执行操作。这些操作包括基于用户话语的一个或多个候选文本表示来确定用户话语的多个候选用户意图。多个候选用户意图中的每个候选用户意图对应于多个候选任务流中的各个候选任务流。操作还包括选择多个候选任务流中的第一候选任务流。此外,操作包括执行第一候选任务流而不向设备的用户提供
输出。过程确定在第二时间和第三时间之间是否检测到语音结束点条件。响应于确定在第二时间和第三时间之间检测到语音结束点条件,将执行选定第一候选任务流的结果呈现给用户。
[0008]至少部分地在第二时间和第三时间之间并响应于确定音频流的第一部分满足预定条件而执行包括以下的操作:确定多个候选用户意图,选择第一候选任务流的操作,以及执行第一候选任务流可以使得电子设备在等待语音结束点条件被检测的同时至少部分地完成这些操作。这可以通过减少在检测到语音结束点条件之后需要执行的计算量来增强电子设备的可操作性,这继而可以减小接收用户话语和向用户呈现结果之间的总体延迟。
[0009]在数字助理的低延迟操作的另一个示例性过程中,接收音频流。具体地,从第一时间到第二时间接收包含用户话语的音频流的第一部分,并且从第二时间到第三时间接收音频流的第二部分。该过程确定音频流的第一部分是否满足预定条件。响应于确定音频流的第一部分满足预定条件,在第二时间和第三时间之间至少部分地执行操作。操作包括致使响应于用户话语而生成文本对话。操作还包括确定设备的存储器是否存储具有文本对话的语音表示的音频文件。响应于确定设备的存储器没有存储具有文本对话的语音表示的音频文件,操作包括生成具有文本对话的语音表示的音频文件并将该音频文件存储在存储器中。过程确定在第二时间和第三时间之间是否检测到语音结束点条件。响应于确定在第二时间和第三时间之间检测到语音结束点条件,通过播放所存储的音频文件将文本对话的语音表示输出到设备的用户。
[0010]至少部分地在第二时间和第三时间之间并响应于确定音频流的第一部分满足预定条件而执行包括以下的操作:致使文本对话的生成,以及生成具有文本对话的语音表示的音频文件可以使得电子设备在等待语音结束点条件被检测的同时至少部分地完成这些操作。这可以通过减少在检测到语音结束点条件之后需要执行的计算量来增强电子设备的可操作性,这继而可以减小接收用户话语和向用户输出文本对话的语音表示之间的总体延迟。
[0011]还提供了用于数字助理的鲁棒操作的系统和过程。在示例性过程中,接收用户话语。基于用户话语的多个候选文本表示,确定用户话语的多个候选用户意图。多个候选用户意图中的每个候选用户意图对应于多个候选任务流中的各个候选任务流。确定多个候选任务流的多个任务流得分。多个任务流得分中的每个任务流得分对应于多个候选任务流中的相应候选任务流。基于多个任务流得分,选择多个候选任务流中的第一候选任务流。执行第一候选任务流,包括向用户呈现来自执行第一候选任务流的结果。
[0012]确定多个候选任务流的多个任务流得分并基于多个任务流得分选择第一候选任务流可以使得电子设备能够在选择和执行第一候选任务流之前评估每个候选任务流的可靠性和可行性。这可以通过提高选定第一候选任务流与用户提供用户话语的实际期望目标相符的可能性来增强电子设备的可操作性。继而,这可以允许电子设备在响应于用户话语的识别和执行任务时以更高的准确性和可靠性进行操作。
[0013]用于执行本文所述的功能的可执行指令任选地被包括在被配置用于由一个或多个处理器执行的非暂态计算机可读存储介质或其他计算机程序产品中。用于执行这些功能的可执行指令任选地被包括在被配置用于由一个或多个处理器执行的暂态计算机可读存储介质或其他计算机程序产品中。
附图说明
[0014]图1为示出了根据各种示例的用于实现数字助理的系统和环境的框图。
[0015]图2A为示出了根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备的框图。
[0016]图2B为示出了根据各种示例的用于事件处理的示例性部件的框图。
[0017]图3示出了根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备。
[0018]图4为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子设备,包括:一个或多个处理器;以及存储器,所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于以下操作的指令:接收用户话语;基于所述用户话语的多个候选文本表示,确定所述用户话语的多个候选用户意图,其中,所述多个候选用户意图中的每个候选用户意图对应于多个候选任务流中的相应候选任务流;确定所述多个候选任务流的多个任务流得分,所述多个任务流得分中的每个任务流得分对应于所述多个候选任务流中的相应候选任务流;基于所述多个任务流得分,选择所述多个候选任务流中的第一候选任务流;以及执行所述第一候选任务流,包括向所述用户呈现来自执行所述第一候选任务流的结果。2.根据权利要求1所述的电子设备,其中,所述一个或多个程序还包括用于以下操作的指令:对于所述多个候选任务流中的每个候选任务流:解析相应候选任务流的一个或多个流参数,其中,所述相应候选任务流的相应任务流得分基于解析所述相应候选任务流的所述一个或多个流参数。3.根据权利要求2所述的电子设备,其中,解析所述相应候选任务流的所述一个或多个流参数包括搜索与所述一个或多个流参数对应的一个或多个值的数据源,所述数据源对应于所述多个候选用户意图中的相应候选意图的一个或多个属性。4.根据权利要求1所述的电子设备,其中:所述多个候选文本表示中的每个候选文本表示具有相关联的语音识别置信度得分;以及所述多个任务流得分中的每个任务流得分基于所述多个候选文本表示中的相应候选文本表示的相应语音识别置信度得分。5.根据权利要求1所述的电子设备,其中:所述多个候选用户意图中的每个候选用户意图具有相关联的意图置信度得分;以及所述多个任务流得分中的每个任务流得分基于所述多个候选用户意图中的相应候选用户意图的相应意图置信度得分。6.根据权利要求1所述的电子设备,其中:从所述多个候选文本表示的第一候选文本表示确定所述多个候选用户意图的第一候选用户意图;以及从所述多个候选文本表示的第二候选文本表示确定所述多个候选用户意图中的第二候选用户意图。7.根据权利要求1所述的电子设备,其中,所述一个或多个程序还包括用于以下操作的指令:根据所述多个任务流得分对所述多个候选任务流进行排序,其中,选择所述第一候选任务流基于对所述多个候选任务流的排序。
8.一种用于操作数字助理的方法,所述方法包括:在具有存储器以及一个或多个处理器的电子设备处:接收用户话语;基于所述用户话语的多个候选文本表示,确定所述用户话语的多个候选用户意图,其中,所述多个候选用户意图中的每个候选用户意图对应于多个候选任务流中的相应候选任务流;确定所述多个候选任务流的多个任务流得分,所述多个任务流得分中的每个任务流得分对应于所述多个候选任务流中的相应候选任务流;基于所述多个任务流得分,选择所述多个候选任务流中的第一候选任务流;以及执行所述第一候选任务流,包括向所述用户呈现来自执行所述第一候选任务流的结果。9.根据权利要求8所述的方法,还包括:对于所述多个候选任务流中的每个候选任务流:解析相应候选任务流的一个或多个流参数,其中,所述相应候选任务流的相应任务流得分基于解析所述相应候选任务流的所述一个或多个流参数。10.根据权利要求9所述的方法,其中,解析所述相应候选任务流的所述一个或多个流参数包括搜索与所述一个或多个流参数对应的一个或多个值的数据源,所述数据源对应于所述多个候选用户意图中的相应候选用户意图的一个或多个属性。11.根据权利要求8所述的方法,其中:所述多个候选文本表示中的每个候选文本表示具有相关联的语音识别置信度得分;以及所述多个任务流得分中的每个任务流得分基于所述多个候选文本表示中的相应候选文本表示的相应语音识别置信度得分。12.根据权利要求8所述的方法,其中:所述多个候选用户意图中的每个候选用户意图具有相关联的意图置信度得分;以及所述多个任务流得分中的每个任务流得分基于所述多个候选用户意图中的相应候选用户意图的相应意图置信度得分。13.根据权利要求8所述的方法,其中:从所述多个候选文本表示的第一候选文本表示确定所述多个候选用户意图的第一候选用户意图;以及从所述多个候选文本表示的第二候选文本表示确定所述多个候选用户意图中的第二候选用户意图。14.根据权利要求8所述的方法,还包括:根据所述多个任务流得分对所述多个候选任务流进行排序,其中,选择所述第一候选任务流基于对所述多个候选任务流的排序。15.一种非暂态计算机可读...

【专利技术属性】
技术研发人员:A
申请(专利权)人:苹果公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1