降低对手动开始/结束点和触发短语的需求制造技术

技术编号：22594786 阅读：34 留言：0更新日期：2019-11-20 11:08

本公开涉及降低对手动开始/结束点和触发短语的需求。提供了一种用于在电子设备上操作虚拟助理的方法。包括接收并监视音频输入以识别第一语音用户输入，基于与第一语音用户输入相关联的上下文信息确定是否响应第一语音用户输入。上下文信息包括接收第一语音用户输入时用户眼睛的方向。确定包括：响应于接收第一语音用户输入时用户眼睛的方向指向电子设备而增大可能性得分，响应于接收第一语音用户输入时用户眼睛的方向指离电子设备而减小可能性得分，将可能性得分与阈值进行比较以确定是否响应第一语音用户输入。确定响应时，生成响应并监视识别第二语音用户输入。确定不响应时，监视识别第二语音用户输入而不生成响应。

Reduce the need for manual start / end points and trigger phrases

The present disclosure relates to reducing the need for manual start / end points and trigger phrases. A method for operating a virtual assistant on an electronic device is provided. It includes receiving and monitoring the audio input to recognize the first voice user input, and determining whether to respond to the first voice user input based on the context information associated with the first voice user input. The context information includes the direction of the user's eyes when receiving the first voice user input. The determination includes: increasing the possibility score in response to the direction of the user's eyes pointing to the electronic device when receiving the first voice user input, reducing the possibility score in response to the direction of the user's eyes pointing away from the electronic device when receiving the first voice user input, and comparing the possibility score with the threshold value to determine whether to respond to the first voice user input. When the response is determined, the response is generated and the second voice user input is monitored for recognition. When no response is determined, the monitor recognizes the second voice user input without generating a response.

全部详细技术资料下载

【技术实现步骤摘要】
降低对手动开始/结束点和触发短语的需求本申请是申请号为201510289544.9、申请日为2015年5月29日、名称为“降低对手动开始/结束点和触发短语的需求”的专利技术专利申请的分案申请。
这总体涉及语音处理，更具体地，涉及使用上下文数据选择性处理语音用户输入。
技术介绍
智能自动助理(或虚拟助理)提供用户与电子之间的直观交互。这些助理能允许用户以语音和/或文本形式使用自然语言与设备或系统交互。例如，用户能通过向与电子设备相关联的虚拟助理提供语音用户输入来访问电子设备的服务。虚拟助理能从语音用户输入解读用户的意图，并且将用户的意图实施为任务。然后可通过执行电子设备的一个或多个功能执行任务并且可将相关输出以自然语音形式返回用户。为了使虚拟助理适当处理并响应语音用户输入，虚拟助理能首先使用一般称为开始点和结束点的处理分别识别音频输入流内的语音用户输入的开始和结束。传统的虚拟助理能基于接收的音频流的能量等级和/或声学特性或者用户的手动识别来识别这些点。例如，一些虚拟助理能需要用户通过在向虚拟助理说话之前按下物理或虚拟按钮或者通过在向虚拟助理说话之前以自然语言形式说出特定触发短语来输入开始点标识符。响应于接收到这些开始点标识符中的一个，虚拟助理能将随后接收的音频解读为语音用户输入。尽管能使用这些技术来清楚地识别针对虚拟助理的语音用户输入，但以此方式与虚拟助理交互对于用户可能是不自然或困难的。例如，在虚拟助理与用户之间的来回对话中，可能需要用户在各个语音用户输入之前输入开始点标识符(例如按下按钮或重复相同触...

【技术保护点】
1.一种用于在电子设备上操作虚拟助理的方法，该方法包括：/n在所述电子设备处接收音频输入；/n监视所述音频输入以识别第一语音用户输入；/n识别所述音频输入中的所述第一语音用户输入；/n基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入，其中所述上下文信息包括接收所述第一语音用户输入时用户眼睛的方向，其中所述确定包括：/n基于与所述第一语音用户输入相关联的所述上下文信息计算所述虚拟助理应该响应所述第一语音用户输入的可能性得分，其中所述计算包括：/n响应于接收所述第一语音用户输入时用户眼睛的方向指向所述电子设备而增大所述可能性得分；和/n响应于接收所述第一语音用户输入时用户眼睛的方向指离所述电子设备而减小所述可能性得分；/n将所述可能性得分与阈值进行比较；/n根据确定所述可能性得分大于所述阈值，确定响应所述第一语音用户输入；以及/n根据确定所述可能性得分小于所述阈值，确定不响应所述第一语音用户输入；/n响应于确定响应所述第一语音用户输入：/n生成对所述第一语音用户输入的响应；和/n监视所述音频输入以识别第二语音用户输入；以及/n响应于确定不响应所述第一语音用户输入...

【技术特征摘要】
20140530 US 62/005,760;20140930 US 14/502,7371.一种用于在电子设备上操作虚拟助理的方法，该方法包括：
在所述电子设备处接收音频输入；
监视所述音频输入以识别第一语音用户输入；
识别所述音频输入中的所述第一语音用户输入；
基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入，其中所述上下文信息包括接收所述第一语音用户输入时用户眼睛的方向，其中所述确定包括：
基于与所述第一语音用户输入相关联的所述上下文信息计算所述虚拟助理应该响应所述第一语音用户输入的可能性得分，其中所述计算包括：
响应于接收所述第一语音用户输入时用户眼睛的方向指向所述电子设备而增大所述可能性得分；和
响应于接收所述第一语音用户输入时用户眼睛的方向指离所述电子设备而减小所述可能性得分；
将所述可能性得分与阈值进行比较；
根据确定所述可能性得分大于所述阈值，确定响应所述第一语音用户输入；以及
根据确定所述可能性得分小于所述阈值，确定不响应所述第一语音用户输入；
响应于确定响应所述第一语音用户输入：
生成对所述第一语音用户输入的响应；和
监视所述音频输入以识别第二语音用户输入；以及
响应于确定不响应所述第一语音用户输入，监视所述音频输入以识别所述第二语音用户输入而不生成对所述第一语音用户输入的响应。

2.根据权利要求1所述的方法，其中基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入不包括识别所述第一语音用户输入的开始处的一个或多个预定词。

3.根据权利要求1所述的方法，其中基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入不包括识别在接收所述第一语音用户输入之前接收的物理或虚拟按钮输入。

4.根据权利要求1-2中任一所述的方法，其中生成对所述第一语音用户输入的响应包括以下中的一个或多个：
对所述第一语音用户输入执行语音到文本转换；
基于所述第一语音用户输入确定用户意图；
基于所述第一语音用户输入确定要执行的任务；
基于所述第一语音用户输入确定要执行的任务的参数；
执行要执行的任务；
显示对所述第一语音用户输入的文本响应；和
输出对所述第一语音用户输入的音频响应。

5.根据权利要求1-3中任一项所述的方法，其中基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入包括：
评估取决于与所述第一语音用户输入相关联的所述上下文信息...

【专利技术属性】
技术研发人员：P·P·皮埃尔诺特，J·G·宾德尔，
申请(专利权)人：苹果公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人