当前位置: 首页 > 专利查询>苹果公司专利>正文

降低对手动开始/结束点和触发短语的需求制造技术

技术编号:22594786 阅读:34 留言:0更新日期:2019-11-20 11:08
本公开涉及降低对手动开始/结束点和触发短语的需求。提供了一种用于在电子设备上操作虚拟助理的方法。包括接收并监视音频输入以识别第一语音用户输入,基于与第一语音用户输入相关联的上下文信息确定是否响应第一语音用户输入。上下文信息包括接收第一语音用户输入时用户眼睛的方向。确定包括:响应于接收第一语音用户输入时用户眼睛的方向指向电子设备而增大可能性得分,响应于接收第一语音用户输入时用户眼睛的方向指离电子设备而减小可能性得分,将可能性得分与阈值进行比较以确定是否响应第一语音用户输入。确定响应时,生成响应并监视识别第二语音用户输入。确定不响应时,监视识别第二语音用户输入而不生成响应。

Reduce the need for manual start / end points and trigger phrases

The present disclosure relates to reducing the need for manual start / end points and trigger phrases. A method for operating a virtual assistant on an electronic device is provided. It includes receiving and monitoring the audio input to recognize the first voice user input, and determining whether to respond to the first voice user input based on the context information associated with the first voice user input. The context information includes the direction of the user's eyes when receiving the first voice user input. The determination includes: increasing the possibility score in response to the direction of the user's eyes pointing to the electronic device when receiving the first voice user input, reducing the possibility score in response to the direction of the user's eyes pointing away from the electronic device when receiving the first voice user input, and comparing the possibility score with the threshold value to determine whether to respond to the first voice user input. When the response is determined, the response is generated and the second voice user input is monitored for recognition. When no response is determined, the monitor recognizes the second voice user input without generating a response.

【技术实现步骤摘要】
降低对手动开始/结束点和触发短语的需求本申请是申请号为201510289544.9、申请日为2015年5月29日、名称为“降低对手动开始/结束点和触发短语的需求”的专利技术专利申请的分案申请。
这总体涉及语音处理,更具体地,涉及使用上下文数据选择性处理语音用户输入。
技术介绍
智能自动助理(或虚拟助理)提供用户与电子之间的直观交互。这些助理能允许用户以语音和/或文本形式使用自然语言与设备或系统交互。例如,用户能通过向与电子设备相关联的虚拟助理提供语音用户输入来访问电子设备的服务。虚拟助理能从语音用户输入解读用户的意图,并且将用户的意图实施为任务。然后可通过执行电子设备的一个或多个功能执行任务并且可将相关输出以自然语音形式返回用户。为了使虚拟助理适当处理并响应语音用户输入,虚拟助理能首先使用一般称为开始点和结束点的处理分别识别音频输入流内的语音用户输入的开始和结束。传统的虚拟助理能基于接收的音频流的能量等级和/或声学特性或者用户的手动识别来识别这些点。例如,一些虚拟助理能需要用户通过在向虚拟助理说话之前按下物理或虚拟按钮或者通过在向虚拟助理说话之前以自然语言形式说出特定触发短语来输入开始点标识符。响应于接收到这些开始点标识符中的一个,虚拟助理能将随后接收的音频解读为语音用户输入。尽管能使用这些技术来清楚地识别针对虚拟助理的语音用户输入,但以此方式与虚拟助理交互对于用户可能是不自然或困难的。例如,在虚拟助理与用户之间的来回对话中,可能需要用户在各个语音用户输入之前输入开始点标识符(例如按下按钮或重复相同触发短语)。
技术实现思路
公开了用于操作虚拟助理的系统和处理。一个示例处理能包括在电子设备处接收音频输入,监视音频输入以识别第一语音用户输入,识别音频输入中的第一语音用户输入,以及基于与第一语音用户输入相关联的上下文信息确定是否响应第一语音用户输入。处理还能包括,响应于确定响应第一语音用户输入:生成对第一语音用户输入的响应;以及监视音频输入以识别第二语音用户输入。处理还能包括,响应于确定不响应第一语音用户输入,监视音频输入以识别第二语音用户输入而不生成对第一语音用户输入的响应。附图说明图1说明能根据各种示例操作的虚拟助理的示例性环境。图2说明根据各种示例的示例性用户设备。图3说明根据各种示例的用于使用上下文信息选择性处理和响应语音用户输入的示例性处理。图4说明根据各种示例的用于使用上下文信息选择性处理和响应语音用户输入的另一示例性处理。图5说明根据各种示例的配置为使用上下文信息选择性处理和响应语音用户输入的电子设备的功能框图。具体实施方式在下面的示例描述中,参考通过说明方式示出可以实现的特定示例的附图。要理解,在不脱离各种示例的范围的情况下,可以使用其它示例,并且可以进行结构改变。这涉及用于选择性地处理并响应语音用户输入的系统和处理。在一个示例处理中,可以在用户设备处接收包括语音用户输入的音频输入。能通过识别语音用户输入的的开始点和结束点来识别语音用户输入。可以基于上下文信息确定语音用户输入是否针对用户设备上运行的虚拟助理并且虚拟助理是否应该响应语音用户输入。能使用基于规则的系统或概率(例如机器学习)系统进行确定。如果确定语音用户输入针对虚拟助理并且虚拟助理应该响应语音用户输入,则可处理语音用户输入并且能生成合适的响应。如果确定语音用户输入不针对虚拟助理,则能忽略语音用户输入和/或不会生成响应。使用上下文信息确定语音用户输入是否针对虚拟助理能有利地允许用户与虚拟助理交互而无需在各个语音用户输入之前手动识别开始点(例如,通过按下按钮或说出触发短语)。系统概述图1说明根据各种示例的用于实现虚拟助理的示例性系统100。术语“虚拟助理”、“数字助理”、“智能自动助理”或“自动数字助理”可以指解释语音和/或文字形式的自然语言输入以推断用户意图并基于推断的用户意图执行动作的任何信息处理系统。例如,为了按照推断的用户意图行动,系统能执行下述中的一个或多个:识别具有设计为实现推断的用户意图的步骤和参数的任务流;输入从推断的用户意图到任务流的特定要求;通过调用程序、方法、服务、API等执行任务流;生成可听(例如语音)和/或可视形式的对用户的输出响应。虚拟助理可以能够接受至少部分处于自然语言命令、请求、陈述、叙述和/或查询形式的用户请求。典型地,用户请求寻求或者信息性答案或者虚拟助理执行任务。对用户请求的满意响应能包括或者提供请求的信息性答案、请求的任务的执行,或者二者的组合。例如,用户能问虚拟助理问题,例如“我现在在哪里?”基于用户的当前位置,虚拟助理能回答“你在中央公园。”用户也能请求执行任务,例如,“请提醒我今天下午4点给妈妈打电话。”在响应中,虚拟助理能确认请求然后在用户的电子日程中创建合适的提醒项。在执行请求的任务期间,虚拟助理有时能通过扩展时段在涉及信息的多次交换的连续对话中与用户交互。存在多种其它方式用于与虚拟助理交互以请求信息或各种任务的执行。除了提供言语响应和采取编程动作,虚拟助理还能以其它视觉或听觉形式(例如作为文本、警告、音乐、视频、动画等)可能使用多个设备提供响应(例如,经由头戴耳机输出文本到语音并且在电视上显示文本)。申请人2011年1月10日提交的美国技术申请序列号12/987,982“IntelligentAutomatedAssistant”中描述了虚拟助理的示例,上述申请的全部公开通过引用在此并入。如图1所示,在一些示例中,能根据客户端-服务器模型实现虚拟助理。虚拟助理能包括在用户设备102上运行的客户端方部分和在服务器系统100上运行的服务器方部分。用户设备102能包括任何电子设备,例如移动电话、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、电视、电视机顶盒、可穿戴电子设备等,并且能通过一个或多个网络108与服务器系统110通信,网络108能包括互联网、内联网或任何其它有线或无线公共或私有网络。在用户设备102上运行的客户端方部分能提供客户端方功能,例如面向用户输入和输出处理以及与服务器系统110通信。服务器系统110能为驻留在相应用户设备102上的任意数量的客户端提供服务器方功能。服务器系统110能包括一个或多个虚拟助理服务器114,虚拟助理服务器114能包括面向客户端的I/O接口122,一个或多个处理模块118,数据和模型存储器120,以及到外服服务的I/O接口116。面向客户端的I/O接口122能便利用于虚拟助理服务器114的面向客户端的输入和输出处理。一个或多个处理模块118能利用数据和模型存储器120来基于自然语言输入确定用户的意图并且基于推断的用户意图执行任务运行。在一些示例中,虚拟助理服务器114能通过网络108与诸如电话服务、日程服务、信息服务、消息服务、导航服务等的外部服务124通信,用于任务完成或信息获取。到外部服务的I/O接口116能便利这种通信。服务器系统110能在一个或多个独立数据处理设备或分布式计算机网络上实现。在一本文档来自技高网
...

【技术保护点】
1.一种用于在电子设备上操作虚拟助理的方法,该方法包括:/n在所述电子设备处接收音频输入;/n监视所述音频输入以识别第一语音用户输入;/n识别所述音频输入中的所述第一语音用户输入;/n基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入,其中所述上下文信息包括接收所述第一语音用户输入时用户眼睛的方向,其中所述确定包括:/n基于与所述第一语音用户输入相关联的所述上下文信息计算所述虚拟助理应该响应所述第一语音用户输入的可能性得分,其中所述计算包括:/n响应于接收所述第一语音用户输入时用户眼睛的方向指向所述电子设备而增大所述可能性得分;和/n响应于接收所述第一语音用户输入时用户眼睛的方向指离所述电子设备而减小所述可能性得分;/n将所述可能性得分与阈值进行比较;/n根据确定所述可能性得分大于所述阈值,确定响应所述第一语音用户输入;以及/n根据确定所述可能性得分小于所述阈值,确定不响应所述第一语音用户输入;/n响应于确定响应所述第一语音用户输入:/n生成对所述第一语音用户输入的响应;和/n监视所述音频输入以识别第二语音用户输入;以及/n响应于确定不响应所述第一语音用户输入,监视所述音频输入以识别所述第二语音用户输入而不生成对所述第一语音用户输入的响应。/n...

【技术特征摘要】
20140530 US 62/005,760;20140930 US 14/502,7371.一种用于在电子设备上操作虚拟助理的方法,该方法包括:
在所述电子设备处接收音频输入;
监视所述音频输入以识别第一语音用户输入;
识别所述音频输入中的所述第一语音用户输入;
基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入,其中所述上下文信息包括接收所述第一语音用户输入时用户眼睛的方向,其中所述确定包括:
基于与所述第一语音用户输入相关联的所述上下文信息计算所述虚拟助理应该响应所述第一语音用户输入的可能性得分,其中所述计算包括:
响应于接收所述第一语音用户输入时用户眼睛的方向指向所述电子设备而增大所述可能性得分;和
响应于接收所述第一语音用户输入时用户眼睛的方向指离所述电子设备而减小所述可能性得分;
将所述可能性得分与阈值进行比较;
根据确定所述可能性得分大于所述阈值,确定响应所述第一语音用户输入;以及
根据确定所述可能性得分小于所述阈值,确定不响应所述第一语音用户输入;
响应于确定响应所述第一语音用户输入:
生成对所述第一语音用户输入的响应;和
监视所述音频输入以识别第二语音用户输入;以及
响应于确定不响应所述第一语音用户输入,监视所述音频输入以识别所述第二语音用户输入而不生成对所述第一语音用户输入的响应。


2.根据权利要求1所述的方法,其中基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入不包括识别所述第一语音用户输入的开始处的一个或多个预定词。


3.根据权利要求1所述的方法,其中基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入不包括识别在接收所述第一语音用户输入之前接收的物理或虚拟按钮输入。


4.根据权利要求1-2中任一所述的方法,其中生成对所述第一语音用户输入的响应包括以下中的一个或多个:
对所述第一语音用户输入执行语音到文本转换;
基于所述第一语音用户输入确定用户意图;
基于所述第一语音用户输入确定要执行的任务;
基于所述第一语音用户输入确定要执行的任务的参数;
执行要执行的任务;
显示对所述第一语音用户输入的文本响应;和
输出对所述第一语音用户输入的音频响应。


5.根据权利要求1-3中任一项所述的方法,其中基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入包括:
评估取决于与所述第一语音用户输入相关联的所述上下文信息...

【专利技术属性】
技术研发人员:P·P·皮埃尔诺特J·G·宾德尔
申请(专利权)人:苹果公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1