本公开涉及降低对手动开始/结束点和触发短语的需求。提供了用于选择性处理和响应语音用户输入的系统和处理。在一个示例中,能在用户设备处接收包含语音用户输入的音频输入。能通过识别语音用户输入的开始点和结束点来从音频输入识别语音用户输入。能基于上下文信息确定语音用户输入是否针对虚拟助理。能使用基于规则的系统或概率系统来进行确定。如果确定语音用户输入意图针对虚拟助理,则能处理语音用户输入并且能生成合适的响应。相反如果确定语音用户输入不意图针对虚拟助理,则能忽视语音用户输入和/或可不生成响应。
【技术实现步骤摘要】
这总体涉及语音处理,更具体地,涉及使用上下文数据选择性处理语音用户输入。
技术介绍
智能自动助理(或虚拟助理)提供用户与电子之间的直观交互。这些助理能允许用户以语音和/或文本形式使用自然语言与设备或系统交互。例如,用户能通过向与电子设备相关联的虚拟助理提供语音用户输入来访问电子设备的服务。虚拟助理能从语音用户输入解读用户的意图,并且将用户的意图实施为任务。然后可通过执行电子设备的一个或多个功能执行任务并且可将相关输出以自然语音形式返回用户。为了使虚拟助理适当处理并响应语音用户输入,虚拟助理能首先使用一般称为开始点和结束点的处理分别识别音频输入流内的语音用户输入的开始和结束。传统的虚拟助理能基于接收的音频流的能量等级和/或声学特性或者用户的手动识别来识别这些点。例如,一些虚拟助理能需要用户通过在向虚拟助理说话之前按下物理或虚拟按钮或者通过在向虚拟助理说话之前以自然语言形式说出特定触发短语来输入开始点标识符。响应于接收到这些开始点标识符中的一个,虚拟助理能将随后接收的音频解读为语音用户输入。尽管能使用这些技术来清楚地识别针对虚拟助理的语音用户输入,但以此方式与虚拟助理交互对于用户可能是不自然或困难的。例如,在虚拟助理与用户之间的来回对话中,可能需要用户在各个语音用户输入之前输入开始点标识符(例如按下按钮或重复相同触发短语)。
技术实现思路
公开了用于操作虚拟助理的系统和处理。一个示例处理能包括在电子设备处接收音频输入,监视音频输入以识别第一语音用户输入,识别音频输入中的第一语音用户输入,以及基于与第一语音用户输入相关联的上下文信息确定是否响应第一语音用户输入。处理还能包括,响应于确定响应第一语音用户输入:生成对第一语音用户输入的响应;以及监视音频输入以识别第二语音用户输入。处理还能包括,响应于确定不响应第一语音用户输入,监视音频输入以识别第二语音用户输入而不生成对第一语音用户输入的响应。【附图说明】图1说明能根据各种示例操作的虚拟助理的示例性环境。图2说明根据各种示例的示例性用户设备。图3说明根据各种示例的用于使用上下文信息选择性处理和响应语音用户输入的示例性处理。图4说明根据各种示例的用于使用上下文信息选择性处理和响应语音用户输入的另一示例性处理。图5说明根据各种示例的配置为使用上下文信息选择性处理和响应语音用户输入的电子设备的功能框图。【具体实施方式】在下面的示例描述中,参考通过说明方式示出可以实现的特定示例的附图。要理解,在不脱离各种示例的范围的情况下,可以使用其它示例,并且可以进行结构改变。这涉及用于选择性地处理并响应语音用户输入的系统和处理。在一个示例处理中,可以在用户设备处接收包括语音用户输入的音频输入。能通过识别语音用户输入的的开始点和结束点来识别语音用户输入。可以基于上下文信息确定语音用户输入是否针对用户设备上运行的虚拟助理并且虚拟助理是否应该响应语音用户输入。能使用基于规则的系统或概率(例如机器学习)系统进行确定。如果确定语音用户输入针对虚拟助理并且虚拟助理应该响应语音用户输入,则可处理语音用户输入并且能生成合适的响应。如果确定语音用户输入不针对虚拟助理,则能忽略语音用户输入和/或不会生成响应。使用上下文信息确定语音用户输入是否针对虚拟助理能有利地允许用户与虚拟助理交互而无需在各个语音用户输入之前手动识别开始点(例如,通过按下按钮或说出触发短语)。系统概沐图1说明根据各种示例的用于实现虚拟助理的示例性系统100。术语“虚拟助理”、“数字助理”、“智能自动助理”或“自动数字助理”可以指解释语音和/或文字形式的自然语言输入以推断用户意图并基于推断的用户意图执行动作的任何信息处理系统。例如,为了按照推断的用户意图行动,系统能执行下述中的一个或多个:识别具有设计为实现推断的用户意图的步骤和参数的任务流;输入从推断的用户意图到任务流的特定要求;通过调用程序、方法、服务、API等执行任务流;生成可听(例如语音)和/或可视形式的对用户的输出响应。虚拟助理可以能够接受至少部分处于自然语言命令、请求、陈述、叙述和/或查询形式的用户请求。典型地,用户请求寻求或者信息性答案或者虚拟助理执行任务。对用户请求的满意响应能包括或者提供请求的信息性答案、请求的任务的执行,或者二者的组合。例如,用户能问虚拟助理问题,例如“我现在在哪里?”基于用户的当前位置,虚拟助理能回答“你在中央公园。”用户也能请求执行任务,例如,“请提醒我今天下午4点给妈妈打电话。”在响应中,虚拟助理能确认请求然后在用户的电子日程中创建合适的提醒项。在执行请求的任务期间,虚拟助理有时能通过扩展时段在涉及信息的多次交换的连续对话中与用户交互。存在多种其它方式用于与虚拟助理交互以请求信息或各种任务的执行。除了提供言语响应和采取编程动作,虚拟助理还能以其它视觉或听觉形式(例如作为文本、警告、音乐、视频、动画等)可能使用多个设备提供响应(例如,经由头戴耳机输出文本到语音并且在电视上显示文本)。申请人2011年1月10日提交的美国技术申请序列号12/987, 982 “Intelligent Automated Assistant”中描述了虚拟助理的示例,上述申请的全部公开通过引用在此并入。如图1所示,在一些示例中,能根据客户端-服务器模型实现虚拟助理。虚拟助理能包括在用户设备102上运行的客户端方部分和在服务器系统100上运行的服务器方部分。用户设备102能包括任何电子设备,例如移动电话、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、电视、电视机顶盒、可穿戴电子设备等,并且能通过一个或多个网络108与服务器系统110通信,网络108能包括互联网、内联网或任何其它有线或无线公共或私有网络。在用户设备102上运行的客户端方部分能提供客户端方功能,例如面向用户输入和输出处理以及与服务器系统110通信。服务器系统110能为驻留在相应用户设备102上的任意数量的客户端提供服务器方功能。服务器系统110能包括一个或多个虚拟助理服务器114,虚拟助理服务器114能包括面向客户端的I/O接口 122,一个或多个处理模块118,数据和模型存储器120,以及到外服服务的I/O接口 116。面向客户端的I/O接口 122能便利用于虚拟助理服务器114的面向客户端的输入和输出处理。一个或多个处理模块118能利用数据和模型存储器120来基于自然语言输入确定用户的意图并且基于推断的用户意图执行任务运行。在一些示例中,虚拟助理服务器114能通过网络108与诸如电话服务、日程服务、信息服务、消息服务、导航服务等的外部服务124通信,用于任务完成或信息获取。到外部服务的I/O接口 116能便利这种通信。服务器系统110能在一个或多个独立数据处理设备或分布式计算机网络上实现。在一些示例中,服务器系统110能利用各种虚拟设备和/或第三方服务提供商(例如第三方云服务提供商)的服务来提供服务器系统110的底层计算资源和/或架构资源。尽管图1示出虚拟助理的功能包括客户端方部分和服务器方部分,但在一些示例中,助理的功能可实现为安装在用户设备上的独立应用。此外,虚拟助理的客户端和服务器部分之间的功能划分在不同示例中可变化。例如,在一些示例中,在用户设备102上本文档来自技高网...
【技术保护点】
一种用于在电子设备上操作虚拟助理的方法,该方法包括:在所述电子设备处接收音频输入;监视所述音频输入以识别第一语音用户输入;识别所述音频输入中的所述第一语音用户输入;基于与所述第一语音用户输入相关联的上下文信息确定是否响应所述第一语音用户输入;响应于确定响应所述第一语音用户输入:生成对所述第一语音用户输入的响应;和监视所述音频输入以识别第二语音用户输入;以及响应于确定不响应所述第一语音用户输入,监视所述音频输入以识别所述第二语音用户输入而不生成对所述第一语音用户输入的响应。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:P·P·皮埃尔诺特,J·G·宾德尔,
申请(专利权)人:苹果公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。