用于降低语音识别应用中的延时的方法和装置制造方法及图纸

技术编号：17573774 阅读：67 留言：0更新日期：2018-03-28 21:09

本公开涉及用于降低语音识别应用中的延时的方法和装置。该方法包括接收包括来自计算设备的用户的语音的第一音频、检测第一音频中的语音的结束、至少部分地基于第一音频在检测到的语音的结束之前的一部分来生成ASR结果、确定安装在计算设备上的启用语音的应用是否能够使用ASR结果执行有效动作、以及当确定启用语音的应用不能使用ASR结果执行有效动作时处理第二音频。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于降低语音识别应用中的延时的方法和装置
技术介绍
诸如智能电话和平板计算机的一些电子设备包括语音识别能力或与语音识别能力相关联，该语音识别能力使用户能够经由语音输入来访问设备的功能。语音输入由自动语音识别(ASR)系统处理，该ASR系统将输入音频转换为识别出的文本。电子设备还可以包括自然语言理解(NLU)引擎或与NLU引擎相关联，该NLU引擎解释用户输入并且基于所确定的用户输入的语义内容采取动作(例如，通过促进与经由电子设备可访问的一个或多个应用的动作)。虚拟代理或虚拟助理是受益于NLU处理以帮助用户执行诸如搜索网络(例如，互联网)上的内容和与其它应用接口的功能的一类这种应用。用户可以通过键入、触摸、语音或某种其它接口与虚拟代理进行交互。为了确定用户输入的含义，NLU引擎解释用户输入，并且虚拟代理可以尝试基于NLU结果来推断用户想要执行的动作。
技术实现思路
一些实施例涉及一种包括安装在其上的启用语音的应用的计算设备。该计算设备包括：输入接口，被配置为从计算设备的用户接收包括语音的第一音频；自动语音识别(ASR)引擎，被配置为至少部分地基于用于终点判定(endpointing)的阈值时间来检测第一音频中的语音的结束，以及至少部分地基于第一音频的在检测到的语音的结束之前的一部分来生成第一ASR结果。计算设备还包括至少一个处理器，其被编程为确定启用语音的应用是否能够使用第一ASR结果来执行有效动作，以及当确定启用语音的应用不能使用第一ASR结果执行有效动作时指令ASR引擎处理第二音频。其它实施例涉及一种方法。该方法包括通过计算设备的输入接口接收包括来自计算设备的用户的...
用于降低语音识别应用中的延时的方法和装置

【技术保护点】
一种计算设备，所述计算设备包括安装在其上的启用语音的应用，所述计算设备包括：输入接口，被配置为从所述计算设备的用户接收包括语音的第一音频；自动语音识别(ASR)引擎，被配置为：至少部分地基于用于终点判定的阈值时间来检测所述第一音频中语音的结束；以及至少部分地基于所述第一音频在检测到的语音结束之前的一部分来生成第一ASR结果；以及至少一个处理器，被编程为：确定所述启用语音的应用是否能够使用所述第一ASR结果来执行有效动作；以及当确定所述启用语音的应用不能使用所述第一ASR结果执行有效动作时，指令所述ASR引擎处理第二音频。

【技术特征摘要】
【国外来华专利技术】2015.05.26 US 14/721,2521.一种计算设备，所述计算设备包括安装在其上的启用语音的应用，所述计算设备包括：输入接口，被配置为从所述计算设备的用户接收包括语音的第一音频；自动语音识别(ASR)引擎，被配置为：至少部分地基于用于终点判定的阈值时间来检测所述第一音频中语音的结束；以及至少部分地基于所述第一音频在检测到的语音结束之前的一部分来生成第一ASR结果；以及至少一个处理器，被编程为：确定所述启用语音的应用是否能够使用所述第一ASR结果来执行有效动作；以及当确定所述启用语音的应用不能使用所述第一ASR结果执行有效动作时，指令所述ASR引擎处理第二音频。2.如权利要求1所述的计算设备，其中确定所述启用语音的应用是否能够使用所述第一ASR结果来执行有效动作至少部分地基于使用所述第一ASR结果生成的自然语言理解(NLU)结果。3.如权利要求2所述的计算设备，其中所述处理器还被编程为将NLU结果提交给所述启用语音的应用，并且其中确定所述启用语音的应用是否能够使用所述第一ASR结果来执行有效动作包括响应于将所述NLU结果提交给所述启用语音的应用，从所述启用语音的应用接收不能执行有效动作的指示。4.如权利要求1所述的计算设备，其中所述输入接口还被配置为接收第二音频，其中所述第二音频包括在检测到所述第一音频中的语音结束之后记录的音频，并且其中所述ASR引擎还被配置为处理所述第二音频。5.如权利要求4所述的计算设备，其中处理所述第二音频包括：确定所述第二音频是否包括语音；以及响应于确定所述第二音频包括语音，至少部分地基于所述第二音频的至少一部分来生成第二ASR结果。6.如权利要求5所述的计算设备，其中生成第二ASR结果包括至少部分地基于所述第一音频的至少一部分和所述第二音频的至少一部分来生成所述第二ASR结果。7.如权利要求5所述的计算设备，其中所述至少一个处理器还被编程为：确定所述启用语音的应用是否能够使用至少部分地基于所述第一ASR结果的至少一部分和所述第二ASR结果的至少一部分生成的自然语言理解(NLU)结果来执行有效动作；以及响应于确定能够使用所述NLU结果来执行有效动作，指令所述启用语音的应用执行所述有效动作。8.如权利要求5所述的计算设备，还包括：至少一个存储设备，被配置为存储一个或多个前缀，每个所述前缀与对应的用于终点判定的阈值时间相关联；以及其中确定所述启用语音的应用是否能够执行有效动作包括确定所述第一音频中的语音是否包括存储在所述至少一个存储设备上的所述一个或多个前缀中的前缀。9.如权利要求8所述的计算设备，其中所述ASR引擎还被配置为：在检测到所述第一音频中的语音的结束之前处理所述第一音频的多个时间片段，并且其中确定所述第一音频中的语音是否包括存储在所述至少一个存储设备上的前缀包括将基于处理后的多个时间片段确定的所述ASR引擎的输出与存储在所述至少一个存储设备上的所述一个或多个前缀进行比较。10.如权利要求8所述的计算设备，其中所述至少一个处理器还被编程为：响应于确定所述第一音频中的语音包括存储在所述至少一个存储设备上的前缀，更新由所述ASR引擎用于终点判定的阈值时间，其中更新所述阈值时间包括指令所述ASR引擎使用在第一音频中的语音中识别出的与存储在所述至少一个存储设备上的所述前缀相关联的用于终点判定的阈值时间来检测所述第一音频中的语音的结束。11.如权利要求1所述的计算设备，其中所述至少一个处理器还被编程为：至少部分地基于所述第一ASR结果来创建第一提示，其中所述第一提示向用户提示与能够由所述启用语音的应用执行的有效动作对应的语音输入；以及经由所述计算设备的用户界面呈现所述第一提示。12.如权利要求11所述的计算设备，其中所述输入接口还被配...

【专利技术属性】
技术研发人员：M·凡提，
申请(专利权)人：纽昂斯通讯公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人