使用多个识别器减少延时的语音识别系统技术方案

技术编号:17960655 阅读:87 留言:0更新日期:2018-05-16 05:48
公开了一种用于在包括电子设备和远离电子设备定位的网络设备的客户端/服务器语音识别系统中的电子设备上提供视觉反馈的方法和设备。该方法包括由电子设备的嵌入式语音识别器处理包括语音的输入音频的至少一部分以产生本地识别语音,向网络设备发送输入音频的至少一部分以进行远程语音识别;以及在从网络设备接收流传输识别结果之前基于本地识别语音的至少一部分在电子设备的用户界面上显示视觉反馈。

Speech recognition system using multiple recognizers to reduce delay

A method and device for providing visual feedback on an electronic device in a client / server voice recognition system, including electronic devices and network devices located far away from electronic equipment, is disclosed. The method includes processing at least part of the input audio of the voice by the embedded speech recognizer of the electronic device to produce local recognition speech, sending at least part of the input audio to the network device for remote speech recognition, and based on the local recognition before receiving the transmission recognition results from the network device. At least part of the voice shows visual feedback on the user interface of the electronic device.

【技术实现步骤摘要】
【国外来华专利技术】使用多个识别器减少延时的语音识别系统
技术介绍
诸如智能电话、平板电脑和电视之类的一些电子设备包括语音识别能力或被配置为利用该语音识别能力,其使用户能够经由语音输入来访问设备的功能。包括由电子设备接收的语音的输入音频由自动语音识别(ASR)系统处理,该ASR系统将输入音频转换为识别文本。识别文本可以由例如自然语言理解(NLU)引擎来解释,以执行控制设备的一些方面的一个或多个动作。例如,NLU结果可以被提供给在设备上执行的虚拟代理或虚拟助手应用,以帮助用户执行诸如在网络(例如,互联网)上搜索内容和通过解释NLU结果与其它应用接口之类的功能。语音输入也可以用于与设备上的其它应用(诸如基于口述和文本的消息应用)接口。当使用电子设备时,将语音控制作为单独的输入接口添加给用户提供了更灵活的通信选项,并减少了对诸如迷你键盘和触摸屏之类的、在特定情况下使用可能更麻烦的其它输入设备的依赖。
技术实现思路
一些实施例针对一种用在客户端/服务器语音识别系统中的电子设备,所述客户端/服务器语音识别系统包括电子设备和远离电子设备定位的网络设备。所述电子设备包括输入接口,被配置为接收包括语音的输入音频;嵌入式语音识别器,被配置为处理输入音频的至少一部分以产生本地识别语音;网络接口,被配置为向网络设备发送输入音频的至少一部分以进行远程语音识别;以及用户界面,被配置为在从网络设备接收流传输识别结果之前,基于本地识别语音的至少一部分显示视觉反馈。其它实施例针对一种在客户端/服务器语音识别系统中的电子设备上提供视觉反馈的方法,所述客户端/服务器语音识别系统包括电子设备和远离电子设备定位的网络设备。所述方法包括:由电子设备的嵌入式语音识别器处理包括语音的输入音频的至少一部分以产生本地识别语音;向网络设备发送输入音频的至少一部分以进行远程语音识别;以及在从网络设备接收流传输识别结果之前,基于本地识别语音的至少一部分在电子设备的用户界面上显示视觉反馈。其它实施例针对一种用多条指令编码的非瞬态计算机可读介质,当所述多条指令被在包括电子设备和远离电子设备定位的网络设备的客户端/服务器语音识别系统中的电子设备的至少一个计算机处理器执行时,执行一种方法。所述方法包括:由电子设备的嵌入式语音识别器处理包括语音的输入音频的至少一部分以产生本地识别语音;向网络设备发送输入音频的至少一部分以进行远程语音识别;以及在从网络设备接收流传输识别结果之前,基于本地识别语音的至少一部分在电子设备的用户界面上显示视觉反馈。应当认识到的是,下面更详细讨论的前述概念和附加概念的所有组合(如果这些概念不是相互不一致的话)被认为是本文公开的专利技术主题的一部分。附图说明附图不旨在按比例绘制。在附图中,在各个图中图示的每个相同或几乎相同的部件由相似的标号表示。为了清楚起见,不是每个部件都可能在每个附图中被标注。在附图中:图1是根据本专利技术一些实施例的客户端/服务器体系架构的框图;以及图2是根据一些实施例的用于在电子设备上提供用于语音识别的视觉反馈的处理的流程图。具体实施方式当启用语音的电子设备接收到包括来自用户的语音的输入音频时,常常使用ASR引擎来处理输入音频,以确定用户说了什么。一些电子设备可以包括在设备上本地执行语音识别的嵌入式ASR引擎。由于一些电子设备的限制(例如,有限的处理能力和/或存储器存储),用户话语(utterance)的ASR常常远离设备被执行(例如,由一个或多个网络连接的服务器)。由一个或多个网络连接的服务器进行的语音识别处理常常俗称为“云ASR”。常常与服务器ASR实现相关联的更大的存储器和/或处理资源可以通过提供可以被识别的词的更大词典和/或通过使用比在本地设备上可实现的更复杂的语音识别模型和更深的搜索来促进语音识别。混合ASR系统包括由电子设备的嵌入式或“客户端”ASR引擎以及执行云ASR处理的一个或多个远程或“服务器”ASR引擎两者进行的语音识别处理。混合ASR系统试图利用本地和远程ASR处理的各自优势。例如,因为不会招致由于基于服务器的ASR实现所引入的网络和处理延迟,所以从客户端ASR处理输出的ASR结果迅速地在电子设备上可用。相反,从服务器ASR处理输出的ASR结果的准确度一般可以高于从客户端ASR处理输出的ASR结果的准确度,这是例如由于更大的词汇表、更大的计算能力和/或复杂的语言模型常常可用于服务器ASR引擎,如上面所讨论的。在某些情况下,服务器ASR的益处可以被以下事实抵消:音频和ASR结果必须被发送(例如,通过网络),这会造成设备处的语音识别延迟和/或降级音频信号的质量。与单独使用嵌入式或服务器ASR系统相比,这种混合语音识别系统可以以更及时的方式提供准确的结果。电子设备上的一些应用响应于接收到输入音频而在电子设备的用户界面上提供视觉反馈,以通知用户输入音频的语音识别处理正在发生。例如,随着输入音频被识别,可以在用户界面上显示包括由ASR引擎接收和处理的输入音频的ASR结果的流传输输出(streamingoutput)。视觉反馈可以作为与由ASR引擎识别的最佳部分假设(hypothesis)对应的“流传输输出”被提供。专利技术人已经认识到并理解的是,向启用语音的电子设备的用户呈现视觉反馈的定时影响用户一般如何感知设备的语音识别能力的质量。例如,如果从用户开始讲话开始直到用户界面上出现视觉反馈的最初一个或多个词为止存在明显延迟,那么用户可以认为系统不工作或没有响应、他们的设备不处于监听模式、他们的设备或网络连接缓慢,或其任何组合。呈现视觉反馈的时间的可变性也可能降低用户体验。在向客户端设备提供语音识别结果时必然引起延迟的基于服务器的ASR实现中提供具有低延时和非可变延时的视觉反馈是特别有挑战性的。因此,基于从服务器ASR引擎接收并在客户端设备上作为视觉反馈提供的语音识别结果的流传输输出也被延迟。服务器ASR实现通常会引入几种类型的延迟,其导致在语音识别期间向客户端设备提供流传输输出时的整体延迟。例如,当客户端设备首先向服务器ASR引擎发出执行语音识别的请求时,初始延迟可以发生。除了建立网络连接所花费的时间之外,还会由于服务器活动(诸如为客户端设备的用户选择和加载特定于用户的简档以在语音识别中使用)而导致其它延迟。当使用具有流传输输出的服务器ASR实现时,初始延迟可以表现为在客户端设备上呈现视觉反馈的最初一个或多个词的延迟。如上面所讨论的,在不提供视觉反馈的延迟期间,用户可以认为设备没有正常工作或者网络连接缓慢,由此有损于用户体验。如下面进一步详细讨论的,一些实施例针对混合ASR系统(在本文中也被称为“客户端/服务器ASR系统”),其中来自客户端识别器的初始ASR结果被用于在从服务器识别器接收ASR结果之前提供视觉反馈。以这种方式向用户呈现视觉反馈时减少延时可以改进用户体验,这是因为用户可以在提供语音输入之后几乎即时感知到处理发生,即使在存在通过使用基于服务器的ASR而引入的一些延迟时也如此。在与服务器ASR引擎建立网络连接之后,也可以发生由于客户端设备与服务器ASR之间的信息传送引起的附加延迟。如下面进一步详细讨论的,根据一些实施例,可以至少部分地使用从客户端ASR提供语音识别结果开始直到服务器ASR向客户端设备返回结果为止的时滞的测量,以确本文档来自技高网...
使用多个识别器减少延时的语音识别系统

【技术保护点】
一种用在客户端/服务器语音识别系统中的电子设备,所述客户端/服务器语音识别系统包括电子设备和远离电子设备定位的网络设备,所述电子设备包括:输入接口,被配置为接收包括语音的输入音频;嵌入式语音识别器,被配置为处理输入音频的至少一部分以产生本地识别语音;网络接口,被配置为向网络设备发送输入音频的至少一部分以进行远程语音识别;以及用户界面,被配置为在从网络设备接收流传输识别结果之前,基于本地识别语音的至少一部分显示视觉反馈。

【技术特征摘要】
【国外来华专利技术】1.一种用在客户端/服务器语音识别系统中的电子设备,所述客户端/服务器语音识别系统包括电子设备和远离电子设备定位的网络设备,所述电子设备包括:输入接口,被配置为接收包括语音的输入音频;嵌入式语音识别器,被配置为处理输入音频的至少一部分以产生本地识别语音;网络接口,被配置为向网络设备发送输入音频的至少一部分以进行远程语音识别;以及用户界面,被配置为在从网络设备接收流传输识别结果之前,基于本地识别语音的至少一部分显示视觉反馈。2.如权利要求1所述的电子设备,其中网络接口还被配置为从网络设备接收流传输识别结果,并且其中电子设备还包括:至少一个处理器,被编程为响应于从网络设备接收到流传输识别结果而更新在用户界面上显示的视觉反馈。3.如权利要求2所述的电子设备,其中更新在用户界面上显示的视觉反馈包括:确定从网络设备接收的流传输识别结果是否落后于本地识别语音;以及当确定从网络设备接收的流传输识别结果落后于本地识别语音时,继续基于本地识别语音的至少一部分显示视觉反馈。4.如权利要求2所述的电子设备,其中更新在用户界面上显示的视觉反馈包括:基于从网络设备接收的流传输识别结果更新视觉反馈以显示视觉反馈。5.如权利要求4所述的电子设备,其中嵌入式语音识别器还被配置为响应于从网络设备接收到流传输识别结果而停止处理输入音频。6.如权利要求2所述的电子设备,其中更新在用户界面上显示的视觉反馈包括:确定从网络设备接收的流传输识别结果是否匹配本地识别语音的至少一部分;以及当确定从网络设备接收的流传输识别结果与本地识别语音的至少一部分不匹配时,基于从网络设备接收的流传输识别结果来更新视觉反馈以显示视觉反馈。7.如权利要求6所述的电子设备,其中基于从网络设备接收的流传输识别结果来更新视觉反馈以显示视觉反馈包括:用包括在从网络设备接收的流传输识别结果中的至少一个第二词替换基于本地识别语音被显示为视觉反馈的至少一个第一词。8.一种在客户端/服务器语音识别系统中的电子设备上提供视觉反馈的方法,所述客户端/服务器语音识别系统包括电子设备和远离电子设备定位的网络设备,所述方法包括:由电子设备的嵌入式语音识别器处理包括语音的输入音频的至少一部分以产生本地识别语音;向网络设备发送输入音频的至少一部分以进行远程语音识别;以及在从网络设备接收流传输识别结果之前,基于本地识别语音的至少一部分在电子设备的用户界面上显示视觉反馈。9.如权利要求8所述的方法,还包括:从网络设备接收流传输识别结果;以及响应于从网络设备接收到流传输识别结果而更新在用户界面上显示的视觉反馈。10.如权利要求9所述的方法,其中更新在用户界面上显示的视觉反馈包括:确定从网络设备接收的流传输识别结果是否落后于本地识别语音;以及当确定从网络设备接收的流传输识...

【专利技术属性】
技术研发人员:D·维利特C·格兰C·B·奎林S·哈恩F·斯蒂莫
申请(专利权)人:纽昂斯通讯公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1