当前位置: 首页 > 专利查询>谷歌公司专利>正文

具有并行识别任务的语音识别制造技术

技术编号:7146772 阅读:275 留言:0更新日期:2012-04-11 18:40
除其他之外,本说明书的主题可以具体化为一种方法,其包括接收音频信号并且发起多个语音识别系统(SRS)的语音识别任务。每个SRS被配置为生成指定音频信号中包括的可能语音的识别结果和指示语音结果的正确性的置信度的置信度值。该方法还包括完成语音识别任务的一部分,包括生成一个或多个识别结果和关于一个或多个识别结果的一个或多个置信度值,确定一个或多个置信度值是否满足置信度阈值,中止未完成生成识别结果的SRS的剩余部分的语音识别任务,并且基于所生成的一个或多个语音结果中的至少一个输出最终识别结果。

【技术实现步骤摘要】
【国外来华专利技术】
本申请涉及语音识别。
技术介绍
许多应用受益于接收以语音命令或询问形式的输入。对于在诸如蜂窝电话的移动 设备上运行的应用特别如此,其中通过小键盘或者用户手指操纵的其他设备进行输入可能 因设备的减小的尺寸而是困难的。类似地,如果移动设备用于访问在另一设备(例如,电子 邮件服务器、地图/路线服务器或者电话簿服务器)上运行的应用,则向应用传送语音命令 而非通过小键盘等输入命令对于用户可能是更加容易的。为了使应用对口头输入起作用,语音识别器可以将口头输入转换为由应用使用的 符号表示。一些当前的语音识别器可以使用尝试识别口头输入中的可能语音的单个识别系 统。使用单个语音识别系统可能将语音识别的准确性限制于与单个语音识别系统相关联的 准确性。其他当前的语音识别器可以使用连续的语音识别,其中对口头输入执行两轮或更 多轮以确定口头输入最可能表示的语音。多轮的使用可能增加生成最终语音识别结果所需 要的时间。在其他当前的语音识别器中,多个语音识别系统均可以完全处理口头输入并且随 后输出结果。由于处理时间的长度由最慢的语音识别系统(和/或由执行语音识别算法的 最慢的计算机)确定,因此这种多个语音识别系统的使用也可能增加生成最终结果所需要 的时间。
技术实现思路
一般地,本文描述了并行使用多个语音识别系统(SRS)来识别语音,但是如果所 生成的识别结果满足所期望的阈值,则在完成之前中止(abort) —些SRS。例如,每个SRS 可能在执行语音识别任务时具有不同的延时和准确性。如果具有较低延时的SRS输出语音 识别结果和表述结果中的高置信度的置信度值,则可以中止剩余的SRS执行的语音识别任 务。如果置信度值相对于置信度阈值过低,则可以允许更多的SRS生成结果。如果这些结 果满足置信度阈值,则可以中止仍未完成语音识别任务的SRS,等等。在第一一般方面,描述了一种计算机实现的方法。该方法包括接收音频信号并且 发起多个语音识别系统(SRQ的语音识别任务。每个SRS被配置为生成指出音频信号中包 括的可能语音的识别结果和指示语音结果的正确性的置信度的置信度值。该方法还包括完 成一部分语音识别任务,包括生成一个或多个识别结果和关于一个或多个识别结果的一个 或多个置信度值,确定一个或多个置信度值是否满足置信度阈值,对于未生成识别结果的 SRS中止剩余部分的语音识别任务,并且基于所生成的一个或多个语音结果中的至少一个 输出最终识别结果。在第二一般方面,描述了一种系统,其包括多个语音识别系统,所述多个语音识别 系统发起用于识别编码在接收到的音频信号中的可能语音的语音识别任务。每个语音识别系统(SRS)被配置为生成识别结果和指示识别结果的正确性的置信度的置信度值。该系统 还包括识别管理模块,用于在SRS生成识别结果时接收识别结果并且接收与所生成的识别 结果相关联的置信度值。如果接收到的置信度值中的一个或多个满足置信度阈值,则识别 管理模块中止由未生成识别结果的SRS进行的未完成的语音识别任务。该系统包括接口, 用于传送基于所生成的识别结果的置信度值选择的最终识别结果。在第三一般方面,描述了一种系统,其包括多个语音识别系统,所述多个语音识别 系统发起对于接收的音频信号的语音识别任务,每个语音识别系统(SRQ被配置为生成识 别音频信号中的可能语音的识别结果和指示识别结果的正确性的置信度的置信度值。该系 统包括用于以下的装置在SRS生成一个或多个识别结果时,从每个SRS接收一个或多个识 别结果和一个或多个相应的置信度值,如果接收到的置信度值中的一个或多个满足置信度 阈值,则中止由未生成识别结果的SRS进行的未完成的语音识别任务,并且基于所生成的 识别结果的置信度值选择最终识别结果。该系统还包括用于传送表示音频信号中的可能语 音的最终识别结果的接口。这里描述的系统和技术可以提供以下优点中的一个或多个。首先,并行地使用多 个语音识别系统对音频解码的系统可以提供延时和准确性的改进的联合优化,因为如果接 收到令人满意的结果,则可以允许中止未完成的识别任务。此外,使用多个识别系统的系统 可以改进拒绝率(即,使拒绝率降低)。系统还可以通过比较多个识别系统输出的识别结果 来增加准确性。还可以提供用于缩放(例如,增加)用于提供增加的识别性能的计算资源 量的框架。在附图和下面的描述中阐述了一个或多个实施例的细节。根据描述和附图以及权 利要求,其他特征和优点将是显然的。附图说明图1是用于识别语音的示例系统的示图。图2是用于对嵌入在音频传送中的语音解码的示例系统的更详细的示图。图3是用于使用并行解码来识别语音的示例方法的流程图。图4A-C示出了图示示例语音识别任务的执行的示图。图5A-C是SRS生成的示例识别结果和置信度值以及选择最终识别结果的不同方 法的示图。图6是用于对在最终识别结果的选择中使用的值加权的置信度值的分布的示例 曲线图。图7A-E是示出SRS输出的示例识别结果集合和可用于对识别结果加权的集合之 间的相关性的Verm(维恩)示图。图8A和8B是图示在语音解码系统的运行操作期间SRS之间的交集如何调整或改 变的Venn示图。图9是图示在与识别结果相关联的SRS错误率和权重之间的示例相关性的曲线 图。图10是可用于实现本文中描述的系统和方法的计算设备的框图。 各附图中相同的附图标记指示相同的元素。具体实施例方式本文描述了用于使用多个语音识别系统(SRS)对话语解码的系统和技术。在一些 实现方式中,每个SRS具有不同的特性,诸如准确性、延时、词典等,从而多个SRS中的一些 SRS在其他SRS之前输出识别结果。如果输出的识别结果满足某些要求(例如,所生成的结 果中的一个或多个与满足或超过阈值置信度的指定置信度值相关联),则语音解码系统可 以在剩余的SRS完成它们的语音识别任务之前中止它们。图1是用于识别语音的示例系统100的示图。一般地,系统100包括处理从例如 蜂窝电话接收到的音频信号的多个SRS。在该示例中,用户呼叫具有语音功能的电话簿服 务,其将包含用户语音的音频信号转发到具有多个SRS的语音识别器。多个SRS可以并行处理音频信号,但是一些SRS可以在其他SRS之前生成识别结 果。如果生成识别结果的SRS表达这些结果中的足够高的置信度,则可以中止剩余的未完 成的语音识别任务并且可以基于当前生成的识别结果确定最终识别结果,而非等待所有 SRS完成它们的语音识别任务。示例系统100包括蜂窝电话102,其将以音频信号104的形式输入的语音传送到具 有语音功能的电话簿信息服务器106,其允许蜂窝电话用户口头请求电话簿信息并且以所 请求的信息作出响应。在图1的示例中,信息服务器106将音频信号104传送到用于对嵌入在音频信号 104中的语音解码的语音识别器108。在一些应用中,语音识别器108包括多个SRSA_E,其并 行操作以对音频信号104中的语音解码。语音识别系统(SRS)管理模块110监视任何SRS是否已生成识别结果并且收集与 这些结果相关联的置信度值。该监视在示图112中示出,其示出了 SRS的并行执行。示图 112示出了 SR、首先生成具有0. 3的置信度值的识别结果。接着,SRSe生成具有0. 6的置 信度值的识别结果。稍后,一!?^生成本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:接收音频信号;发起由多个语音识别系统SRS进行的语音识别任务,每个SRS被配置为生成指定所述音频信号中包括的可能语音的识别结果和指示所述识别结果的正确性的置信度的置信度值;完成所述语音识别任务的一部分,包括生成一个或多个识别结果和关于所述一个或多个识别结果的一个或多个置信度值;确定所述一个或多个置信度值是否满足置信度阈值;中止未完成的SRS的语音识别任务的剩余部分;以及基于所生成的一个或多个识别结果中的至少一个输出最终识别结果。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:布莱恩·斯特罗普
申请(专利权)人:谷歌公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1