利用快速语音识别搜索过程的采样音频内容的处理制造技术

技术编号:5502091 阅读:214 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供(101)了采样音频内容的多个帧,并且然后使用语音识别搜索过程来处理(102)所述多个帧,所述语音识别搜索过程至少部分地包括确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。这些教导也将很容易提供确定是否在逐帧基础上搜索包含在每个帧中的每个单词边界。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及一种语音识别过程,并且更具体地涉及语音识别搜索过程。
技术介绍
语音识别包括努力的已知领域。某些语音识别过程利用语音识别搜索处理诸如但不限于所谓的基于隐马尔可夫模型的语音识别过程。这通常包括统计模型的使用,该统计模型输出符号或数量的序列,其中语音实质上被视为关于统称为状态的随机过程的马尔可夫模型。示例性隐马尔可夫模型可能输出,例如,39-维实值向量的序列,大约每IO毫秒输出这些向量中的一个。这样的向量可能包括,例如,通过采取采样语音的短时窗的傅立叶变换和使用余弦变换对频谱进行解相关而获得的倒谱系数,然后为这些目的而取第一 (最重要的)系数。对于每个状态,隐马尔可夫模型方法倾向于具有被称为对角线或充分协方差高斯混合的统计分布,该统计分布将表征每个被观察的向量的相应似然性。在许多现有技术方法中,常规的语音识别搜索需要在单词、子词和上述的状态之间的边界应当在一定规则基础上(通常采样音频内容的每一帧)被搜索。尽管实际上是最佳和最有力的方法,但是这种逐帧方法来搜索单词、子词和状态边界也需要相当大的计算资源。这只需要增加所支持词汇的深度和丰富度。结果,使用语音识别搜索过程的语音识别过程可能需要庞大的计算资源。例如,考虑其中每个帧仅表示大约IO毫秒的音频内容的应用装置。对于支持识别例如50,000单词的语音识别过程,然后必须针对每个这样的帧搜索并比较与这50,000单词的每个相对应的识别数据。单独这个就需要相当大的计算量。这些需求只有当考虑这样的过程也需要针对带有每个这样的帧的子词进行相应的搜索时才渐渐变得更严重。结果,这样的方法,虽然常常成功的执行最佳的语音识别,但是也常常计算上太过于贫乏而不能在这样的计算开销完全不可用的应用装置中工作好。例如,诸如蜂窝电话等的小型便携式无线通信设备代表这样的应用装置。可用的计算能力以及相应的功率容量限制都可能严重限制这样的方法的实际使用。附图说明特别当结合附图研究时,通过提供涉及使用下面详述中描述的语音识别搜索过程的采样音频内容处理的方法和装置至少部分地满足了以上需要,在附图中-图1包括如依照本专利技术的各种实施例配置的流程图;图2包括如依照本专利技术的各种实施例配置的流程图;图3包括如依照本专利技术的各种实施例配置的示意状态表示图;以及图4包括如依照本专利技术的各种实施例配置的框图。本领域的技术人员将理解,图中的元素出于简单和清楚的目的而被图示并且不一定按比例绘制。例如,图中一些元素的尺寸和/或相对位置相对于其它要素可能被放大以帮助提髙对本专利技术的各种实施例的理解。而且,为了使本专利技术的这些不同实施例便于更顺利地査看,常常并不图示在商业上可行的实施例中有用或必需的常见但公知的元素。将进一步理解,某些动作和/或步骤可以以发生的特定顺序来描述或图示,而本领域的技术人员将理解关于序列这样的特异性实际上并不是必需的。还将理解,除了在这里另外阐述特定含义之外,在这里使用的术语和表达具有与这样的术语和表达关于它们查询和研究的相应的各自领域相一致的通常含义。具体实施例方式一般说来,按照这些不同实施例, 一个实施例提供了采样音频内容的多个帧,并且然后使用语音识别搜索过程来处理所述多个帧,语音识别搜索过程包括至少部分地确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。这与现有实践对比鲜明,当然,因为现有技术通常需要系统地搜索针对子词边界的每个帧,而没有考虑实际上是否应当进行这样的搜索。这些教导还将容易地提供(accommodate)确定是否在逐帧基础上搜索包含在每个帧中的每个单词边界。这些教导很容易结合针对每个这样的帧的子词隐马尔可夫模型状态信息的使用来应用。通过一个方法,该过程可以包括在逐帧基础上提供针对潜在的子词隐马尔可夫模型的每个状态的似然值并且选择这些值中的最大值。接着,可以作为带有结果值的预定波束宽度值的函数来处理该最大值,然后,将结果值和与该潜在的子词隐马尔可夫模型的退出状态相对应的似然值相比较。接下来我们可以至少部分地作为该比较结果的函数来确定是否搜索包含在特定帧里的每个子词边界(或,如果需要,每个单词边界)。如此配置,当使用这样的语音识别搜索过程而同时避免大量的计算行为时,这些教导如我们通常所期待地允许相对精确和高质量的语音识别处理。特别地,在很多情况下按照以上教导处理的给定帧看起来将不太可能事实上包含所感兴趣的边界,在这种情况下,这样的帧在这点上可以简单跳过。也就是说,语音识别搜索过程可以简单跳过这样的帧并且不搜索如包含在该帧中的每个子词边界(和/或单词边界)。这进而允许仅仅具有适度的容量和/或能力的给定处理平台仍常常成功地执行具有成功结果的语音识别搜索过程。在对下面的详细描述进行透彻回顾和研究之后,这些和其它益处可以变得更清楚。现在参考附图,并且特别参考图1,与这些教导相一致的示例性方法100首先提供101采样音频内容的多个帧,并且然后提供用于使用语音识别搜索过程处理102那些帧,该语音识别搜索过程至少部分地包括确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。有各种已知的过程,通过这些过程可以捕获和提供这样的帧,并且在这点上其他过程在未来有可能被开发。因为这些教导在这点上对于任何特定方法的选择不是过度敏感,为简洁和保持叙述重点起见,将不提供关于这样的帧的提供的进一步细节,在这里保存以注意这样的帧通常只对应于相对短的时间段,诸如但不限于IO毫秒。上面提到的语音识别搜索过程可以包括诸如可以适合于满足给定的应用装置的需要的过程。为了提供说明性示例并且通过限制的方式的目的,这里将假定该语音识别搜索过程包括基于隐马尔可夫模型的语音识别过程。因此,所描述的确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界的步骤将包括至少部分地作为每个帧的隐马尔可夫模型状态信息的函数来确定是否在逐帧基础上搜索每个子词边界。这样的隐马尔可夫模型状态信息可以包括,例如,每个帧的潜在的隐马尔可夫模型的多个状态中的每个状态的似然信息。这里存在可以满足这样的步骤的各种方法。如在这点上只是一个说明性示例而不是通过限制的方式,图2表示过程200,过程200提供用于提供201潜在隐马尔科夫模型的多个状态中的每个状态的似然值,并且然后选择202状态似然值的最大值以提供合成的选择的似然值。然后,作为预定波束宽度值的函数来处理203该选择的似然值(例如,通过从所选择的似然值减去预定波束宽度值)以提供己处理的似然值,然后将己处理的似然值和与该潜在隐马尔可夫模型的特定状态(诸如退出状态)相对应的似然值相比较204,从而提供合成比较结果。然后,过程200提供用于至少部分地作为该比较结果的函数来确定205是否搜索包含在该帧中的每个子词边界。现在参考图3,现在将提供一些具体的说明性示例。在该示例中,如对应于采样音频内容的给定的这样的帧,在时间T有三个可能的状态300。这三个可能的状态这里被表示为开始状态C 301、退出状态A303和中间状态B 302。每个这样的状态300具有相应的似然值(例如,状态A 303具有似然值X,而状态C301具有似然值Z)。存在各种已知方法来确定这样的似然值;因此,在这点上在这里将不提供另外的细节。为了这些示例的目的,将假定预定的波束宽度3。如可能表征给定应用装置,当然可以采用其它本文档来自技高网...

【技术保护点】
一种方法,包括: 提供采样音频内容的多个帧; 使用语音识别搜索过程来处理所述多个帧,所述语音识别搜索过程至少部分地包括确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:程燕鸣
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1