用于识别语音的方法技术

技术编号:3047266 阅读:195 留言:0更新日期:2012-04-11 18:40
这里给出了一种用于识别语音的方法,其中识别过程以下述方式开始:采用开始声学模型(SAM)并且通过除去或消除对于描述说话行为和当前说话者质量无用的模型函数混合分量(MFM↓[jk]),当前声学模型(CAM)被修正。因此,通过适应当前说话者,声学模型(SAM,CAM)的尺寸被减少,因此使得执行速度加快,并提高识别效率。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及根据权利要求1的序言部分识别语音的方法,特别涉及,由此通过说话者自适应,用于声学模型的模型函数混合的数量被降低,更特别的是,涉及降低基于HMM的说话者自适应语音识别系统中的高斯混合数。
技术介绍
现在,用于自动语音识别的方法变的越来越重要。用于识别语音的传统方法中的特殊问题是不得不同时实现相反的目标。一方面,该方法和设备应该尽可能灵活以便处理大量的说话者行为,特别是有多种发音,口音,语调等等的发音行为。然而,另一方面,和设备应该很小以便很容易实现,以具有快速的性能和较高的识别效率,特别是具有低成本。现有技术中利用说话者自适应方法来变换所依据的声学模型以更好地适应声学属性以及当前或特定说话者的发音行为。每个声学模型的基础基本上是一组模型函数的混合。需要很多模型函数混合来覆盖大量的,变化的声学行为,特别是涉及音素,音位,子字单元,音节,字或其它的声学特性。在传统中,通过在识别过程中,特别基于至少一个已经获得的识别结果,至少部分改变模型函数混合的模型函数混合分量,当前声学模型被调整。这些传统的用于识别语音的说话者自适应方法的一个主要缺点是这些模型实际上采用了大量的模型函数混合和模型函数混合分量。因此,这些用于识别语音的普通方法必须执行等价的大量检查、比较和判断工作以便使得当前声学模型适合当前说话者,由于计算和检查的负担,用于识别语音的传统方法的实现必须基于具有高容量存储设备和快速计算单元的高性能计算机。本专利技术的一个目标是给出一种,该方法具有快速性能,并且计算负担降低而且具有较高的识别率。
技术实现思路
该目标是通过根据权利要求的一般性部分结合权利要求1特征部分的特征的语音识别方法实现的。用于识别语音的本专利技术方法的优选和有利实施方案是从属权利要求的主题。根据本专利技术的特征在于识别过程是从使用一个开始声学模型作为所述当前声学模型而开始的。此外,在给定的所执行识别步骤和/或所获得识别结果之后,基于所述当前声学模型可以产生一个修正后的声学模型,其方式是消除或除去涉及至少给定数量的已获得识别结果的具有可忽略效应的模型函数混合分量。此外,在每种情况下,利用所述修正后的声学模型作为所述当前声学模型的识别过程会继续-特别是到下一个识别步骤。因此,本专利技术的一个基本思想是利用大量的混合,采用一个开始声学模型来覆盖大量的、变化的说话者声学属性。通过从当前声学模型中除去或消除对描述或模拟当前说话者的说话或声学行为和/或特性不起作用或仅起很小作用的模型函数混合分量,模型函数组、特别是必须参考其作用来检查的模型函数混合以及其分量被减少。如果特定的模型函数混合分量基本上不对实现或描述识别结果起作用和/或不对获得特定识别结果起作用,它被跳过。因此,当前识别过程中的下述识别步骤在不用检查这些跳过的模型函数混合分量的情况下被实现,其中的分量被分类为在过去的识别过程中可忽略的。与用于识别语音的现有技术或传统方法相比,在识别过程刚开始时,本专利技术方法可以为给定当前说话者使用与传统方法相同的声学模型。但是随着识别结果增多,并且因此有更多的识别步骤,根据本专利技术,模型函数混合分量的数量被降低,因此,消除了为当前识别过程中下面识别步骤计算调整后的当前声学模型中的剩余模型函数混合分量的负担。其结果是,本专利技术方法可以执行的更快,同时需要更少的存储容量,特别是不需要降低识别率或效率。根据本专利技术的优选实施方案,在每个固定和/或预定的所执行识别步骤之后,和/或获得识别结果之后,特别是在每个单一识别步骤和/或结果之后,修正后的声学模型被重复产生。基于瞬时更新的当前声学模型,在其后执行当前声学模型自适应的步骤数可以被选择用于平衡期望的本专利技术方法的快速性能和所期望的高可靠识别。与预定和/或固定一些识别步骤/结果,并在其后执行自适应的做法不同的是,根据本专利技术的特定优选实施方案,识别步骤的数目或结果的数目可以被确定和/或在识别和/或自适应过程中改变。根据本专利技术方法的优选实施方案,一种声学模型被使用,特别是用作每种情况中的所述开始声学模型和/或所述当前声学模型-其中,模型函数混合至少包括分布函数或类似函数。特别的,高斯类型的函数为优选函数,因为它们适于模拟说话者的声学特性。在用于识别语音的本专利技术方法的另一个有利实施方案中,在每种情况中,模型函数混合基于一个函数矢量和/或加权因子矢量,每个矢量特别具有有限或相等数量的分量。这样做的特别优越之处是,每个函数矢量分量被分配一个特殊的加权因子矢量,当模拟当前说话者的声学特性时,该矢量描述其幅度或作用。对于不同的模型函数混合,可以选择独立数量的函数矢量或加权因子矢量分量。最好的是,对于所有模型函数混合,函数矢量和加权因子矢量,分量数相同。一个特殊的优点是,对于不同的模型函数混合是如何构造的给出了一个特殊的简单描述。最好的是,每种情况中的模型函数混合被表示为被其加权因子矢量分量加权的矢量函数分量的线性组合或重叠。特别是,模型函数混合可以由加权因子矢量和函数矢量的标量积或内积,特别是根据下面公式表示MFMj=Σk=1njaj,kfj,k=ajTfj=aj•fj]]>其中MFMj表示第j个模型函数混合,aj表示第j个加权因子矢量,aj,k是其第k个矢量,fj表示第j个函数矢量,fj,k是其第k个分量,ajT表示aj的转置,·表示矢量的标量积或内积。这种结构使得能够对涉及说话行为的模型函数混合很容易估计,计算和重构,并且很容易地在当前声学模型中估计其作用。用于识别的本专利技术方法的基础是为了描述当前说话者声学特性而定义模型函数混合分量和其作用。根据另一个优选实施方案,模型函数混合分量在下面情况下被划分为可忽略不计的其加权因子矢量分量的绝对值超过了给定阈值。该阈值定义了一个限制值,该限制值必须由模型函数混合分量的幅值即,适当的加权因子矢量分量来达到,使得不同的模型函数混合分量被认为对于当前说话者的声学特性的描述和模拟起作用。一般来说,仅有一次低于某个阈值并不足以将其分类为可忽略。因此,有利的是,当不同的加权因子矢量分量超过给定阈值给定次数时,将其作用划分为可忽略的,尤其是在识别结果和/或识别步骤分别已经获得或执行时会这样。这意味着在说话行为的评估和当前声学模型的自适应中,将会检测特定的加权因子矢量分量低于给定阈值的次数是否超过给定的次数。此外,有必要将低于给定阈值的情况与给定数量的其中模型函数混合分量对于当前说话者的说话行为的描述和模拟起作用的情况区分开。发生点或偶发时间可能不会导致划分成可忽略。在这些情况中,如果低于给定阈值的情况是相连或相关,就可能给出(其)可忽略的分类。在用于识别语音的本专利技术方法的另一个优选实施方案中,阈值被预定,特别是在识别过程开始之前和/或每个所述模型函数混合分量独立设立。该种手段使得在其自适应和评估过程中,可以对开始声学模型和其行为进行特殊设计。基于特殊的阈值组,一些模型函数混合分量或该模型函数混合可以用特殊的方法评估。在当前声学模型的自适应和评估过程中,有必要在识别过程中调整、确定和/或修正阈值而不是保持其固定。可以基于涉及流入语音流并特别涉及特定统计和/或噪声数据的信号质量信息来调整和修正阈值。本专利技术可以进一步总结如下传统上,说话者自适应方法变换语音识别器本文档来自技高网...

【技术保护点】
用于识别语音的方法,其中对于识别过程使用了基于一组模型函数混合(MFM1,…,MFMn)的当前声学模型(CAM),其中在识别过程中,所述当前声学模型(CAM)被调整,其方式是基于至少一个已经得到的识别结果,至少部分改变模型函数混合(MFMj)的模型函数混合分量(MFMjk)的作用,其特征在于:识别过程是从将起始声学模型(SAM)用作所述当前声学模型(CAM)开始的,在执行了给定数量的执行步骤和/或获得识别结果之后,基于所述当前声学模型(CAM)修正的声学模型(MAM)被产生,其方式是根据已经获得的至少给定数量的识别结果,消除具有可忽略作用的模型函数混合分量(MFMjk),在每种情况中,利用所述修正的声学模型(MAM)作为所述当前声学模型(CAM)使识别过程继续。

【技术特征摘要】
EP 2000-9-6 00119278.01.用于识别语音的方法,其中对于识别过程使用了基于一组模型函数混合(MFM1,…,MFMn)的当前声学模型(CAM),其中在识别过程中,所述当前声学模型(CAM)被调整,其方式是基于至少一个已经得到的识别结果,至少部分改变模型函数混合(MFMj)的模型函数混合分量(MFMjk)的作用,其特征在于识别过程是从将起始声学模型(SAM)用作所述当前声学模型(CAM)开始的,在执行了给定数量的执行步骤和/或获得识别结果之后,基于所述当前声学模型(CAM)修正的声学模型(MAM)被产生,其方式是根据已经获得的至少给定数量的识别结果,消除具有可忽略作用的模型函数混合分量(MFMjk),在每种情况中,利用所述修正的声学模型(MAM)作为所述当前声学模型(CAM)使识别过程继续。2.权利要求1的方法,其中在每个固定和/或预定数量的识别步骤执行之后和/或获得识别结果之后,特别是在执行单个识别步骤和/或获得单个识别结果之后重复产生修正后的声学模型(MAM)。3.根据任何一个前述权利要求的方法,其中其后产生修正声学模型(MAM)的识别步骤和/或识别结果的数目是在当前识别过程和/或自适应过程中确定和/或改变。4.根据任何一个前述权利要求的方法,其中,在每种情况下,声学模型被用作所述开始声学模型(SAM)和/或作为所述当前声学模型(CAM),至少包含特别是高斯型分布函数的模型函数混合(MFMj)作为所述模型函数混合分量(MFMjk)。5.根据前面任何一个权利要求的方法,其中每个所述模型函...

【专利技术属性】
技术研发人员:R坎佩S戈伦茨
申请(专利权)人:索尼国际欧洲股份有限公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1