具有巨大词汇量的语音识别系统技术方案

技术编号:6545913 阅读:248 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及语音识别,例如用于识别连续语音中的单词的系统。所公开的语音识别系统能够识别大量的单词,在原理上甚至能够识别无限量的单词。所述语音识别系统包括单词识别器,其通过单词图导出最佳路径,其中,基于最佳路径把单词分配给语音。单词分值是通过将音素语言模型应用于单词图的每个单词而获得的。此外,本发明专利技术涉及根据声音块识别单词的装置和方法,还涉及用于实现所述方法的计算机可读代码。

【技术实现步骤摘要】

本专利技术涉及根据声音块识别单词的语音识别系统,尤其涉及连续语音识别器。此外,本专利技术还涉及根据声音块识别单词的装置和方法,以及实现所述方法的计算机可读代码。
技术介绍
在语音识别系统中,输入声音块是由计算机系统将声音块的口头内容的声音特征转换成所识别出的单词来处理的。语音识别是一项复杂的工作,涉及许多步骤。第一步骤通常包括某种声学特征的提取,其中,根据声学资源从声音块中提取表示单词或单词部分的声音特征。随后对声音特征进行评分,声学分值描述了特定单词或单词部分在声音块中的给定位置产生某一特征的概率。图形匹配技术用于根据声音特征的序列确定单词或单词部分的可能序列。以图形结构将单词或单词部分和所分配的分值进行排序,在下一步骤中, 通过此图导出最可能的单词序列。将最可能的单词序列记为识别出的单词。美国专利6,542, 866 Bl公开了针对一段输入信号生成多个特征向量的方法和装置。解码器生成路径分值,此路径分值指明了此段输入信号表示某一单词的概率。路径分值是通过选择用于每一段的最佳特征向量而生成的。路径分值基于该段的不同特征向量。现有技术的系统被视为仅能够识别有限量单词的大词汇量连续语音识别器 (LVCSR)。除了上述声学处理和图形匹配之外,这样的系统基于用户词典(ULX)和标准单词语言模型(LM)。ULX根据单词部分的序列(音素)识别系统知道的单词。单词LM用于对单词的序列进行评分,由此对高于声学水平的语言水平实现建模。对于每个已知单词而言, 标准单词LM基于单词历史统计量,单词历史共由η个单词组成。这样的LM在大规模词库上进行训练,从而观测到足够大量的单词历史,从而获得重要的统计量。通常,对于具有约 64000个建模单词的三元文法LM(η = 3)而言,所需要的词库具有百万量级的单词规模。因此,通过最新水平的LVCSR来提高可识别单词的数量的主要困难是,需要收集足够大的词库。虽然用户词典和计算机能力在稳步提高,从而可以处理更多的单词,但是,可以识别出的单词量仍然有限。本专利技术的专利技术人已经认识到,能够识别原理上无限量单词的改进的语音识别系统是大有裨益的,因此设计出了本专利技术。优选情况下,本专利技术单独或以组合方式减少、削减或消除了现有技术的一个或多个以上或其它缺点。
技术实现思路
根据本专利技术的一方面,提供了一种语音识别系统,其根据声音块识别单词,所述语音识别系统包括-单词识别器,其通过单词图导出最佳路径,其中,每个单词都分配了一个单词分值和一个音标,并且,基于最佳路径把单词分配给声音块,其中,单词图中的每个单词的单词分值包括通过将音素语言模型(LM)应用于单词图的每个单词而获得的单词分值。语音识别系统通常是计算机化的系统,其中,把语音作为声音块输入,例如,由用户通过麦克风作为语音直接输入,由计算机系统作为语音文件输入,由能够输出语音的模拟设备作为声音块输入,等等。语音识别系统可以用作连续语音的在线或离线识别器,以及用作“指令&控制命令”识别器。在这种情况下,(文法)句法信息可以取代音素LM,或与音素LM组合起来使用。语音识别系统可以例如用作用户和计算机系统之间的接口系统。语音识别系统可以产生单词图,其中,给每个单词都分配了一个单词分值和一个音标,或者,这种单词图可由另一源端产生或提供,并可由单词识别器使用。单词图使得每个单词的单词分值包括通过将音素语言模型(LM)应用于单词图的每个单词而获得的单词分值。可以把单词分值取为声学音素分值和音素LM分值之和。通常,分值是所发现的概率的负对数。本专利技术的优点是有很多原因的。由于单词图基于音标和音素LM,所以不再需要单词LM,并且,可识别单词量不受限于识别系统的单词LM中的单词量。可识别单词量只受限于在容许单词词典中储存的单词量,从而,可以获得巨大量甚至无限量的单词。巨大量的单词可以得到处理,因为音素语言模型把音素用作基本单元。因此,系统只需要在音素级而非单词级上进行语言建模。巨大词汇量处理的一个有益结果是,仅有极少量的词汇表外单词 (OOV),甚至几乎没有,因此不需要专门处理这些情况和由OOV单词引起的主要错误。此外, 与传统的单词LM相比,使用音素LM模型能更加高效地处理未见过的单词,因为音素LM知道未见过的单词的概率,其通过回退(backing-off)而非使用传统的单词LM所用的恒定惩罚因数(penalty)。此外,由于单词图基于把音素语言模型应用于单词图的每个单词,故而不需要LM自适应,即使可以进行LM自适应,也可以扩展语音识别系统,使其包括任何音素 LM自适应技术。这可以用于例如单词序列在形态上不正确的自由风格文本。此外,因为语音识别基于音素LM,所以,系统可以设置用来处理自由风格语言、非预期的单词序列或者甚至随机的单词序列,其优于传统的基于单词的统计LM。传统的识别系统在这种情况下将执行得很差,而本专利技术的识别系统的执行情况则是可以接受的。根据本专利技术的系统的一个优选实施例在从属权利要求2中进行了限定,其中,语音识别系统基于包括多于200. 000个单词的允许单词词典,例如多于一百万个单词,例如多于十亿个单词,或者更多个单词,例如实际上无限量的单词。除了单词的字形表示和音标之外,词典的每个单词项还可以包括单词的词干。允许单词词典还被称为大量单词词典 (HwLex)。由于巨大数量的单词可由系统处理,所以不需要HwLex自适应,但是,可以进行 HwLex自适应,其中,添加新的单词并生成相应的数据。可以在无任何音素LM自适应的情况下使HwLex达到适应。根据本专利技术的系统的优选实施例在从属权利要求3和4中进行了限定,其中,语音识别系统还包括音素识别器,其从声音块中提取音素图,音素图用于给每个边界分配一个音素,其中,单词图中的单词的音标基于音素图,并且其中,给每个音素分配一个声学音素分值。音素识别器可以通过应用诸如Mel频率倒谱系数(MFCC)、线性预测编码(LPC)、相对谱系数(RASTA)、感知线性预测(PLP)等任何标准声学特征提取技术而自动处理声音块。声学建模可以基于任何基于音素的声学建模,例如隐性马尔可夫模型(HMM)、带有(任何)状态模型的音素模型(拉普拉斯或高斯分布的混合)。音素识别核心可以是任何基于图形匹配的核心。根据本专利技术的系统的一个优选实施例在从属权利要求5中进行了限定,其中,语音识别系统还包括单词音素图生成器,其把音素图转换成单词音素图,单词音素图用于给每个边界分配一个单词和相关的音标。根据音素图提供单词音素图是有益的,因为这样在单词音素图和相应音素之间建立起了直接关联,从而可将音素序列解码成单词序列。根据本专利技术的系统的一个优选实施例在从属权利要求6中进行了限定,其中,确定音素序列假设,并将其添加到音素图中,其中,单词音素图基于扩展的音素图。音素序列假设由音素序列假设生成器添加到音素图中。用音素序列假设扩展音素图是有益的,因为这样音素序列假设可以至少在一定程度上补偿音素识别器的声学误差(如果出现这些误差的话)。此外,由于假设产生,所以,还可以至少在一定程度上识别出不清楚的语音。根据本专利技术的系统的一个优选实施例在从属权利要求7中进行了限定,其中,通过应用允许单词词典(HwLex),对扩展音素图进行滤波,从而把包括不在词典中存在的单词的扩展音素本文档来自技高网
...

【技术保护点】
1.一种语音识别系统,其根据声音块(40)识别单词,所述语音识别系统包括:单词识别器(49),其通过单词图(46)导出最佳路径(47),其中,给每个单词都分配了一个单词分值和一个音标,单词是基于所述最佳路径分配给所述声音块的,其中,所述单词图中的每个单词的单词分值包括通过将音素语言模型(36)应用于所述单词图的每个单词而获得的单词分值。

【技术特征摘要】
2005.12.08 EP 05111839.61.一种语音识别系统,其根据声音块GO)识别单词,所述语音识别系统包括单词识别器(49),其通过单词图06)导出最佳路径(47),其中,给每个单词都分配了一个单词分值和一个音标,单词是基于所述最佳路径分配给所述声音块的,其中,所述单词图中的每个单词的单词分值包括通过将音素语言模型(36)应用于所述单词图的每个单词而获得的单词分值。2.根据权利要求1所述的语音识别系统,所述语音识别系统基于包括多于200.000个单词的允许单词词典(12)。3.根据权利要求1所述的语音识别系统,还包括音素识别器(41),其从所述声音块00)中提取音素图02,61),所述音素图用于给每个边界分配一个音素,其中,所述单词图中的单词的音标基于所述音素图。4.根据权利要求3所述的语音识别系统,其中,给每个音素分配一个声学音素分值。5.根据权利要求3所述的语音识别系统,还包括单词音素图生成器(43),其用于把所述音素图(42,61)转换成单词音素图(44),所述单词音素图用于给每个边界分配一个单词和相关的音标。6.根据权利要求5所述的语音识别系统,其中,确定音素序列假设(60),并将其添加到所述音素图中,从而提供扩展音素图02,61),其中,所述单词音素图04)基于所述扩展音素图。7.根据权利要求5所述的语音识别系统,其中,通过应用允许单词词典(12),对所述...

【专利技术属性】
技术研发人员:Z·萨费
申请(专利权)人:纽昂斯奥地利通讯有限公司
类型:发明
国别省市:AT

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1