具有巨大词汇量的语音识别系统技术方案

技术编号：6545913 阅读：248 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及语音识别，例如用于识别连续语音中的单词的系统。所公开的语音识别系统能够识别大量的单词，在原理上甚至能够识别无限量的单词。所述语音识别系统包括单词识别器，其通过单词图导出最佳路径，其中，基于最佳路径把单词分配给语音。单词分值是通过将音素语言模型应用于单词图的每个单词而获得的。此外，本发明专利技术涉及根据声音块识别单词的装置和方法，还涉及用于实现所述方法的计算机可读代码。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及根据声音块识别单词的语音识别系统，尤其涉及连续语音识别器。此外，本专利技术还涉及根据声音块识别单词的装置和方法，以及实现所述方法的计算机可读代码。
技术介绍
在语音识别系统中，输入声音块是由计算机系统将声音块的口头内容的声音特征转换成所识别出的单词来处理的。语音识别是一项复杂的工作，涉及许多步骤。第一步骤通常包括某种声学特征的提取，其中，根据声学资源从声音块中提取表示单词或单词部分的声音特征。随后对声音特征进行评分，声学分值描述了特定单词或单词部分在声音块中的给定位置产生某一特征的概率。图形匹配技术用于根据声音特征的序列确定单词或单词部分的可能序列。以图形结构将单词或单词部分和所分配的分值进行排序，在下一步骤中，通过此图导出最可能的单词序列。将最可能的单词序列记为识别出的单词。美国专利6，542, 866 Bl公开了针对一段输入信号生成多个特征向量的方法和装置。解码器生成路径分值，此路径分值指明了此段输入信号表示某一单词的概率。路径分值是通过选择用于每一段的最佳特征向量而生成的。路径分值基于该段的不同特征向量。现有技术的系统被视为仅能够识别有限量单词的大词汇量连续语音识别器 (LVCSR)。除了上述声学处理和图形匹配之外，这样的系统基于用户词典(ULX)和标准单词语言模型(LM)。ULX根据单词部分的序列(音素)识别系统知道的单词。单词LM用于对单词的序列进行评分，由此对高于声学水平的语言水平实现建模。对于每个已知单词而言，标准单词LM基于单词历史统计量，单词历史共由η个单词组成。这样的LM在大规模词库上进行训练，从而观测到足够大量的单...

【技术保护点】
１．一种语音识别系统，其根据声音块（４０）识别单词，所述语音识别系统包括：单词识别器（４９），其通过单词图（４６）导出最佳路径（４７），其中，给每个单词都分配了一个单词分值和一个音标，单词是基于所述最佳路径分配给所述声音块的，其中，所述单词图中的每个单词的单词分值包括通过将音素语言模型（３６）应用于所述单词图的每个单词而获得的单词分值。

【技术特征摘要】
2005.12.08 EP 05111839.61.一种语音识别系统，其根据声音块GO)识别单词，所述语音识别系统包括单词识别器(49)，其通过单词图06)导出最佳路径(47)，其中，给每个单词都分配了一个单词分值和一个音标，单词是基于所述最佳路径分配给所述声音块的，其中，所述单词图中的每个单词的单词分值包括通过将音素语言模型(36)应用于所述单词图的每个单词而获得的单词分值。2.根据权利要求1所述的语音识别系统，所述语音识别系统基于包括多于200.000个单词的允许单词词典(12)。3.根据权利要求1所述的语音识别系统，还包括音素识别器(41)，其从所述声音块00)中提取音素图02，61)，所述音素图用于给每个边界分配一个音素，其中，所述单词图中的单词的音标基于所述音素图。4.根据权利要求3所述的语音识别系统，其中，给每个音素分配一个声学音素分值。5.根据权利要求3所述的语音识别系统，还包括单词音素图生成器(43)，其用于把所述音素图(42，61)转换成单词音素图(44)，所述单词音素图用于给每个边界分配一个单词和相关的音标。6.根据权利要求5所述的语音识别系统，其中，确定音素序列假设(60)，并将其添加到所述音素图中，从而提供扩展音素图02，61)，其中，所述单词音素图04)基于所述扩展音素图。7.根据权利要求5所述的语音识别系统，其中，通过应用允许单词词典(12)，对所述...

【专利技术属性】
技术研发人员：Z·萨费，
申请(专利权)人：纽昂斯奥地利通讯有限公司，
类型：发明
国别省市：AT

全部详细技术资料下载我是这个专利的主人