语言模型得分前瞻值赋值设备、语言模型得分前瞻值赋值方法和程序存储介质技术

技术编号:4948443 阅读:332 留言:0更新日期:2012-04-11 18:40
一种通过使用语言模型得分前瞻值来执行帧同步集束搜索的话音识别装置防止了正确答案假设的删减,同时抑制假设数目的增长。一种语言模型得分前瞻值赋值设备108被设置有定义词语音素串的词语词典203、赋值词语的出现容易度得分的语言模型202、以及平滑化语言模型得分前瞻值计算装置201。平滑化语言模型得分前瞻值计算装置201从由词语词典203定义的词语的音素串以及由语言模型202定义的语言模型得分获得词语中每个音素处的语言模型得分前瞻值,使得防止语言模型得分前瞻值集中在词语的开头。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及通过使用语言模型得分前瞻值来执行帧同步集束搜索的话音识别装 置,以及适用于该话音识别装置的语言模型得分前瞻值赋值设备。
技术介绍
诸如大词汇量连续话音识别装置的高性能话音识别装置将从声学模型的知识、 词语词典和语言模型所预测的各种假设(识别候选)和未知输入话音之间的声学相似度 和语言相似度计算为声学模型得分和语言模型得分,并且输出最可能的假设作为识别结 果。此外,为了限制装置中保持的假设的数目以消除计算量和存储器容量,每次都对声 学模型得分和语言模型得分进行综合评估。然后,得分低的假设由于较小的概率而被删 减(pruned),由此防止随后的假设被采用。该方法被称为帧同步集束搜索方法(下文中 简单称为集束搜索方法)。图6中示出了话音识别装置的一个示例。在图6中,作为话音识别目标的话音 波形被输入到话音输入装置301,并且被传送到声学分析装置302。声学分析装置302以 帧为单位计算声学特征量,并且将该声学特征量输出到距离计算装置303。距离计算装 置303计算输入声学特征量和声学模型304中的每个模型之间的距离,并且根据该距离将 声学模型得分输出到搜索装置305。搜索装置305通过将声学模型得分和由语言模型402 从语言模型得分前瞻值赋值设备308获得的语言模型得分相加获得要搜索的所有假设的 累计得分,并且删减累计得分低的假设。对其余假设进行处理,并且从识别结果输出装 置309输出最优识别结果。图7示出了词语词典403的一部分的一个示例。该示例中的词语词典403是树 形结构词典。此外,在图7中,对语言模型402所给出的每个词语中的语言模型得分进 行相加。例如,词语“握手”(日语发音“akusyu”)具有音素串“a-k-u-sy-u”, 并且其语言模型得分为80。此外,词语“红色”(日语发音“akai”)具有音素串“a-k-a-i”,并且其语言模型得分为50。在该示例中,较小的语言模型得分表示高得 分。当使用这样的树形结构词典时,树形结构的根部被连接到词语间迁移中先前的 假设。然而,由于这时无法指定连接的词语,所以语言模型得分无法被添加到累计得 分。如果语言模型得分在假设到达任何的词语末端时第一次被添加到累计得分,则得分 会由于词语间迁移的假设而大幅变化。因此,需要使得集束宽度很大以即使在正确答案 假设的得分大幅变化时也防止进行删减,这抑制了有效的集束搜索。为了尽可能早地添加语言模型得分,语言模型得分前瞻值赋值设备308包括最 优语言模型得分获得装置401,其获得与树形结构词典的每个分支相对应的词语的语言模 型得分的最优值作为该分支中的最优语言模型得分。更具体地,最优语言将模型得分获得装置401获得属于词语集合W(S)的词语w中的语言模型得分的最优值-log丨p(W|h)!,如表达式(1)所示,对于具有词语历史h的音素s的假设的语言模型得分前瞻值Jih(S),其能够使用词语词典403和语言模型402在词 典中从音素s进行追溯。当假设迁移到搜索装置305进行的搜索过程中的音素s时,如表 达式(2)所示的先前音素S 的语言模型得分前瞻值和当前音素S的语言模型得分前瞻值 之间的差值Sh(S)被添加到该假设的累计得分。Jih(S) = min w e W(s) {-Iogp(w|h)} ...(1)Sh(s) = 3ih(s)-3ih(s ) ...(2)图8中示出了通过以上操作所给出的语言模型得分前瞻值的示例。末端音素右 侧的值表示每个词语的语言模型得分,并且每个分支中的值表示赋值给分支的语言模型 得分前瞻差值。在该示例中,当树形结构的根部被连接到先前的假设时,语言模型得分 50可以被添加到累计得分。因此,与其中语言模型得分在假设到达词语末端时第一次被 添加到累计得分的情况相比,能够执行有效的集束搜索。在非专利文献1中公开了以上的最优语言模型得分获得装置401。非专利文献1 公开了一元语言模型得分的前瞻和二元语言模型得分的前瞻两种方法。一元语言模型得 分的前瞻使用一元语言模型得分作为语言模型得分前瞻差值。在该方法中,当假设到达 树形结构词典的词语末端并且定义了该词语时,丢弃已经使用的一元语言模型得分,并 且添加定义的二元语言模型得分。在假设到达词语末端时执行的该处理被称作词语末端 处理。另一方面,二元语言模型得分的前瞻使用前瞻步骤中的二元语言模型得分。除了 执行原始搜索的原始搜索装置306之外,图6所示的搜索装置305包括词语末端处理装置 307,并且与使用一元语言模型得分的前瞻方法的示例相对应。参考文献列表非专利文献1S.Ortmanns 等人的 “LANGUAGE-MODEL LOOK-AHEAD FORLARGE VOCABULARY SPEECH RECOGNITION” ICSLP 199
技术实现思路
技术问题在上述由最优语言模型得分获得装置401进行的语言模型得分的前瞻中,与树 形结构词典中的每个分支相对应的词语的语言模型得分的最优值被设置为该分支中的语 言模型得分。当与每个分支相对应的词语的所有语言模型得分低时,大多数低语言得分 在较早的点被添加到这些词语,并且即使在假设是正确的答案假设时,也可能被删减。 以下将描述特定的示例。图9示出了使用树形结构词典作为词语词典403的语言模型得分前瞻值和词语词 典的示例。在图9中,识别目标词语包括“点心”(日语发音“okasi”),并且除了"okasi"(意思为“点心”)之外没有词语以音素“O”和“k”的链(chain)开始。 在该情况下,最优语言模型得分获得装置401向指向“0”的分支赋值语言模型得分前瞻 值“50”。由于音素“k”和随后进行分支的音素中没有音素,所以对指向“k”的分 支赋值语言模型得分前瞻值“90”(差值为40)。通常,在话音识别中,在考虑到周围上 下文的情况下,三音素(三组音素)被用作识别单元。因此,关于“okasi”(意思为“点心”)的假设,在“o-k-a-s-i”(意思为“点心”)的音素串开头的音素“O”处 也考虑右侧的上下文“k”,并且添加所有低语言模型得分“90”。因此,通过检测音 素“k”和随后音素的一致性,即使在获得高的声学模型得分并且“okasi”(意思为 “点心”)为正确的答案假设时,在较早阶段添加大的语言模型得分前瞻值也会促进删 减,这导致了识别错误。此外,图10示出了使用树形结构词典作为词语词典403的语言模型得分 前瞻值和词语词典的示例。在图10中,识别目标词语包括“取消”(日语发音 "kyanseru")。虽然存在多个以音素“ky”和“a”的链开始的识别目标词语,但是每 个语言模型得分都像“100”那么低。在该情况下,最优语言模型得分获得装置401对指 向“ky”的分支赋值语言模型得分前瞻值“50”,并且对指向“a”的分支赋值语言模 型得分前瞻值“100”(差值为50)。以该方式,低的语言模型得分“100”在音素“ky” 处于词语开头时全部被添加到以音素“ky”和“a”的链开始的词语假设。因此,通过检 测音素“a”和随后音素的一致性,即使在获得高的声学模型得分并且“kyanseru”(意 思为“取消”)是正确的回答假设时,在较早阶段添加大的语言模型得分前瞻值也会促进 删减,这导致了识别错本文档来自技高网
...

【技术保护点】
一种语言模型得分前瞻值赋值设备,包括:  词语词典,所述词语词典定义词语的音素串;  语言模型,所述语言模型对词语的出现容易度得分赋值;以及  平滑化语言模型得分前瞻值计算装置,所述平滑化语言模型得分前瞻值计算装置从由所述词语词典定义的所述词语的音素串和由所述语言模型定义的所述得分获得所述词语中每个音素处的语言模型得分前瞻值,使得防止所述语言模型得分前瞻值集中在所述词语的开头。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:冈部浩司矶谷亮辅山端洁花沢健
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1