用于中等或大词汇量语音识别的上下文相关声模型制造技术

技术编号:3047412 阅读:316 留言:0更新日期:2012-04-11 18:40
在训练时使用降低维数本征语音分析技术来为异音素构造上下文相关声模型。在运行时,对于新说话者的语音还使用本征语音技术。该技术去掉各个说话者特异性以产生用途广并且是健壮的异音异模型。在一实施例中,使用本征语音技术来标识每个说话者的质心,然后从识别等式中将其减去。在另一实施例中,使用最大似然估计技术来构造通用决策树框架,在构造说话者空间的本征语音表示时可以在所有的说话者之间共享该框架。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
小词汇量语音识别系统将需要识别的小词汇量中的词作为其基本单元。例如,用于识别英文字母的系统通常有26个模型,每个字母一个模型。该方法对于中等和大词汇量语音识别系统来说是不切合实际的。这些大的系统通常将语言的音素或音节作为其基本单元。如果一系统对于语言的每一音素都有一模型(例如隐藏马尔科夫模型),则将该系统称作带有“与上下文无关”的声模型的系统。如果一系统对于一给定的音素,依据周围音素的识别来使用不同的模型,则将该系统称为应用“上下文相关”声模型。异音素(allophone)是由其上下文定义的音素的专门版本。例如,在“t”之前发音“ae”的所有情况(例如在“bat”,“fat”等中)定义了异音素“ae”。对于大多数语言,音素的发声对其前后音素的依赖性很大例如,前边带有“y”的“eh”(例如在“yes”中)完全不同于前边带有“s”的“eh”(例如“set”)。于是,对于一个中等或较大词汇量的系统,上下文相关声模型的性能要优于上下文无关模型。今天,大多数实际应用的中等或较大词汇识别系统都采用上下文相关声模型。当今许多上下文相关识别系统应用决策树聚类来定义上下文相关的、与说话者无关的声模型。树增长算法寻找关于感兴趣的音素周围的音素的问题并从声音上将感兴趣的音素的不相似样例分开。结果产生一个“是-否”问题的决策树,用于选择能够最佳识别给定的异音素的声模型。通常,“是-否”问题与异音素如何出现在上下文中(例如谁是它的相邻音素)相关。传统的决策树对于每个音素定义了包含根节点和中间节点(例如根节点的子、孙节点)中的是/否问题的二叉树。端节点,或叶子节点包括为音素的特定异音素设计的声模型。于是,在使用时,识别系统遍历该树,根据考虑的音素的上下文分枝“是”或“否”,直到标识出包含可应用模型的叶节点。于是标识出的模型用于识别。不幸的是,传统的异音素模型可能出错。我们认为这是因为当前的方法没有考虑每个训练说话者的特定特异性。当前的方法假设如果使用大的训练讲话者库,可以平均掉各个说话者的特异性。然而,在实际中,我们发现这种假设并不是总成立。传统的基于决策树的异音素模型在新的说话者的语音刚好与该组训练的说话者的语音相似时能工作得很好。然后,在新的说话者的语音在该组训练的说话者语音域外,则传统的技术则失败。本专利技术通过降低说话者空间维数估计技术来解决前述问题,该技术能够快速地标识各个说话者的特异性的从识别等式中除去该特异性来产生可应用于各种情况并且具有健壮性的异音素模型。该降低说话者空间维数估计技术可以在降低了维数的空间(我们称为本征语音空间或本征空间)中应用。本征语音技术的一个重要优点就是速度。当新的说话者使用识别器时,他或她的语音被迅速地放入或投影到从训练的一组说话者中得出的本征空间中。甚至能够使用新的说话者的非常快速的发音就将该新的说话者放入本征空间中。在本征空间中,异音素可以通过诸如在说话者空间中说话者的位置等非相干因素的最小影响来表示。通过以下参照附图的说明可以更完整地理解本专利技术,和其目的以及优点。在以下说明中,给出两个基本实施例。对于本领域技术人员来说可以作各种修改和变型。附图说明图1是用于描述在理解一组说话者的质心和相关的异音素向量对于不同的说话者是不同时使用的说话者空间的示意图;图2是一称为本征质心加δ树实施例的第一优选实施例的方框图;图3是利用由图2所示的实施例得出的δ决策树的语音识别器的一个实施例;图4是利用由图2所示的实施例得出的δ决策树的语音识别器的另一实施例;图5说明如何使用由图2所示的实施例产生的说话者调节数据来构造δ树;图6示出在相应于图5的δ树的声空间中对说话者调节数据分组的过程;图7示出包括关于本征空间维数问题的示例的δ决策树;以及图8示出了本专利技术的第二实施例,用于对于每个说话者存在一个较完整数据的情况。本专利技术的技术可应用于各种不同的语音识别问题。该项技术最适合应用于中等或大的词汇量方面的应用,其中不易由其自己的模型来表示每个完全词。在此描述本专利技术的两个实施例。可以理解本专利技术的原理可以扩展到其它实施例。该第一实施例对于每个训练说话者已经提供了中等数量的训练数据(例如,每个说话者的训练数据为20-30分钟)的情况下是优化的。对于这样大小的训练数据量,预期将有足够的语言声样例用于为每个说话者构造合理的较佳上下文无关、说话者有关模型。如果希望,可以使用说话者自适应技术产生足够的数据以训练上下文无关模型。尽管不必具有每个说话者的全部异音素的样例全集,但数据在某方面应反映数据中每个音素的最重要异音素(即,已由至少一小部分说话者发声了几次的异音素)。该实施例的识别系统基于异音素的上下文(例如基于其相邻音素)应用决策树来为每个异音素标识合适的模型。然而,与基于决策树的传统建模系统不同,该实施例在构造决策树时使用说话者调节的训练数据。事实上,说话者调节过程去掉每个训练说话者的语音的特异性以产生较佳的异音素模型。然后,在使用识别系统时,对新的说话者的语音进行类似的调整,从而可以访问说话者调节异音素模型以进行高质量、上下文有关的识别。本实施例的识别系统的一个重要组成部分是本征语音技术,通过使用该技术可以快速地分析训练说话者的语音以及新的说话者的语音,以提取各个说话者的特异性。以下详细讨论的本征语音技术定义了减少了维数的本征空间,该本征空间集合地表示了训练说话者组。当在识别过程中一个新的说话者讲话时,快速地将他或她的语音放入或投影到本征空间以快速地确定该说话者的语音质心如何落入与训练说话者相关的说话者空间。如以下详细解释的,通过平均每个说话者如何发音该系统的音素来定义新的说话者的质心(以及每个训练说话者的质心)。为了方便,人们可以将质心向量考虑成由给定说话者上下文无关模型中每个音素HMM的每个状态中的并置高斯均值向量构成。然而,“质心”概念是一标量并且与对每个训练说话者可得到多少数据有关。例如,如果存在足够训练数据来为每个说话者训练较富足的说话者相关模型(例如双音素(diphone)模型),则每个训练说话者的质心是来自该说话者相关双音素模型的并置高斯均值。当然,也可以实现诸如三音素模型等其他模型。图1通过图示六个不同的训练说话者A-F在不同的上下文中可能怎样对音素“ae”发声来描述质心概念。图1示出说话者空间,为了方便将其图示为二维空间,其中每个说话者的质心位于该二维空间中用于该说话者的异音素向量的中心。于是,在图1中,说话者A的质心位于从说话者A发音的下列词“mass”、“lack”以及“had”导出的各个异音素向量的起点。于是说话者A的质心包括粗略表示该说话者“平均”音素“ae”的信息。通过比较,说话者B的质心在说话者空间中位于说话者A的右边。通过下述发音“laugh”、“rap”以及“bag”产生说话者B的质心。如图所示,其他说话者C-F位于说话者空间的其他区域中。请注意,每个说话者具有表示为始发于质心的向量(图1中表示的三个异音素向量)的一组异音素。如图所示,这些向量定义了同经常粗略比较的不同说话者之间的角关系。将说话者A的角10和说话者B的角12进行比较。然而,因为各个说话者的质心与其他说话者不同心,从而产生的说话者A和B的异音素不同。本专利技术通过去除由不同质心位置表征的说话者相关特异性来处理该问本文档来自技高网...

【技术保护点】
一种为自动语音识别建立上下文相关模型的方法,包括:产生本征空间表示训练说话者组;为至少一个训练说话者提供一组声数据,在所述本征空间中表示所述声数据以便为所述训练说话者确定至少一个异音素质心;从所述声数据中减去所述质心以便为所述训 练说话者产生说话者调节的声数据;使用所述说话者调节的声数据为不同的异音素增长其叶节点包含上下文相关模型的至少一决策树。

【技术特征摘要】
US 1999-11-29 09/450,3921.一种为自动语音识别建立上下文相关模型的方法,包括产生本征空间表示训练说话者组;为至少一个训练说话者提供一组声数据,在所述本征空间中表示所述声数据以便为所述训练说话者确定至少一个异音素质心;从所述声数据中减去所述质心以便为所述训练说话者产生说话者调节的声数据;使用所述说话者调节的声数据为不同的异音素增长其叶节点包含上下文相关模型的至少一决策树。2.权利要求1的方法,进一步包括使用多个训练说话者的一组声数据,为所述多个训练说话者的每一个产生所述说话者调节声数据。3.权利要求1的方法,其中通过根据来自所述训练说话者组的语音构造超向量并对所述超向量进行维数降低以定义覆盖所述训练说话者组的降低维数空间来产生所述本征空间。4.一种使用权利要求1的上下文相关模型来进行语音识别的方法,包括提供来自新的说话者的语音;使用所述本征空间确定新的说话者的至少一个新说话者质心并从所述说话者的所述语音数据中减去所述说话者质心以产生说话者调节数据;以及对于采用所述上下文相关模型的语音识别器应用所述说话者调节数据。5.一种使用权利要求1的上下文相关模型进行语音识别的方法,包括提供来自新的说话者的语音;使用所述本征空间确定新的说话者的至少一个新说话者质心并将所述新说话者质心加到所述上下文相关模型中去以产生新的说话者调节上下文相...

【专利技术属性】
技术研发人员:罗兰奎恩马托坎特里尼让克劳德詹卡
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1