用于中等或大词汇量语音识别的上下文相关声模型制造技术

技术编号：3047412 阅读：316 留言：0更新日期：2012-04-11 18:40

在训练时使用降低维数本征语音分析技术来为异音素构造上下文相关声模型。在运行时，对于新说话者的语音还使用本征语音技术。该技术去掉各个说话者特异性以产生用途广并且是健壮的异音异模型。在一实施例中，使用本征语音技术来标识每个说话者的质心，然后从识别等式中将其减去。在另一实施例中，使用最大似然估计技术来构造通用决策树框架，在构造说话者空间的本征语音表示时可以在所有的说话者之间共享该框架。（*该技术在2020年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
小词汇量语音识别系统将需要识别的小词汇量中的词作为其基本单元。例如，用于识别英文字母的系统通常有26个模型，每个字母一个模型。该方法对于中等和大词汇量语音识别系统来说是不切合实际的。这些大的系统通常将语言的音素或音节作为其基本单元。如果一系统对于语言的每一音素都有一模型(例如隐藏马尔科夫模型)，则将该系统称作带有“与上下文无关”的声模型的系统。如果一系统对于一给定的音素，依据周围音素的识别来使用不同的模型，则将该系统称为应用“上下文相关”声模型。异音素(allophone)是由其上下文定义的音素的专门版本。例如，在“t”之前发音“ae”的所有情况(例如在“bat”，“fat”等中)定义了异音素“ae”。对于大多数语言，音素的发声对其前后音素的依赖性很大例如，前边带有“y”的“eh”(例如在“yes”中)完全不同于前边带有“s”的“eh”(例如“set”)。于是，对于一个中等或较大词汇量的系统，上下文相关声模型的性能要优于上下文无关模型。今天，大多数实际应用的中等或较大词汇识别系统都采用上下文相关声模型。当今许多上下文相关识别系统应用决策树聚类来定义上下文相关的、与说话者无关的声模型。树增长算法寻找关于感兴趣的音素周围的音素的问题并从声音上将感兴趣的音素的不相似样例分开。结果产生一个“是-否”问题的决策树，用于选择能够最佳识别给定的异音素的声模型。通常，“是-否”问题与异音素如何出现在上下文中(例如谁是它的相邻音素)相关。传统的决策树对于每个音素定义了包含根节点和中间节点(例如根节点的子、孙节点)中的是/否问题的二叉树。端节点，或叶子节点包括为音素的特定异音素...

【技术保护点】
一种为自动语音识别建立上下文相关模型的方法，包括：产生本征空间表示训练说话者组；为至少一个训练说话者提供一组声数据，在所述本征空间中表示所述声数据以便为所述训练说话者确定至少一个异音素质心；从所述声数据中减去所述质心以便为所述训练说话者产生说话者调节的声数据；使用所述说话者调节的声数据为不同的异音素增长其叶节点包含上下文相关模型的至少一决策树。

【技术特征摘要】
US 1999-11-29 09/450,3921．一种为自动语音识别建立上下文相关模型的方法，包括产生本征空间表示训练说话者组；为至少一个训练说话者提供一组声数据，在所述本征空间中表示所述声数据以便为所述训练说话者确定至少一个异音素质心；从所述声数据中减去所述质心以便为所述训练说话者产生说话者调节的声数据；使用所述说话者调节的声数据为不同的异音素增长其叶节点包含上下文相关模型的至少一决策树。2．权利要求1的方法，进一步包括使用多个训练说话者的一组声数据，为所述多个训练说话者的每一个产生所述说话者调节声数据。3．权利要求1的方法，其中通过根据来自所述训练说话者组的语音构造超向量并对所述超向量进行维数降低以定义覆盖所述训练说话者组的降低维数空间来产生所述本征空间。4．一种使用权利要求1的上下文相关模型来进行语音识别的方法，包括提供来自新的说话者的语音；使用所述本征空间确定新的说话者的至少一个新说话者质心并从所述说话者的所述语音数据中减去所述说话者质心以产生说话者调节数据；以及对于采用所述上下文相关模型的语音识别器应用所述说话者调节数据。5．一种使用权利要求1的上下文相关模型进行语音识别的方法，包括提供来自新的说话者的语音；使用所述本征空间确定新的说话者的至少一个新说话者质心并将所述新说话者质心加到所述上下文相关模型中去以产生新的说话者调节上下文相...

【专利技术属性】
技术研发人员：罗兰奎恩，马托坎特里尼，让克劳德詹卡，
申请(专利权)人：松下电器产业株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人