一种带调三音子模型及训练方法技术

技术编号:3047250 阅读:229 留言:0更新日期:2012-04-11 18:40
一种带调三音子模型及训练方法提出了一种新的包含声调信息的声学模型及其相应的训练方法,该方法的最基本特征是不对声调进行直接的分类和建模,而是把本体及其左右声调当作一种上下文语境因素进行考虑,根据语境对包含有声调信息的声学特征的影响程度来确认是否需要对模型进行细分类,从而真正根据连续语音中的区分信息对声调和声韵母等上下文语境进行建模。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术提出了一种新的包含有声调信息的声学模型及训练方法,以解决有调语言连续语音识别中声韵母、声调及其变体的统一建模问题,属于自动语音识别领域。为了在语音识别中充分应用声调特征,必须解决声调模式的声学建模问题,目前比较典型的可以归纳为以下二大类方法1)声调识别与音节识别独立进行该方案对声调特征(例如基频特征)和其他声学特征(如倒谱和能量特征)分别建模,训练出独立的两套声学模型,即声调模型和无调的声学模型;在语音识别时,分别用声调模型和无调的声学模型分别对输入语音进行解码。2)声调相关声学模型这个方法特点是把声调特征作为整个特征空间的一部分进行处理,和倒谱及能量特征一起构成多维的特征矢量,训练一套声调相关的声学模型。在大多数的实现方案中,最典型的是在基本单元的选择时就把声调信息含在模型中,例如把韵母按照5个声调分成5个模型(例如a模型可以分为a1,a2,a3,a4,a5);在解码阶段,直接用有调的声学模型解码,产生输出句子。对于方法1)由于声调是单独建模和解码的,在一定程度上削弱了声调信息对识别的贡献以及对搜索空间的约束作用。另外,一般地可以认为目前的倒谱系数只同通道特性有关,而与激励关系不大,所以韵母的建模往往忽略声调的影响,但从倒谱的角度看,它只是对实际语音生成模型的一种近似,它不可能非常准确地反映通道特性,反映的也不可能仅仅就是通道特性。所以机械地把二者分离开来不是一种理想的模式。方法2)比较明显地克服了第一种方法的缺点,能有效地发挥声调在汉语语音识别中的作用。但由于基本模型数大大增加(韵母基本模型数扩充了5倍,一般是把37个无调的韵母模型扩展成185个有调的韵母模型)使得对训练数据的要求增加;另外一个缺陷在于连续语音中某些条件下并不需要区分某些声调,如在某些语境中的上声和阳平,在基本模型中强硬地把它们加以区分,就无法反映这种在连续语音中普遍存在的现象。实际上这种方法是对声调进行了硬判决。本专利技术的目的在于专利技术的基本特征在于不对声调进行直接的分类和建模,而是把本体声调和上下文声调当作与其它上下文信息一样的语境因素,根据声调以及其它语境对特征的影响程度来确认是否需要对当前模型进行细分类,从而真正根据区分信息对声韵母、声调以及上下文变化进行建模。本专利技术的技术要点在于不把声调当作一个独立因素,而是当作语境中的一个因素体现对特征的影响,其地位与作用就象要对左边、右边的声韵母对本体的影响一样。在已经掌握的语音学和语言学知识的基础上,把有关声调变化的知识,都以模式分类指导的体系形式在问题库中表示出来。在语音识别中广泛采用的决策树工具进行模型分类阶段,利用这些已知的知识指导分类;同时,它又是数据驱动的,声调模式之间的区分是由数据决定的。如果在训练语音数据库中,某些声调模式在决策树中是不可分的,则就不把它们分开。因此,分类的结果在一定程度上反映了在连续语音中实际声调模式的变化和区分情况。在此情况下,相对于硬判决建模,该思路是一种软判决建模方法。本方法同上面所述的方法1)有着本质的不同;同方法2)相比,有如下不同点1)基本模型层次上不区分声调;2)模式分类体系中把本体声调左、右边声调作为语境因素之一。说明本方法的框图如图1所示,其主要有6个步骤组成,具体说明如下1.特征提取不同声调在声学上最明显的表现在于它们的基频不同,因此在语音识别中常常从语音中直接提取基频作为声调的特征。对于单音节结构的汉语来讲,每个音节都是由声母和韵母组成,声调信息是附加在韵母上的,而声母则不载有声调信息,所以在声调特征提取时,直接从韵母中提取基频作为声调特征。而对于声母段,则采用平滑算法把它和相邻的韵母段连接起来。上面所述的基频特征加上12阶Mel倒谱、归一化能量构成共14维作为基本特征,加上其一阶差分及二阶差分共42维作为最后特征,基本方法同一般语音识别,其流程如图2所示。2.无调单音子模型在汉语连续语音识别中,一般选择声母和韵母作为基本的建模单元,每个建模单元都用连续密度的隐马尔可夫模型(HMM)来表示。在本专利技术中,基本建模单元有22个声母HMM模型、37个韵母HMM模型和1个静音HMM模型,声韵母清单见图5。每个HMM的状态由混合高斯函数来表示,共训练60个无调的单音子模型。从上面描述可以看到本专利技术同方法2)不一样在于在基本模型是声调无关的,该类模型称为无调单音子模型,其训练方法同一般的语音识别过程。3.声调有关模式分类指导体系基本模式分类体系是根据汉语的发音方式和发音部位来分类并进行相应的组合,例如有关爆破音本身,进一步分解出两个问题即是否是送气爆破音还是不送气爆破音?又如对韵头音,根据发音方式和发音部位又进一步组合成撮口呼、开口呼和闭口呼等。声韵母的基本分类可参考图6和图7。除了上述基本分类模式中同左右声韵母有关的分类指导问题外,模式分类指导体系中加入了左右韵母声调和本体有关的声调类型问题,并根据语音学的知识进行了相应的组合。假设有音节串如下图..................Ci-1Vi-1Ti-1CiViTi…Ci+1Vi+1Ti+1...............在上式中,Vi作为本体,在常规的声学模型建模中Vi仅受Ci以及Ci+1的影响;Ti受Ti-1以及Ti+1的影响,二者是独立进行的;而在本专利技术中,Vi同时受Ci,Ci+1,Ti,Ti-1,Ti+1五个因素的影响。声调的组合非常之多,参考了有关声调相互作用的一些文献后,本专利技术概括基本要点如下1)阴平基本不受前后音节的影响;2)去声主要受音节的位置影响;3)阳平和上声比较复杂,受前影响,上声和去声可以归一类,阴平和阳平可以归成一类可以;4)阳平和上声比较复杂,受右影响,阴平和去声可以归为一类,阳平和上声可以归为一类。为了更好的描述声调在连续语音中的相互影响,除了汉语本身所有的5种声调外,又特别设计了一种声调来表示不对其它声调产生影响,叫无声调。这样,韵母本身有5种声调类型,而左边或右边则可能有6种声调类型;对于声母或静音模型对应的语音段来说,则不必标记其本身、左边或右边的声调;如果相邻音节之间有静音段并且静音段的长度超过预设的值,则认为左右边音节的声调不对本体音节的声调产生影响,即标记本体左、右边音节韵母段语境声调为无调;一句话的第一个韵母左边语境声调和最后一个韵母右边的语境声调标记为无调。对声调设计了共计30多个问题,部分同声调有关的分类指导体系问题示意如下QT1自身为阴平或轻声?QT2自身为阳平?QT3自身为上身?QT4自身为去声?QT5左边是阴平或轻声?QT6左边是阳平?QT7左边是上声?QT8左边是去声?QT9左边是上声或去声?QT10左边是阴平或阳平?QT11右边是阴平或轻声?QT12右边是阳平?QT13右边是上声?QT14右边是去声?QT15右边是阴平或去声?QT16右边是阳平或上声?QT17本身韵母是轻声和1声?QT18左边韵母是轻声和1声?QT19左边韵母是无声?QT20右边韵母是轻声和2和3声?QT21右边韵母是无声?4.训练数据的切割和标记用单音子模型切割训练数据库采用了通用的Viterbi算法,即把所有语音帧对应到相应的HMM状态中去。这里切分数据的主要目的是需要对每一帧的语音数据进行标记,标记每一帧语音的属性;假设有训练语音其拼本文档来自技高网...

【技术保护点】
一种带调三音子模型及训练方法提出了一种新的包含声调信息的声学模型及其训练方法,其基本特征在于首先利用无调单音子模型对训练语音数据进行切分并根据声调有关模式分类指导体系进行标记,然后利用决策树和分类标记,聚类产生有调类三音子模型;其具体步骤如下: 1) 语音特征提取,计算12阶Mel倒谱特征,计算短时能量及基频共14维作为基本特征,加上其一阶差分及二阶差分,最后特征维数为42,过程同一般语音识别; 2) 建立无调单音子模型,选择声母和韵母等作为基本的建模单元,每个建模单元用一个隐马尔可夫模型(HMM)来表示,每个HMM的状态由混合高斯函数来表示;训练若干个同声调无关的单音子模型; 3) 建立声调有关模式分类指导体系,基本模式分类体系是根据汉语的发音方式和发音部位来分类并进行相应的组合;除了基本模式分类指导体系外,加入左右韵母声调分类类型和本体的声调分类类型,根据语音学的知识进行相应的组合; 4) 训练数据的切割和标记,采用通用的Viterbi算法和单音子模型切割训练数据库,即把所有语音帧对应到相应的HMM状态中去;切分数据的主要目的是需要对每一帧的语音数据进行标记,标记每一帧语音的属性; 5) HMM状态的决策和聚类,每个模型的每个状态都对应一个决策树,决策树的根节点对应着该模型的指定状态所拥有的所有标记过的训练矢量样本;从根节点开始进行节点的分裂,对于非叶结点,计算该节点按照模式分类指导体系中某个问题分裂为两个节点时所产生的似然度的增量,按照产生似然度增量最大的分类把该节点分裂为两个子节点,处理所有的节点,直到决策树生成,即所有的节点都变成叶结点; 6) 带调三音子模型的生成:5)中决策树是对每个基本模型的单个状态输出分布进行的,如果有两个三音子模型的所有分布皆位于决策树的同一个叶节点,则认为这两个模型是相同的,可以合并这两个三音子模型; 7) 用三音子模型重新切分训练数据并标记,然后回到步骤第5)步。...

【技术特征摘要】
1.一种带调三音子模型及训练方法提出了一种新的包含声调信息的声学模型及其训练方法,其基本特征在于首先利用无调单音子模型对训练语音数据进行切分并根据声调有关模式分类指导体系进行标记,然后利用决策树和分类标记,聚类产生有调类三音子模型;其具体步骤如下1)语音特征提取,计算12阶Mel倒谱特征,计算短时能量及基频共14维作为基本特征,加上其一阶差分及二阶差分,最后特征维数为42,过程同一般语音识别;2)建立无调单音子模型,选择声母和韵母等作为基本的建模单元,每个建模单元用一个隐马尔可夫模型(HMM)来表示,每个HMM的状态由混合高斯函数来表示;训练若干个同声调无关的单音子模型;3)建立声调有关模式分类指导体系,基本模式分类体系是根据汉语的发音方式和发音部位来分类并进行相应的组合;除了基本模式分类指导体系外,加入左右韵母声调分类类型和本体的声调分类类型,根据语音学的知识进行相应的组合;4)训练数据的切割和标记,采用通用的Viterbi算法和单音子模型切割训练数据库,即把所有语音帧对应到相应的HMM状态中去;切分数据的主要目的是需要对每一帧的语音数据进行标记,标记每一帧语音的属性;5)HMM状态的决策和聚类,每个模型的每个状态都对应一个决策树,决策树的根节点对应着该模型的指定状态所拥有的所有标记过的训练矢量样本;从根节点开始进行节点的分裂,对于非叶结点,计算该节点按照模式分类指导体系中某个问题分裂为两个节点时所产生的似然度的增量,按照产生似然度增量最大的分类把该节点分裂为两个子节点,处理所有的节点,直到决策树生成,即所有的节点都变成叶结点;6)带调三音子模型的生成5)中决策树是对每个基本模型的单个状态输出分布进行的,如果有两个三音子模型的所有分布皆位于决策树的同一个叶节点,则认为这两个模型是相同的,可以合并这两个三音子模型;7)用三音子模型重新切分训练数据并标记,然后回到步骤第5)步。2.根据权利要求1所述的一种带调三音子模型及训练算法,其特征在于不对声调进行直接的分类和建模,而是根据语境对包含有声调信息的声学特征的影响程度,把声调当作一个语境因素,结合语境建模的决策树技术隐式地对声调进行必要的分类,从而真正根据区分信息对声调进行建模,在音节串......Ci-1Vi-1Ti-1CiViTi...Ci+1Vi+1Ti+1......中,若Vi作为本体,Vi则同时受Ci,Ci+1,Ti,Ti-1,Ti+1五个因素的影响,即语境包括左、右声韵母、本体声调以及左、右韵母的声调等。3.根据权利要求1、2所述的一种带调三音子模型及训练方法,其特征在于其具体实现采用基于决策树的模型分类体系;在决策树的模式分类指导体系中,除了包含一般汉语语音识别用的语音学模式分类外,同时包...

【专利技术属性】
技术研发人员:徐波高升黄泰翼
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1