【技术实现步骤摘要】
本专利技术提出了一种新的包含有声调信息的声学模型及训练方法,以解决有调语言连续语音识别中声韵母、声调及其变体的统一建模问题,属于自动语音识别领域。为了在语音识别中充分应用声调特征,必须解决声调模式的声学建模问题,目前比较典型的可以归纳为以下二大类方法1)声调识别与音节识别独立进行该方案对声调特征(例如基频特征)和其他声学特征(如倒谱和能量特征)分别建模,训练出独立的两套声学模型,即声调模型和无调的声学模型;在语音识别时,分别用声调模型和无调的声学模型分别对输入语音进行解码。2)声调相关声学模型这个方法特点是把声调特征作为整个特征空间的一部分进行处理,和倒谱及能量特征一起构成多维的特征矢量,训练一套声调相关的声学模型。在大多数的实现方案中,最典型的是在基本单元的选择时就把声调信息含在模型中,例如把韵母按照5个声调分成5个模型(例如a模型可以分为a1,a2,a3,a4,a5);在解码阶段,直接用有调的声学模型解码,产生输出句子。对于方法1)由于声调是单独建模和解码的,在一定程度上削弱了声调信息对识别的贡献以及对搜索空间的约束作用。另外,一般地可以认为目前的倒谱系数只同通道特性有关,而与激励关系不大,所以韵母的建模往往忽略声调的影响,但从倒谱的角度看,它只是对实际语音生成模型的一种近似,它不可能非常准确地反映通道特性,反映的也不可能仅仅就是通道特性。所以机械地把二者分离开来不是一种理想的模式。方法2)比较明显地克服了第一种方法的缺点,能有效地发挥声调在汉语语音识别中的作用。但由于基本模型数大大增加(韵母基本模型数扩充了5倍,一般是把37个无调的韵母模型扩展 ...
【技术保护点】
一种带调三音子模型及训练方法提出了一种新的包含声调信息的声学模型及其训练方法,其基本特征在于首先利用无调单音子模型对训练语音数据进行切分并根据声调有关模式分类指导体系进行标记,然后利用决策树和分类标记,聚类产生有调类三音子模型;其具体步骤如下: 1) 语音特征提取,计算12阶Mel倒谱特征,计算短时能量及基频共14维作为基本特征,加上其一阶差分及二阶差分,最后特征维数为42,过程同一般语音识别; 2) 建立无调单音子模型,选择声母和韵母等作为基本的建模单元,每个建模单元用一个隐马尔可夫模型(HMM)来表示,每个HMM的状态由混合高斯函数来表示;训练若干个同声调无关的单音子模型; 3) 建立声调有关模式分类指导体系,基本模式分类体系是根据汉语的发音方式和发音部位来分类并进行相应的组合;除了基本模式分类指导体系外,加入左右韵母声调分类类型和本体的声调分类类型,根据语音学的知识进行相应的组合; 4) 训练数据的切割和标记,采用通用的Viterbi算法和单音子模型切割训练数据库,即把所有语音帧对应到相应的HMM状态中去;切分数据的主要目的是需要对每一帧的语音数据 ...
【技术特征摘要】
1.一种带调三音子模型及训练方法提出了一种新的包含声调信息的声学模型及其训练方法,其基本特征在于首先利用无调单音子模型对训练语音数据进行切分并根据声调有关模式分类指导体系进行标记,然后利用决策树和分类标记,聚类产生有调类三音子模型;其具体步骤如下1)语音特征提取,计算12阶Mel倒谱特征,计算短时能量及基频共14维作为基本特征,加上其一阶差分及二阶差分,最后特征维数为42,过程同一般语音识别;2)建立无调单音子模型,选择声母和韵母等作为基本的建模单元,每个建模单元用一个隐马尔可夫模型(HMM)来表示,每个HMM的状态由混合高斯函数来表示;训练若干个同声调无关的单音子模型;3)建立声调有关模式分类指导体系,基本模式分类体系是根据汉语的发音方式和发音部位来分类并进行相应的组合;除了基本模式分类指导体系外,加入左右韵母声调分类类型和本体的声调分类类型,根据语音学的知识进行相应的组合;4)训练数据的切割和标记,采用通用的Viterbi算法和单音子模型切割训练数据库,即把所有语音帧对应到相应的HMM状态中去;切分数据的主要目的是需要对每一帧的语音数据进行标记,标记每一帧语音的属性;5)HMM状态的决策和聚类,每个模型的每个状态都对应一个决策树,决策树的根节点对应着该模型的指定状态所拥有的所有标记过的训练矢量样本;从根节点开始进行节点的分裂,对于非叶结点,计算该节点按照模式分类指导体系中某个问题分裂为两个节点时所产生的似然度的增量,按照产生似然度增量最大的分类把该节点分裂为两个子节点,处理所有的节点,直到决策树生成,即所有的节点都变成叶结点;6)带调三音子模型的生成5)中决策树是对每个基本模型的单个状态输出分布进行的,如果有两个三音子模型的所有分布皆位于决策树的同一个叶节点,则认为这两个模型是相同的,可以合并这两个三音子模型;7)用三音子模型重新切分训练数据并标记,然后回到步骤第5)步。2.根据权利要求1所述的一种带调三音子模型及训练算法,其特征在于不对声调进行直接的分类和建模,而是根据语境对包含有声调信息的声学特征的影响程度,把声调当作一个语境因素,结合语境建模的决策树技术隐式地对声调进行必要的分类,从而真正根据区分信息对声调进行建模,在音节串......Ci-1Vi-1Ti-1CiViTi...Ci+1Vi+1Ti+1......中,若Vi作为本体,Vi则同时受Ci,Ci+1,Ti,Ti-1,Ti+1五个因素的影响,即语境包括左、右声韵母、本体声调以及左、右韵母的声调等。3.根据权利要求1、2所述的一种带调三音子模型及训练方法,其特征在于其具体实现采用基于决策树的模型分类体系;在决策树的模式分类指导体系中,除了包含一般汉语语音识别用的语音学模式分类外,同时包...
【专利技术属性】
技术研发人员:徐波,高升,黄泰翼,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。