半监督的音素强制对齐模型建立方法及系统技术方案

技术编号:20330283 阅读:37 留言:0更新日期:2019-02-13 06:28
本发明专利技术提出一种半监督的音素强制对齐模型建立方法及系统,属于语音合成领域。本发明专利技术解决了目前强制对齐方法存在对齐偏差较大,而对齐偏差会影响后端模型语音合成的效果,造成合成语音不够自然、连贯的问题,其技术方案要点为:方法包括:首先,获取模型训练数据;其次,提取原始语音样本MFCC特征;然后,单音素GMM模型训练,获取初步音素对齐状态序列;最后,三音素GMM模型训练,通过引入有监督项来对GMM模型参数进行估计更新,确定模型参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型。系统包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块。本发明专利技术的有益效果是:能够提高语音数据利用率及对齐准确率。

【技术实现步骤摘要】
半监督的音素强制对齐模型建立方法及系统
本专利技术涉及语音合成技术,特别涉及半监督的音素强制对齐模型建立方法及系统的技术。
技术介绍
语音合成系统由前端和后端两个模块构成,用于将一段文本内容通过分析和建模后转换为一段音频文件。前端主要包括原始文本正则化、中文分词、发音预测、韵律结构预测和强制对齐等操作,用于指导后端模型将文本转换成对应的音频。由于语音本身的复杂性和开放性,前端处理一直是传统语音合成的一个重点。前端模块的其中一个模型为音素强制对齐模型,音素强制对齐是指对于文本标注的每个片段——音素,确定包含的音频文件的时间间隔的一种模型。传统语音合成技术中的强制对齐方法是根据语音样本和对应的文本标注样本集来进行建模,实现音素和语音的对齐,由于语音文件的人工对齐标注工作量大、难度高,大多强制对齐方法没有将语音数据对应的对齐标记纳入考虑,是一种无监督的建模过程。但是传统技术的强制对齐方法存在对齐偏差较大的问题,而对齐偏差会影响后端模型语音合成的效果,造成合成语音不够自然、连贯。
技术实现思路
本专利技术的目的是提供一种半监督的音素强制对齐模型建立方法及系统,解决目前强制对齐方法存在对齐偏差较大,而对齐偏差会影响后端模型语音合成的效果,造成合成语音不够自然、连贯的问题。本专利技术解决其技术问题,采用的技术方案是:半监督的音素强制对齐模型建立方法,包括如下步骤:步骤1、获取训练数据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本;步骤3、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列;步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新,确定所述三音素GMM模型的参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型,其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型。进一步的是,步骤4具体包括如下步骤:步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的GMM;步骤402、通过所述特征的均值和方差初始化GMM模型参数,将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差;步骤403、根据所述每个原始语音样本特征构建解码图,然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列;步骤404、根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵;步骤405、更新所述单音素GMM模型参数,并在每一轮训练时不断增加GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。进一步的是,步骤5具体包括如下步骤:步骤501、将所述单音素复制为三音素,然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列;步骤502、对于每一帧语音特征和与其相应的三音素对齐状态序列,计算GMM训练所需统计量;步骤503、将固定某一中间音素的所有三音素的统计量累加,根据三音素累加统计量对所有三音素进行聚类,生成决策树问题集,构建决策树,其中,所述决策树问题集包括音素位置问题集和HMM状态位置问题集两个子集;步骤504、根据所述决策树和累加统计量初始化三音素GMM模型;步骤505、将所述初步音素对齐状态序列、决策树输入三音素GMM模型进行训练,分裂或合并单高斯直到指定高斯数目,输出对应的预测音素对齐状态序列。进一步的是,步骤6具体包括如下步骤:步骤601、计算三音素GMM模型输入样本的对数似然,其中,对数似然如下两个部分:基于有对齐标记样本的有监督项和基于待对齐样本的无监督项;步骤602、通过EM算法求解高斯混合模型参数,迭代更新模型参数直到收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与所述的单音素GMM模型组成目标音素强制对齐模型。进一步的是,步骤403具体包括如下步骤:步骤4031、根据所述音素标注样本、GMM模型生成字典解码图L.fst和语言模型解码图G.fst;步骤4032、通过所述字典解码图L.fst和语言模型解码图G.fst生成LG.fst,将所述文本标注样本扩展为音素;步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst;步骤4034、根据HMM拓扑结构、转移概率和决策树,构建不包括自转移的声学模型Ha.fst,其中,每个转移的输入为一个HMM状态;步骤4035、将所述Ha.fst和CLG.fst组合,通过确定化、去除空转移和最小化,得到HCLGa.fst;步骤4036、通过增加每个HMM状态的自转移构建较大解码图,生成单音素解码图HCLG.fst。半监督的音素强制对齐系统,应用于所述的半监督的音素强制对齐模型建立方法,包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块;所述数据获取模块,用于获取训练据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;所述音素转化模块,用于将所述的文本标注样本集中的文本标注样本转化成对应的音素标注样本;所述特征提取模块,用于将原始语音样本集中的语音样本转化成MFCC特征;所述训练模块,用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练;所述对齐预测模块,用于将所述MFCC特征和对应的音素标注样本在模型中进行转换和计算,输出对应的预测音素对齐状态序列;所述模型建立模块,用于引入有对齐标记数据的有监督项对模型参数进行估计和更新,确定三音素GMM模型的参数,与所述单音素GMM模型组成目标音素强制对齐模型。具体的是,所述训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元;所述声学特征获取单元,用于根据特征提取模块得到模型输入MFCC特征矩阵,将输入MFCC特征矩阵中的有对齐标记的特征数据进行计算,得到每一维均值和方差;所述初始化单元,用于根据所述均值和方差初始化单音素GMM的均值和方差;所述解码图编译单元,用于生成与MFCC特征对齐的HMM状态序列时所需的每个语音样本对应音素标注样本的解码图;所述单音素模型训练单元,用于根据Viterbi训练单音素GMM模型,首先,通过初始模型对MFCC特征数据进行均匀对齐,得到每一帧特征对应的HMM状态序列,然后,根据特征序列和对应HMM状态序列计算转移概率矩阵更新HMM状态,得到一个HMM状态对应的所有GMM所对应观测样本,最后,根据GMM对应的所有观测样本和当前参本文档来自技高网...

【技术保护点】
1.半监督的音素强制对齐模型建立方法,其特征在于,包括如下步骤:步骤1、获取训练数据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本;步骤3、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列;步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新,确定所述三音素GMM模型的参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型,其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型。

【技术特征摘要】
1.半监督的音素强制对齐模型建立方法,其特征在于,包括如下步骤:步骤1、获取训练数据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本;步骤3、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列;步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新,确定所述三音素GMM模型的参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型,其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型。2.根据权利要求1所述的半监督的音素强制对齐模型建立方法,其特征在于,步骤4具体包括如下步骤:步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的GMM;步骤402、通过所述特征的均值和方差初始化GMM模型参数,将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差;步骤403、根据所述每个原始语音样本特征构建解码图,然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列;步骤404、根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵;步骤405、更新所述单音素GMM模型参数,并在每一轮训练时不断增加GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。3.根据权利要求1所述的半监督的音素强制对齐模型建立方法,其特征在于,步骤5具体包括如下步骤:步骤501、将所述单音素复制为三音素,然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列;步骤502、对于每一帧语音特征和与其相应的三音素对齐状态序列,计算GMM训练所需统计量;步骤503、将固定某一中间音素的所有三音素的统计量累加,根据三音素累加统计量对所有三音素进行聚类,生成决策树问题集,构建决策树,其中,所述决策树问题集包括音素位置问题集和HMM状态位置问题集两个子集;步骤504、根据所述决策树和累加统计量初始化三音素GMM模型;步骤505、将所述初步音素对齐状态序列、决策树输入三音素GMM模型进行训练,分裂或合并单高斯直到指定高斯数目,输出对应的预测音素对齐状态序列。4.根据权利要求1所述的半监督的音素强制对齐模型建立方法,其特征在于,步骤6具体包括如下步骤:步骤601、计算三音素GMM模型输入样本的对数似然,其中,对数似然如下两个部分:基于有对齐标记样本的有监督项和基于待对齐样本的无监督项;步骤602、通过EM算法求解高斯混合模型参数,迭代更新模型参数直到收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与所述的单音素GMM模型组成目标音素强制对齐模型。5.根据权利要求2所述半监督的音素强制对齐模型建立方法,其特征在于,步骤403具体包括如下步骤:步骤4031、根据所述音素标注样本、GMM模型生成字典解码图L.fst和语言模型解码图G.fst;步骤4032、通过所述字典...

【专利技术属性】
技术研发人员:王昆
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1