【技术实现步骤摘要】
本专利技术涉及信号处理
,尤其涉及。
技术介绍
目前,语音合成实现文字到语音的转换,是智能人机交互的核心技术之一。基于隐马尔科夫模型(Hidden Markov Model, HMM)的参数语音合成是现阶段一种主流的语音合成方法。该方法在训练时首先提取训练语音数据库中的频谱、基频等声学特征,然后使用统一的HMM框架对声学特征进行建模;在合成时,首先利用训练得到的统计模型基于最大输出概率准则进行各种声学特征的预测,再将预测的声学特征送入参数合成器重构合成语音。该方法可以合成高可懂度与流畅度的语音。但是合成语音的音质往往不够理想,造成整体自然度欠佳。 上述传统基于HMM参数语音合成方法在频谱建模上的不足,是造成合成语音音质不理想的重要原因。具体来说,由于在传统频谱建模中使用的频谱特征往往是一些高层的频谱特征,例如梅尔倒谱(Mel Cepstra)、线谱对(Line Spectral Pairs)等,这些特征都是对原始语音频谱的一种模型化或者近似化表征,在特征提取的过程中已经造成了频谱细节信息的丢失;同时,由于传统频谱建模方法通常使用单高斯分布来描述HMM中每个状态的频谱特征输出概率,在合成阶段基于最大输出概率准则进行频谱特征的预测,由于单高斯分布的均值具有最大的输出概率,因此参数生成结果很接近于模型的均值,而该均值是在训练阶段基于最大似然准则通过对训练样本的平均化来估计得到的,这样造成了预测的频谱特征往往过于平滑,从而影响了最终合成语音的音质。
技术实现思路
本专利技术的目的是提供,该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度,从而改善合 ...
【技术保护点】
一种基于受限玻尔兹曼机的语音合成方法,其特征在于,所述方法包括:在模型训练阶段,使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模;利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息,依据基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯的HMM训练;在单高斯的HMM训练完成后,利用训练得到的Gaussian?HMM模型对训练数据库中的声学特征序列进行状态切分,得到每个状态对应的起止时间;利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据,并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况;在语音合成阶段,通过高斯近似进行HMM各状态输出概率的重估,再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测;利用Gaussian?HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。
【技术特征摘要】
1.一种基于受限玻尔兹曼机的语音合成方法,其特征在于,所述方法包括: 在模型训练阶段,使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模; 利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息,依据基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯的HMM训练; 在单高斯的HMM训练完成后,利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分,得到每个状态对应的起止时间; 利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据,并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况; 在语音合成阶段,通过高斯近似进行HMM各状态输出概率的重估,再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测; 利用Gaussian-HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。