一种语音合成方法、系统及存储介质和终端设备技术方案

技术编号:39727132 阅读:23 留言:0更新日期:2023-12-17 23:31
本发明专利技术实施例公开了一种语音合成方法、系统及存储介质和终端设备,应用于基于人工智能的信息处理技术领域。语音合成系统通过两个训练阶段来训练语音合成模型,在第一训练阶段采用多个第一样本用户的第一语音样本,训练得到的第一训练阶段的语音合成模型合成的语音的音域范围较广,且在第一训练阶段的训练之前获取到帧级别音素特征,基于帧级别音素特征得到的语音合成模型合成目标语音的发音比较清楚;在第二训练阶段,通过单个第二样本用户的第二语音样本继续训练第一训练阶段的语音合成模型时,对第二语音样本进行音素特征的标注,进一步精确地训练出最终的语音合成模型,更进一步地提升合成目标语音的效果。步地提升合成目标语音的效果。步地提升合成目标语音的效果。

【技术实现步骤摘要】
一种语音合成方法、系统及存储介质和终端设备


[0001]本专利技术涉及基于人工智能的信息处理
,特别涉及一种语音合成方法、系统及存储介质和终端设备。

技术介绍

[0002]现在深度学习技术已广泛应用到各个领域中,在歌声合成(Singing

Voice

Synthesis,SVS)领域中,主要是利用给定乐谱信息合成与真人演唱相似的歌声,合成的歌声质量得到很大的提高,提供了较好的用户体验。
[0003]其中,需要事先在系统中训练一个歌声合成模型,从而通过歌声合成模型可以实现歌声合成的目的。在训练歌声合成模型时需要通过实际单个歌唱者演唱的歌声作为训练样本进行训练,而单个歌唱者的歌声受到歌唱者声带的限制,使得最终训练的歌声合成模型输出的歌声也限定在一定的声带范围。
[0004]为了扩展歌声合成模型合成歌声的音域,在有些现有技术中用实际的多个歌唱者演唱的歌声作为训练样本训练歌声合成模型时,合成的歌声效果不是很好。

技术实现思路

[0005]本专利技术实施例提供一种语音合成方法、本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:确定第一训练阶段的第一训练样本,所述第一训练样本包括多个第一样本用户的第一语音样本;根据所述第一语音样本预测所述第一语音样本的帧级别音素特征,所述帧级别音素特征用于描述所述第一语音样本中每一帧语音的音素信息;根据所述第一语音样本的帧级别音素特征训练语音合成模型,得到第一训练阶段的语音合成模型;所述第一训练阶段的语音合成模型用于根据所述帧级别音素特征获取合成的目标语音的帧级别先验分布特征,根据所述帧级别先验分布特征生成所述目标语音的后验分布特征,根据所述后验分布特征输出所述目标语音;确定第二训练阶段的第二训练样本,所述第二训练样本包括单个第二样本用户的多个第二语音样本、所述第二语音样本的音素标注特征和文本信息;根据所述第二训练样本,对所述第一训练阶段的语音合成模型进行再次训练,得到最终的语音合成模型;其中,所述最终的语音合成模型,用于根据任意文本信息及其所涉及的音素特征获取帧级别特征信息,根据所述帧级别特征信息获取合成的目标语音的帧级别先验分布特征,根据所述帧级别先验分布特征生成所述目标语音的后验分布特征,根据所述后验分布特征输出所述目标语音。2.如权利要求1所述的方法,其特征在于,所述确定第一训练阶段的第一训练样本之后,还包括:获取所述第一语音样本的如下至少一个帧级别特征:所述第一语音样本中基于对应第一样本用户的帧级别音色特征;所述第一语音样本的帧级别音高特征,所述帧级别音高特征用于描述所述第一语音样本中每一帧语音的音高信息;所述根据所述第一语音样本的帧级别音素特征训练语音合成模型,具体包括:根据所述第一语音样本的帧级别音素特征及获取的所述至少一个帧级别特征训练语音合成模型,所述语音合成模型是根据所述帧级别音素特征及获取的所述至少一个帧级别特征获取合成的目标语音的帧级别先验分布特征的。3.如权利要求1所述的方法,其特征在于,所述根据所述第一语音样本预测所述第一语音样本的帧级别音素特征,具体包括:调用预置的音素预测模型,所述音素预测模型根据所述第一语音样本预测所述第一语音样本的帧级别音素概率,所述帧级别音素概率用于描述所述第一语音样本的每一帧语音包含任意音素的概率信息;确定音素查找表;将所述帧级别音素概率与音素查找表的乘积作为所述第一语音样本的帧级别音素特征。4.如权利要求3所述的方法,其特征在于,所述方法还包括:所述音素预测模型包括两个傅里叶变换层、一个线性层和输出层,所述傅里叶变换层用于对所述第一语音样本的特征信息进行处理,所述线性层用于将所述傅里叶变换层处理得到的特征映射为音素类型的数量;所述输出层用于根据所述音素类型的数量输出所述帧级别音素概率。5.如权利要求1至4任一项所述的方法,其特征在于,所述根据所述第一语音样本的帧
级别音素特征训练语音合成模型,具体包括:确定所述第一训练阶段的模型,所述第一训练阶段的模型包括:后验模块、先验模块和语音输出模块;所述先验模块根据所述第一语音样本的帧级别音素特征获取到合成后语音的帧级别先验分布特征,并根据所述帧级别先验分布特征生成所述合成后语音的后验分布特征输出给所述后验模块;所述后验模块根据所述合成后语音的后验分布特征形成合成语音序列;所述语音输出模块根据所述合成语音序列输出合成后语音;根据所述第一训练阶段的模型输出的合成后语音与所述第一训练样本中对应的第一语音样本,调整所述第一训练阶段的模型,以得到所述第一训练阶段的语音合成模型。6.如权利要求5所述的方法,其特征在于,所述根据所述第一训练阶段的模型输出的合成后语音与所述第一训练样本中对应的第一语音样本,调整所述第一训练阶段的模型,具体包括:根据所述第一训练阶段的模型输出的合成后语音与相应的第一语音样本,计算与所述第一训练阶段的模型相关的第一损失函数;根据所述第一损失函数调整所述第一训练阶段的模型的参数值。7.如权利要求6所述的方法,其特征在于,所述方法还包括:根据所述先验模块基于所述帧级别先验分布特征生成所述合成后语音的后验分布特征过程所涉及的第一计算函数,计算与所述先验模块相关的正向损失函数;根据调整所述先验模块生成所述后验分布特征中参数值的过程所涉及的第二计算函数,计算与所述先验模块相关的反向损失函数;根据所述正向损失函数和反向损失函数计算与所述先验模块相关的第二损失函数;所述根据所述第一损失函数调整所述第一训练阶段的模型的参数值,具体包括:根据所...

【专利技术属性】
技术研发人员:周绍焕李旭吴志勇单瀛
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1