【技术实现步骤摘要】
语音合成方法、预测网络训练方法、服务器和存储介质
[0001]本申请涉及互联网
,特别是涉及一种语音合成方法、预测网络的训练方法、服务器和存储介质。
技术介绍
[0002]随着互联网技术的发展,语音合成作为一个新的应用
,其利用音频和单词的相关合成技术,经过计算机制作出针对于目标用户的合成语音音频。因此,语音合成技术在虚拟歌手、唱片制作、数字音乐创作等领域具有相当大的应用价值和前景。
[0003]在传统的高质量语音合成的方法中,一般是先由人工听录得到目标用户的多段语音音频,再利用该多段语音音频训练得到针对于目标用户的语音合成模型,最后通过语音合成模型来合成针对于目标用户的合成语音音频。
[0004]然而,目前的针对于目标用户的语音合成方法中,需要人工听录大量的针对目标用户的语音音频作为训练数据,才能训练得到质量较高的语音合成模型,因而在目标用户的语音音频数量不充足的情况下,通过针对于目标用户的语音合成模型来合成的语音音频的质量不够高。
技术实现思路
[0005]基于此,有必要针对上 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取关于目标用户的音色特征数据和关于待合成音频的初始音频数据;所述初始音频数据为所述目标用户的关联用户针对所述待合成音频的音频内容所产生的语音音频,所述初始音频数据基于多个音素片段组成;将所述待合成音频的初始音频数据输入预先训练完成的基频预测网络,得到所述基频预测网络输出的针对每一所述音素片段的预测基频数据;以及将所述待合成音频的初始音频数据输入预先训练完成的音素时长预测网络,得到所述音素时长预测网络输出的针对每一所述音素片段的预测时长数据;将所述目标用户的音色特征数据与各所述音素片段的预测基频数据、预测时长数据进行特征融合得到合成特征数据,并利用所述合成特征数据生成针对于所述目标用户的合成语音音频。2.根据权利要求1所述的方法,其特征在于,所述将所述目标用户的音色特征数据与各所述音素片段的预测基频数据、预测时长数据进行特征融合得到合成特征数据,包括:对所述初始音频数据进行音素分段,得到对应的多个音素片段;将各所述音素片段输入预先训练完成的特征编码网络,得到所述特征编码网络输出的针对各所述音素片段的音素特征数据;按照各所述音素片段之间的次序,依次将各所述音素片段对应的音素特征数据、预测基频数据和预测时长数据进行第一特征融合,得到各所述音素片段对应的融合特征数据;将所述目标用户的音色特征数据与各所述音素片段的融合特征数据进行第二特征融合,生成针对所述待合成音频的合成特征数据。3.根据权利要求2所述的方法,其特征在于,在所述得到各所述音素片段对应的融合特征数据之后,还包括:将各所述音素片段的融合特征数据按照对应音素片段的预测时长进行单帧分割,得到各所述音素片段对应的多个单帧融合特征数据;所述将所述目标用户的音色特征数据与各所述音素片段的融合特征数据进行第二特征融合,生成针对所述待合成音频的合成特征数据,包括:按照各所述单帧融合特征数据之间的次序,依次将各所述单帧融合特征数据与所述目标用户的音色特征数据进行第二特征融合,生成针对所述待合成音频的合成特征数据。4.根据权利要求2所述的方法,其特征在于,所述合成特征数据用于表征所述待合成音频的梅尔谱特征,所述目标用户的合成语音音频为对应媒体格式的语音波形文件;所述生成针对于所述目标用户的合成语音音频,包括:将所述梅尔谱特征输入预先训练完成的特征解码网络,得到所述特征解码网络输出的针对于所述待合成音频的梅尔谱数据;对所述待合成音频的梅尔谱数据进行波形转换,得到针对于所述合成语音音频对应媒体格式的语音波形文件。5.根据权利要求1所述的方法,其特征在于,获取关于目标用户的音色特征数据,包括:获取针对于所述目标用户的初始音频数据、针对于所述待合成音频的文字序列;所述文字序列用于表达所述待合成音频的音频内容;对所述目标用户的初始音频数据进行音色提取,得到针对所述目标用户的音色特征数
据。6.根据权利要求1所述的方法,其特征在于,获取关于待合成音频的初始音频数据,包括:从预设的音频数据库中,确定出与所述待合成音频的文字序列相匹配的音频数据集合;所述音频数据集合中包括多个音频数据,且每一所述音频数据为对应...
【专利技术属性】
技术研发人员:刘若澜,徐东,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。