【技术实现步骤摘要】
一种歌声合成模型的训练方法、装置、介质及电子设备
[0001]本说明书涉及计算机
,尤其涉及一种歌声合成模型的训练方法、装置、介质及电子设备。
技术介绍
[0002]随着科技的不断发展,人机交互过程变得越来越频繁以及越来越智能,其中,通过人机交互合成歌声得到广泛的关注。
[0003]通常,歌声合成是指根据歌词信息和歌谱信息合成歌声的过程。因此,如何合成歌声是一个非常重要的问题。
[0004]基于此,本说明书提供一种歌声合成模型的训练方法。
技术实现思路
[0005]本说明书提供一种歌声合成模型的训练方法、装置、介质及电子设备,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:
[0007]本说明书提供了一种歌声合成模型的训练方法,待训练的歌声合成模型包括旋律预测层和歌声预测层;所述方法包括:
[0008]获取预先收集的歌曲的歌曲数据,其中,所述歌曲数据至少包括歌词数据、歌谱数据和音频数据;
[0009]根据所述歌曲数据中包含的歌词数据,确定所述歌词数据对应的音素;
[0010]将所述歌谱数据和所述音素进行拼接,得到第一结果;
[0011]将所述第一结果输入所述待训练的歌声合成模型的旋律预测层,预测所述歌曲的第一旋律分布,其中,所述第一旋律分布包含所述歌词数据对应的音素的信息;
[0012]根据所述音频数据,确定所述歌曲的第一梅尔谱,并将所述第一梅尔谱输入所述待训练的歌声合成模型的歌声预测层,得到预测 ...
【技术保护点】
【技术特征摘要】
1.一种歌声合成模型的训练方法,其特征在于,待训练的歌声合成模型包括旋律预测层和歌声预测层;所述方法包括:获取预先收集的歌曲的歌曲数据,其中,所述歌曲数据至少包括歌词数据、歌谱数据和音频数据;根据所述歌曲数据中包含的歌词数据,确定所述歌词数据对应的音素;将所述歌谱数据和所述音素进行拼接,得到第一结果;将所述第一结果输入所述待训练的歌声合成模型的旋律预测层,预测所述歌曲的第一旋律分布,其中,所述第一旋律分布包含所述歌词数据对应的音素的信息;根据所述音频数据,确定所述歌曲的第一梅尔谱,并将所述第一梅尔谱输入所述待训练的歌声合成模型的歌声预测层,得到预测音频以及第二旋律分布;根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,并以所述目标损失最小为优化目标,对所述待训练的歌声合成模型进行训练。2.如权利要求1所述的方法,其特征在于,所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层;将所述第一结果输入所述待训练的歌声合成模型的旋律预测层,得到所述歌曲的第一旋律分布,具体包括:将所述第一结果输入所述旋律预测层的特征提取层,得到所述音素的隐含特征;将所述隐含特征输入所述旋律预测层的时长预测层,得到所述音素的第一发音时长;根据所述音素的第一发音时长,对所述音素的隐含特征进行扩充处理,得到第二结果;将所述第二结果输入所述旋律预测层的基频预测层,得到所述歌曲的音频帧的第一基频;将所述第二结果和所述歌曲的音频帧的第一基频进行拼接,得到第三结果;将所述第三结果输入所述旋律预测层的梅尔谱预测层,得到所述歌曲的第二梅尔谱;将所述第二梅尔谱和所述第二结果进行拼接,得到第四结果;将所述第四结果输入所述旋律预测层的分布预测层,得到所述歌曲的第一旋律分布。3.如权利要求1或2所述的方法,其特征在于,所述歌声预测层包括声谱分布预测层、转化层和可微数字信号处理层;根据所述音频数据,确定所述歌曲的第一梅尔谱,并将所述第一梅尔谱输入所述待训练的歌声合成模型的歌声预测层,得到预测音频以及第二旋律分布,具体包括:根据所述音频数据,采用预设的第一算法,确定所述歌曲的第一梅尔谱;将所述第一梅尔谱输入所述歌声预测层的声谱分布预测层,得到所述歌曲的预测声谱分布;将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层,得到所述歌曲的预测音频,以及将所述预测声谱分布输入所述歌声预测层的转化层,得到第二旋律分布。4.如权利要求3所述的方法,其特征在于,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:根据所述音频数据和所述预测音频之间的差异,确定第一损失,以及根据所述第一旋
律分布和所述第二旋律分布之间的差异,确定第二损失;将所述第一损失与所述第二损失的和作为目标损失。5.如权利要求2所述的方法,其特征在于,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:根据所述音频数据,采用预设的第二算法,确定所述音素的第二发音时长;根据所述第一发音时长和所述第二发音时长之间的差异,确定第三损失;根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,以及所述第三损失,确定所述目标损失。6.如权利要求2所述的方法,其特征在于,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:根据所述音频数据,采用预设的第三算法,确定所述歌曲的音频帧的第二基频;根据所述第一基频和所述第二基频之间的差异,确定第四损失;根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,以及所述第四损失,确定所述目标损失。7.如权利要求2所述的方法,其特征在于,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:根据所述第二梅尔谱和所述第一梅尔谱之间的差异,确定第五损失;根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,以及所述第五损失,确定所述目标损失。8.如权利要求2所述的方法,其特征在于,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:根据所述音频数据,采用预设的算法,确定所述音素的第二发音时长、所述歌曲的音频帧的第二基频;根据所述第一发音时长和所述第二发音时长之间的差异,确定第三损失;根据所述第一基频和所述第二基频之间的差异,确定第四损失;根据所述第二梅尔谱和所述第一梅尔谱之间的差异,确定第五损失;根据所述第一旋律分布与所述第二旋律分布的差异、所述音频数据与所述预测音频的差异、所述第三损失、所述第四损失和所述第五损失,确定目标损失。9.如权利要求4所述的方法,其特征在于,将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层,得到所述歌曲的预测音频,具体包括:将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层,确定所述歌曲的音频帧的谐波参数和噪声参数;针对所述歌曲的每一个音频帧,确定该音频帧对应的预测基频;根据该音频帧对应的预测基频和该音频帧的谐波参数,确定该音频帧的谐波信号,以及根据该音频帧对应的预测基频和该音频帧的噪声参数,确定该音频帧的噪声信号;确定该音频帧的谐波信号和该音频帧的噪声信号的和,作为该音频帧的音频信号;根据各音频帧的音频信号,确定所述歌曲的预测音频。10.如权利要求3所述的方法,其特征在于,所述方法还包括:响应于用户的输入操作,确定所述用户输入的待合成歌曲的歌词数据和歌谱数据;
确定所述用户输入的歌词数据对应的音素,作为待合成音素;将所述待合成音素与所述用户输入的歌谱数据进行拼接,得到第一结果;将所述第一结果输入训练完成的歌声合成模型的旋律预测层,预测所述待合成歌曲的旋律分布;将所述待合成歌曲的旋律分布输入所述训练完成的歌声合成模型的歌声预测层中的转化层,得到所述待合成歌曲的声谱分布;将所述待合成歌曲的声谱分布输入所述训练完成的歌声合成模型的歌声预测层中的可微数字信号处理层,得到所述待合成歌曲的音频。11.如权利要求3所述的方法,其特征在于,所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层;所述方法还包括:响应于用户的输入操作,确定所述用户输入的待合成歌曲的歌词数据和歌谱数据;确定所述用户输入的歌词数据对应的音素,作为待合成音素;将所述待合成音素与所述用户输入的歌谱数据进行拼接;将拼接后的结果输入训练完成的歌声合成模型的旋律预测层的特征提取层,得到所述待合成音素的隐含特征;将所述待合成音素的隐含特征输入所述时长预测层,得到所述待合成音素的发音时长;根据所述待合成音素的发音时长,对所述待合成音素的隐含特征进行扩充处理,得到扩充结果;将所述扩充结果输入所述基频预测层,得到所述待合成歌曲的音频帧的基频;将所述扩充结果和所述基频进行拼接,得到第一拼接结果;将所述第一拼接结果输入所述梅尔谱预测层,得到所述待合成歌曲的梅尔谱;将所述梅尔谱和所述扩充结果进行拼接,得到第二拼接结果;将所述第二拼接结果输入所述分布预测层,得到所述待合成歌曲的旋律分布;将所述旋律分布输入训练完成的歌声合成模型的歌声预测层的转...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。