歌曲合成模型的训练方法和装置、歌曲合成方法和装置制造方法及图纸

技术编号:35409471 阅读:19 留言:0更新日期:2022-11-03 11:05
本申请涉及一种人工智能的歌曲合成模型的训练方法,包括:获取初始样本集,初始样本集包括多种声源的初始样本,初始样本包括录制音频、录制音频的源歌词时长信息和录制音频的源乐谱信息;基于对初始样本中录制音频的音频变换进行样本增广,获得增广样本集,增广样本集的增广样本包括经过音频变换得到的增广音频、增广音频的增广歌词时长信息和增广音频的增广乐谱信息;根据初始样本集和增广样本集进行模型预训练,获得歌曲合成初始模型;获取目标声源的音频,基于目标声源的音频提取音色特征;基于音色特征对歌曲合成初始模型进行训练,获得歌曲合成模型。采用本方法能够实现合成歌曲的音色定制,从而提高歌曲合成的自然度。度。度。

【技术实现步骤摘要】
歌曲合成模型的训练方法和装置、歌曲合成方法和装置


[0001]本申请涉及计算机
,特别是涉及一种歌曲合成模型的训练方法、装置、计算机设备、存储介质和计算机程序产品,以及一种歌曲合成方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的发展,出现了歌曲合成技术,通过歌曲合成技术能够将多段音乐合成完整的音频,也可以基于歌词和曲谱合成相应的歌唱音频。
[0003]传统的歌声合成是通过训练好的合成模型基于歌词和曲谱合成对应的歌声。目前主要通过人工录制歌曲的方式来构建合成模型的训练数据,由于歌声合成对数据的多样性要求很高,而人工录制的歌曲在一些分布较少的高音或低音处会存在不稳定,导致合成模型所合成歌曲的自然度较差。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高歌曲合成自然度的歌曲合成模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,以及一种能够提高歌曲合成自然度的歌曲合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]本申请提供了一种歌曲合成模型的训练方法,所述方法包括:
[0006]获取初始样本集,所述初始样本集包括多种声源的初始样本,所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息;
[0007]基于对所述初始样本中录制音频的音频变换进行样本增广,获得增广样本集,所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广音频的增广乐谱信息;
[0008]根据所述初始样本集和所述增广样本集进行模型预训练,获得歌曲合成初始模型;
[0009]获取目标声源的音频,基于所述目标声源的音频提取音色特征;
[0010]基于所述音色特征对所述歌曲合成初始模型进行训练,获得歌曲合成模型。
[0011]本申请还提供了一种歌曲合成模型的训练装置,所述装置包括:
[0012]获取模块,用于获取初始样本集,所述初始样本集包括多种声源的初始样本,所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息;
[0013]增广模块,用于基于对所述初始样本中录制音频的音频变换进行样本增广,获得增广样本集,所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广音频的增广乐谱信息;
[0014]预训练模块,用于根据所述初始样本集和所述增广样本集进行模型预训练,获得歌曲合成初始模型;
[0015]提取模块,用于获取目标声源的音频,基于所述目标声源的音频提取音色特征;
[0016]训练模块,用于基于所述音色特征对所述歌曲合成初始模型进行训练,获得歌曲合成模型。
[0017]在一个实施例中,所述增广模块,还用于按照音频变换方式对多个所述初始样本的录制音频进行变换,得到与每个所述录制音频分别对应的增广音频;根据多个所述初始样本的源歌词时长信息,确定与每个所述增广音频分别对应的增广歌词时长信息;通过与所述音频变换方式相匹配的乐谱变换方式,对多个所述初始样本的源乐谱信息进行调整,得到与每个所述增广音频分别对应的增广乐谱信息;根据各所述增广音频、各所述增广音频的增广歌词时长信息和各所述增广音频的增广乐谱信息形成增广样本集。
[0018]在一个实施例中,所述增广模块,还用于对多个所述初始样本的录制音频分别进行音高调整处理,得到与每个所述录制音频分别对应的增广音频;将多个所述初始样本的每个录制音频的源歌词时长信息,作为相应增广音频对应的增广歌词时长信息;按照对多个所述初始样本的录制音频的音高调整处理,对多个所述录制音频的源乐谱信息的音符进行音阶调整处理,得到与每个所述增广音频分别对应的增广乐谱信息。
[0019]在一个实施例中,所述增广模块,还用于将多个所述初始样本的录制音频进行划分处理,得到每个所述录制音频各自对应的音频片段;对于每个所述录制音频,将相应录制音频的各音频片段按照相邻顺序分别进行拼接,得到相应录制音频的多个增广音频;按照对多个所述初始样本的录制音频的划分处理,将多个所述初始样本的源歌词时长信息进行划分,得到每个所述音频片段对应的歌词时长信息片段;按照对各所述音频片段的拼接处理,对各所述音频片段的歌词时长信息片段进行拼接,得到与每个所述增广音频分别对应的增广歌词时长信息;按照对多个所述初始样本的录制音频的划分处理,将多个所述初始样本的源乐谱信息进行划分,得到每个所述音频片段对应的乐谱信息片段;按照对各所述音频片段的拼接处理,对各所述音频片段的乐谱信息片段进行拼接,得到与每个所述增广音频分别对应的增广乐谱信息。
[0020]在一个实施例中,所述预训练模块,还用于从所述初始样本集和所述增广样本集构成的集合中获取样本音频、与所述样本音频对应的样本歌词时长信息,以及与所述样本音频对应的样本乐谱信息;根据所述样本音频的样本歌词时长信息和样本乐谱信息进行特征编码,获得样本编码特征;按照所述样本歌词时长信息的样本歌词时长特征,扩展所述样本编码特征的时长特征,得到样本时长扩展编码特征;提取所述样本音频的样本音色特征,将所述样本音色特征和所述样本时长扩展编码特征拼接后进行声学特征提取,得到预测频谱特征;基于所述预测频谱特征合成预测歌曲,根据所述预测歌曲和所述样本音频之间的合成损失构建目标损失函数;基于所述目标损失函数进行模型预训练,获得歌曲合成初始模型。
[0021]在一个实施例中,所述预训练模块,还用于根据所述样本歌词时长信息的样本歌词特征、所述样本乐谱信息的样本乐谱特征和所述样本音色特征进行时长预测处理,得到所述样本歌词时长信息中每个音素对应的预测音素时长;确定每个所述音素的预测音素时长和所述样本歌词时长信息中每个音素的样本音素时长之间的音素时长损失;确定所述预测歌曲和所述样本音频之间的合成损失;根据所述音素时长损失和所述合成损失,构建目标损失函数。
[0022]在一个实施例中,所述预训练模块,还用于根据所述样本歌词时长信息中每个音素对应的预测音素时长,确定所述样本歌词时长信息中每个音节对应的预测音节时长;确定每个所述音节的预测音节时长和所述样本歌词时长信息中每个音节的样本音节时长之间的音节时长损失;根据所述音素时长损失、所述音节时长损失和所述合成损失,构建目标损失函数。
[0023]在一个实施例中,所述预训练模块,还用于对所述样本编码特征进行梯度反转处理,并基于梯度反转处理所得到的特征进行分类,得到所述样本音频的分类结果;确定所述分类结果和所述样本音频的分类标签之间的对抗损失;确定所述预测歌曲和所述样本音频之间的合成损失;根据所述对抗损失和所述合成损失,构建目标损失函数。
[0024]在一个实施例中,所述预训练模块,还用于提取所述样本音频的样本频谱特征,并确定所述预测频谱特征和所述样本频谱特征之间的频谱损失;确定所述预测歌曲和所述样本音频之间的合成损失;根据所述频谱损失本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌曲合成模型的训练方法,其特征在于,所述方法包括:获取初始样本集,所述初始样本集包括多种声源的初始样本,所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息;基于对所述初始样本中录制音频的音频变换进行样本增广,获得增广样本集,所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广音频的增广乐谱信息;根据所述初始样本集和所述增广样本集进行模型预训练,获得歌曲合成初始模型;获取目标声源的音频,基于所述目标声源的音频提取音色特征;基于所述音色特征对所述歌曲合成初始模型进行训练,获得歌曲合成模型。2.根据权利要求1所述的方法,其特征在于,所述基于对所述初始样本中录制音频的音频变换进行样本增广,获得增广样本集,包括:按照音频变换方式对多个所述初始样本的录制音频进行变换,得到与每个所述录制音频分别对应的增广音频;根据多个所述初始样本的源歌词时长信息,确定与每个所述增广音频分别对应的增广歌词时长信息;通过与所述音频变换方式相匹配的乐谱变换方式,对多个所述初始样本的源乐谱信息进行调整,得到与每个所述增广音频分别对应的增广乐谱信息;根据各所述增广音频、各所述增广音频的增广歌词时长信息和各所述增广音频的增广乐谱信息形成增广样本集。3.根据权利要求2所述的方法,其特征在于,所述按照音频变换方式对多个所述初始样本的录制音频进行变换,得到与每个所述录制音频分别对应的增广音频,包括:对多个所述初始样本的录制音频分别进行音高调整处理,得到与每个所述录制音频分别对应的增广音频;所述根据多个所述初始样本的源歌词时长信息,确定与每个所述增广音频分别对应的增广歌词时长信息,包括:将多个所述初始样本的每个录制音频的源歌词时长信息,作为相应增广音频对应的增广歌词时长信息;所述通过与所述音频变换方式相匹配的乐谱变换方式,对多个所述初始样本的源乐谱信息进行调整,得到与每个所述增广音频分别对应的增广乐谱信息,包括:按照对多个所述初始样本的录制音频的音高调整处理,对多个所述录制音频的源乐谱信息的音符进行音阶调整处理,得到与每个所述增广音频分别对应的增广乐谱信息。4.根据权利要求2所述的方法,其特征在于,所述所述按照音频变换方式对多个所述初始样本的录制音频进行变换,得到与每个所述录制音频分别对应的增广音频,包括:将多个所述初始样本的录制音频进行划分处理,得到每个所述录制音频各自对应的音频片段;对于每个所述录制音频,将相应录制音频的各音频片段按照相邻顺序分别进行拼接,得到相应录制音频的多个增广音频;所述根据多个所述初始样本的源歌词时长信息,确定与每个所述增广音频分别对应的增广歌词时长信息,包括:
按照对多个所述初始样本的录制音频的划分处理,将多个所述初始样本的源歌词时长信息进行划分,得到每个所述音频片段对应的歌词时长信息片段;按照对各所述音频片段的拼接处理,对各所述音频片段的歌词时长信息片段进行拼接,得到与每个所述增广音频分别对应的增广歌词时长信息;所述通过与所述音频变换方式相匹配的乐谱变换方式,对多个所述初始样本的源乐谱信息进行调整,得到与每个所述增广音频分别对应的增广乐谱信息,包括:按照对多个所述初始样本的录制音频的划分处理,将多个所述初始样本的源乐谱信息进行划分,得到每个所述音频片段对应的乐谱信息片段;按照对各所述音频片段的拼接处理,对各所述音频片段的乐谱信息片段进行拼接,得到与每个所述增广音频分别对应的增广乐谱信息。5.根据权利要求1所述的方法,其特征在于,所述根据所述初始样本集和所述增广样本集进行模型预训练,获得歌曲合成初始模型,包括:从所述初始样本集和所述增广样本集构成的集合中获取样本音频、与所述样本音频对应的样本歌词时长信息,以及与所述样本音频对应的样本乐谱信息;根据所述样本音频的样本歌词时长信息和样本乐谱信息进行特征编码,获得样本编码特征;按照所述样本歌词时长信息的样本歌词时长特征,扩展所述样本编码特征的时长特征,得到样本时长扩展编码特征;提取所述样本音频的样本音色特征,将所述样本音色特征和所述样本时长扩展编码特征拼接后进行声学特征提取,得到预测频谱特征;基于所述预测频谱特征合成预测歌曲,根据所述预测歌曲和所述样本音频之间的合成损失构建目标损失函数;基于所述目标损失函数进行模型预训练,获得歌曲合成初始模型。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:根据所述样本歌词时长信息的样本歌词特征、所述样本乐谱信息的样本乐谱特征和所述样本音色特征进行时长预测处理,得到所述样本歌词时长信息中每个音素对应的预测音素时长;确定每个所述音素的预测音素时长和所述样本歌词时长信息中每个音素的样本音素时长之间的音素...

【专利技术属性】
技术研发人员:张泽旺
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1