歌声转换方法、音色转换模型的训练方法及相关设备技术

技术编号:38018441 阅读:32 留言:0更新日期:2023-06-30 10:45
本申请涉及语音合成技术领域,还涉及人工智能技术领域,本申请实施例提供的歌声转换方法,包括:获取原始音频数据的音素序列及音素的时间信息;获取音乐特征数据;获取融合特征数据;将融合特征数据和原频谱特征数据输入至语音合成模型中,输出目标梅尔谱;获取目标音频数据;通过上述方式,实现了基于非平行语料的歌声转换,无需收集平行语料,提高了歌声转换的效率和效果;并且,输入至语音合成模型的原频谱特征数据是根据原梅尔谱获取的,语音合成模型无需进行对齐预测,语音合成模型输出的目标梅尔谱与原梅尔谱是严格时间对齐的,提高了歌声转换的效率和效果;并且,转换所得目标音频数据与原始音频数据是平行语料,实现了数据增强。据增强。据增强。

【技术实现步骤摘要】
歌声转换方法、音色转换模型的训练方法及相关设备


[0001]本申请涉及语音合成
,具体涉及一种歌声转换方法、音色转换模型的训练方法及相关设备。

技术介绍

[0002]语音转换指的是:将源说话人说话的音色转化为另一个目标说话人的音色,同时保持源说话人说话的文本内容不变。歌声转换则是在此基础上更近一步,在不改变一段歌唱音频的歌唱内容的前提下,改变歌声的音色。随着互联网技术的发展,歌声转换已逐渐应用于电子游戏,视频直播,短视频应用等领域。
[0003]现有技术中歌声转换一般基于平行语料,即不同的说话人需要录制相同文本内容的歌唱音频,目前公开的歌唱音频数据集的资源非常有限,多说话人的歌唱音频数据集也很少,而歌唱音频数据由于对专业度的要求高,其收集难度又远大于语音数据。由于平行语料的收集难度高,现有技术中基于平行语料的方式不利于歌声转换效率和效果的提高。

技术实现思路

[0004]鉴于以上问题,本申请实施例提供一种歌声转换方法、音色转换模型的训练方法及相关设备,以解决上述技术问题。
[0005]第一方面,本申请实施例提供一种歌声转换方法,包括:
[0006]获取原始音频数据的音素序列以及所述音素序列中每个音素的时间信息;
[0007]获取所述原始音频数据的基频曲线,根据所述基频曲线以及每个所述音素的时间信息获取每个所述音素的音高信息,根据每个所述音素的时间信息和音高信息获取所述原始音频数据的音乐特征数据;
[0008]根据所述音乐特征数据、所述音素序列以及目标对象的说话人特征数据获取融合特征数据;
[0009]将所述融合特征数据和原频谱特征数据输入至预先训练好的语音合成模型中,输出所述目标对象的目标梅尔谱,其中,所述原频谱特征数据是根据从所述原始音频数据中提取的原梅尔谱获取的,所述语音合成模型是根据样本融合特征数据和样本频谱特征数据进行训练得到的;
[0010]根据所述目标梅尔谱获取所述目标对象的目标音频数据。
[0011]作为一种实施方式,所述根据所述基频曲线以及每个所述音素的时间信息获取每个所述音素的音高信息,包括:
[0012]根据所述音素的时间信息确定所述音素在所述基频曲线上对应的基频曲线段;
[0013]获取所述基频曲线段的平均值,将所述平均值作为对应所述音素的音高信息;
[0014]若所述音素序列中包括静音音素,则根据所述静音音素在所述音素序列中的位置确定所述静音音素的相邻音素,根据所述相邻音素的音高信息对所述静音音素的音高信息进行调整。
[0015]作为一种实施方式,所述根据所述音乐特征数据、所述音素序列以及目标对象的说话人特征数据获取融合特征数据,包括:
[0016]将所述音乐特征数据、所述音素序列以及目标对象的说话人特征数据进行拼接,得到拼接特征数据;
[0017]将所述拼接特征数据输入至第一神经网络中,输出所述融合特征数据,其中,所述第一神经网络包括至少一个全连接层。
[0018]作为一种实施方式,所述语音合成模型的训练步骤包括:
[0019]根据样本音频数据分别获取对应的样本梅尔谱、样本音乐特征数据、样本音素序列和样本说话人特征数据;
[0020]根据所述样本音乐特征数据、所述样本音素序列和所述样本说话人特征数据获取所述样本融合特征数据,根据样本梅尔谱获取样本频谱特征数据;
[0021]将所述样本融合特征数据和所述样本频谱特征数据输入至待训练的语音合成模型中,输出预测目标梅尔谱;
[0022]根据所述样本梅尔谱和所述预测目标梅尔谱计算预测误差,根据所述预测误差对所述语音合成模型的参数进行调整,直至所述语音合成模型达到训练收敛条件。
[0023]第二方面,本申请实施例还提供一种音色转换模型的训练方法,所述音色转换模型包括音色声学模型,所述训练方法包括:
[0024]获取原始音频数据对应的目标音频数据,其中,所述目标音频数据是根据上述的歌声转换方法获取的;
[0025]获取所述原始音频数据的原梅尔谱,获取所述目标音频数据的目标梅尔谱和目标说话人特征数据;
[0026]将所述原梅尔谱和所述目标说话人特征数据输入至待训练的音色声学模型中,输出预测梅尔谱;
[0027]根据所述目标梅尔谱和所述预测梅尔谱计算转换误差,根据所述转换误差对所述音色声学模型的参数进行调整,直至所述音色声学模型达到训练收敛条件。
[0028]作为一种实施方式,所述音色转换模型还包括声码器,所述训练方法还包括:
[0029]将所述目标梅尔谱输入至所述声码器中,输出预测音频数据;
[0030]根据所述预测音频数据和所述目标音频数据计算生成重构误差,根据所述生成重构误差对所述声码器的参数进行调整,直至所述声码器达到训练收敛条件。
[0031]第三方面,本申请实施例还提供一种歌声转换方法,包括:
[0032]获取第一音频数据的第一梅尔谱;
[0033]将所述第一梅尔谱和目标对象的说话人特征数据输入至预先训练好的音色转换模型中,输出第二音频数据,其中,所述音色转换模型是根据上述的音色转换模型的训练方法获取的。
[0034]第四方面,本申请实施例还提供一种歌声转换装置,包括:
[0035]音素提取模块,用于获取原始音频数据的音素序列以及所述音素序列中每个音素的时间信息;
[0036]音乐特征模块,用于获取所述原始音频数据的基频曲线,根据所述基频曲线以及每个所述音素的时间信息获取每个所述音素的音高信息,根据每个所述音素的时间信息和
音高信息获取所述原始音频数据的音乐特征数据;
[0037]融合特征模块,用于根据所述音乐特征数据、所述音素序列以及目标对象的说话人特征数据获取融合特征数据;
[0038]语音合成模块,用于将所述融合特征数据和原频谱特征数据输入至预先训练好的语音合成模型中,输出所述目标对象的目标梅尔谱,其中,所述原频谱特征数据是根据从所述原始音频数据中提取的原梅尔谱获取的,所述语音合成模型是根据样本融合特征数据和样本频谱特征数据进行训练得到的;
[0039]音频生成模块,用于根据所述目标梅尔谱获取所述目标对象的目标音频数据。
[0040]第五方面,本申请实施例还提供一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现上述的歌声转换方法或者实现上述的音色转换模型的训练方法。
[0041]第六方面,本申请实施例还提供一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现上述的歌声转换方法或者实现上述的音色转换模型的训练方法。
[0042]本申请实施例提供的歌声转换方法,包括如下步骤:获取原始音频数据的音素序列以及所述音素序列中每个音素的时间信息;获取所述原始音频数据的基频曲线,根据所述基频曲线以及每个所述音素的时间信息获取每个所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌声转换方法,其特征在于,包括:获取原始音频数据的音素序列以及所述音素序列中每个音素的时间信息;获取所述原始音频数据的基频曲线,根据所述基频曲线以及每个所述音素的时间信息获取每个所述音素的音高信息,根据每个所述音素的时间信息和音高信息获取所述原始音频数据的音乐特征数据;根据所述音乐特征数据、所述音素序列以及目标对象的说话人特征数据获取融合特征数据;将所述融合特征数据和原频谱特征数据输入至预先训练好的语音合成模型中,输出所述目标对象的目标梅尔谱,其中,所述原频谱特征数据是根据从所述原始音频数据中提取的原梅尔谱获取的,所述语音合成模型是根据样本融合特征数据和样本频谱特征数据进行训练得到的;根据所述目标梅尔谱获取所述目标对象的目标音频数据。2.根据权利要求1所述的歌声转换方法,其特征在于,所述根据所述基频曲线以及每个所述音素的时间信息获取每个所述音素的音高信息,包括:根据所述音素的时间信息确定所述音素在所述基频曲线上对应的基频曲线段;获取所述基频曲线段的平均值,将所述平均值作为对应所述音素的音高信息;若所述音素序列中包括静音音素,则根据所述静音音素在所述音素序列中的位置确定所述静音音素的相邻音素,根据所述相邻音素的音高信息对所述静音音素的音高信息进行调整。3.根据权利要求1所述的歌声转换方法,其特征在于,所述根据所述音乐特征数据、所述音素序列以及目标对象的说话人特征数据获取融合特征数据,包括:将所述音乐特征数据、所述音素序列以及目标对象的说话人特征数据进行拼接,得到拼接特征数据;将所述拼接特征数据输入至第一神经网络中,输出所述融合特征数据,其中,所述第一神经网络包括至少一个全连接层。4.根据权利要求1所述的歌声转换方法,其特征在于,所述语音合成模型的训练步骤包括:根据样本音频数据分别获取对应的样本梅尔谱、样本音乐特征数据、样本音素序列和样本说话人特征数据;根据所述样本音乐特征数据、所述样本音素序列和所述样本说话人特征数据获取所述样本融合特征数据,根据样本梅尔谱获取样本频谱特征数据;将所述样本融合特征数据和所述样本频谱特征数据输入至待训练的语音合成模型中,输出预测目标梅尔谱;根据所述样本梅尔谱和所述预测目标梅尔谱计算预测误差,根据所述预测误差对所述语音合成模型的参数进行调整,直至所述语音合成模型达到训练收敛条件。5.一种音色转换模型的训练方法,其特征在于,所述音色转换模型包括音色声学模型,所述训练方法包括:获取原始音频数据对应的目标音频数据,其中,所述目标音频数据是根据权利要求1至4任一项所述的歌声转...

【专利技术属性】
技术研发人员:朱清影缪陈峰王少军马骏肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1