一种歌声合成方法、装置、设备及存储介质制造方法及图纸

技术编号：35926163 阅读：21 留言：0更新日期：2022-12-10 11:19

本发明专利技术提供一种歌声合成方法、装置、设备及存储介质，涉及计算机技术领域。该方法包括：获取目标歌曲的音乐数据；将音乐数据输入内容信息生成模型进行处理，输出与音乐数据对应的目标内容信息，其中，内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；将音乐数据输入融合模型进行音色融合处理，输出目标音色信息；根据目标内容信息和目标音色信息，生成与目标歌曲对应的频谱信息；利用预设的音频合成策略，对频谱信息进行音频合成处理，生成目标歌曲音频。通过对解耦后的音色信息进行多音色融合，按任意比例融合生成新的目标音色信息，从而生成表现力强的目标歌曲音频。标歌曲音频。标歌曲音频。

全部详细技术资料下载

【技术实现步骤摘要】
一种歌声合成方法、装置、设备及存储介质

[0001]本专利技术涉及计算机
，尤其涉及一种歌声合成方法、装置、设备及存储介质。

技术介绍

[0002]歌声合成是基于歌词、节奏以及音高等信息的声谱来合成的虚拟歌声技术。现有的歌声合成技术，通常直接使用歌谱中的音符、音素、音符时长、音高等信息进行声学特征预测。
[0003]大部分的歌声合成都是基于多个歌唱家歌唱的方式，通过嵌入一个线性层来学习不同的音色信息，这种情况存在一个很大的不足就是在数据量小的情况下会出现学习效果很差的情况，并且这种方式无法进行有效的音色创造，也无法进行细粒度音色融合，合成后的歌曲音频表现力也很差。

技术实现思路

[0004]有鉴于此，本专利技术提供一种歌声合成方法、装置、设备及存储介质，实现通过对解耦后的音色信息进行多音色融合，按任意比例融合生成新的目标音色信息，从而生成表现力强的目标歌曲音频。
[0005]第一方面，本专利技术提供一种歌声合成方法，包括：获取目标歌曲的音乐数据；将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。
...

【技术保护点】

【技术特征摘要】
1.一种歌声合成方法，其特征在于，包括：获取目标歌曲的音乐数据；将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。2.根据权利要求1所述的一种歌声合成方法，其特征在于，所述将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，包括：获取所述音乐数据的音节信息和电子乐谱信息；将所述音节信息和所述电子乐谱信息输入所述内容信息生成模型，输出所述目标内容信息。3.根据权利要求1所述的一种歌声合成方法，其特征在于，所述将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，包括：将所述音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息；将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理，根据预设融合策略生成所述目标音色信息。4.根据权利要求3所述的一种歌声合成方法，其特征在于，所述根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息，包括：利用多头注意力块和残差块，将位于每一层的所述目标内容信息和所述目标音色信息分别进行归一化处理，得到每一层对应的归一化数据；按预设顺序将多层所述归一化数据拼接处理成初始频谱数据；将所述初始频谱数据输入注意力模型中，生成所述频谱信息。5.根据权利要求1所述的一种歌声合成方法，其特征在于，所述利用预设的音频合成策...

【专利技术属性】
技术研发人员：王春惠，何星，
申请(专利权)人：北京红棉小冰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人