一种歌声合成方法、装置、设备及存储介质制造方法及图纸

技术编号:35926163 阅读:21 留言:0更新日期:2022-12-10 11:19
本发明专利技术提供一种歌声合成方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取目标歌曲的音乐数据;将音乐数据输入内容信息生成模型进行处理,输出与音乐数据对应的目标内容信息,其中,内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的;将音乐数据输入融合模型进行音色融合处理,输出目标音色信息;根据目标内容信息和目标音色信息,生成与目标歌曲对应的频谱信息;利用预设的音频合成策略,对频谱信息进行音频合成处理,生成目标歌曲音频。通过对解耦后的音色信息进行多音色融合,按任意比例融合生成新的目标音色信息,从而生成表现力强的目标歌曲音频。标歌曲音频。标歌曲音频。

【技术实现步骤摘要】
一种歌声合成方法、装置、设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种歌声合成方法、装置、设备及存储介质。

技术介绍

[0002]歌声合成是基于歌词、节奏以及音高等信息的声谱来合成的虚拟歌声技术。现有的歌声合成技术,通常直接使用歌谱中的音符、音素、音符时长、音高等信息进行声学特征预测。
[0003]大部分的歌声合成都是基于多个歌唱家歌唱的方式,通过嵌入一个线性层来学习不同的音色信息,这种情况存在一个很大的不足就是在数据量小的情况下会出现学习效果很差的情况,并且这种方式无法进行有效的音色创造,也无法进行细粒度音色融合,合成后的歌曲音频表现力也很差。

技术实现思路

[0004]有鉴于此,本专利技术提供一种歌声合成方法、装置、设备及存储介质,实现通过对解耦后的音色信息进行多音色融合,按任意比例融合生成新的目标音色信息,从而生成表现力强的目标歌曲音频。
[0005]第一方面,本专利技术提供一种歌声合成方法,包括:获取目标歌曲的音乐数据;将所述音乐数据输入内容信息生成模型进行处理,输出与所述音乐数据对应的目标内容信息,其中,所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的;将所述音乐数据输入融合模型进行音色融合处理,输出目标音色信息,其中,所述融合模型用于将所述音乐数据对应的音色信息互相融合;根据所述目标内容信息和所述目标音色信息,生成与所述目标歌曲对应的频谱信息;利用预设的音频合成策略,对所述频谱信息进行音频合成处理,生成目标歌曲音频。
[0006]优选地,根据本专利技术提供的一种歌声合成方法,所述将所述音乐数据输入内容信息生成模型进行处理,输出与所述音乐数据对应的目标内容信息,包括:获取所述音乐数据的音节信息和电子乐谱信息;将所述音节信息和所述电子乐谱信息输入所述内容信息生成模型,输出所述目标内容信息。
[0007]优选地,根据本专利技术提供的一种歌声合成方法,所述将所述音乐数据输入融合模型进行音色融合处理,输出目标音色信息,包括:将所述音乐数据输入声纹提取模型进行提取处理,提取出在每个所述音乐数据中
每个演唱者分别对应的初始音色信息;将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理,根据预设融合策略生成所述目标音色信息。
[0008]优选地,根据本专利技术提供的一种歌声合成方法,所述根据所述目标内容信息和所述目标音色信息,生成与所述目标歌曲对应的频谱信息,包括:利用多头注意力块和残差块,将位于每一层的所述目标内容信息和所述目标音色信息分别进行归一化处理,得到每一层对应的归一化数据;按预设顺序将多层所述归一化数据拼接处理成初始频谱数据;将所述初始频谱数据输入注意力模型中,生成所述频谱信息。
[0009]优选地,根据本专利技术提供的一种歌声合成方法,所述利用预设的音频合成策略,对所述频谱信息进行音频合成处理,生成目标歌曲音频,包括:利用所述音频合成策略调用预设的声码器;利用所述声码器对所述频谱信息进行音频合成处理,生成所述目标歌曲音频。
[0010]优选地,根据本专利技术提供的一种歌声合成方法,所述声纹提取模型的训练步骤,包括:获取音频训练样本;将所述音频训练样本输入卷积神经网络中进行训练,输出与所述音频训练样本对应的音色信息样本;计算所述音色信息样本和预设标准音色信息的信息差数据,根据所述信息差数据优化所述卷积神经网络,以得到所述声纹提取模型。
[0011]第二方面,本专利技术还提供一种歌声合成装置,包括:获取模块,用于获取目标歌曲的音乐数据;内容信息生成模块,用于将所述音乐数据输入内容信息生成模型进行处理,输出与所述音乐数据对应的目标内容信息,其中,所述内容信息生成模型是通过利用预设的歌声文本信息对初始神经网络进行训练得到的;音色信息生成模块,用于将所述音乐数据输入融合模型进行音色融合处理,输出目标音色信息,其中,所述融合模型用于将所述音乐数据对应的音色信息互相融合;频谱信息生成模块,用于根据所述目标内容信息和所述目标音色信息,生成与所述目标歌曲对应的频谱信息;音频合成模块,用于利用预设的音频合成策略,对所述频谱信息进行音频合成处理,生成目标歌曲音频。
[0012]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述歌声合成方法的步骤。
[0013]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述歌声合成方法的步骤。
[0014]第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述歌声合成方法的步骤。
[0015]本专利技术提供的一种歌声合成方法、装置、设备及存储介质,通过获取目标歌曲的音
乐数据;将所述音乐数据输入内容信息生成模型进行处理,输出与所述音乐数据对应的目标内容信息,其中,所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的;将所述音乐数据输入融合模型进行音色融合处理,输出目标音色信息,其中,所述融合模型用于将所述音乐数据对应的音色信息互相融合;根据所述目标内容信息和所述目标音色信息,生成与所述目标歌曲对应的频谱信息;利用预设的音频合成策略,对所述频谱信息进行音频合成处理,生成目标歌曲音频。实现通过对解耦后的音色信息进行多音色融合,按任意比例融合生成新的目标音色信息,从而生成表现力强的目标歌曲音频。
附图说明
[0016]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术提供的一种歌声合成方法的流程示意图;图2是本专利技术提供的图1中步骤S300的流程示意图;图3是本专利技术提供的一种歌声合成装置的结构示意图;图4是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0018]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]首先对本专利技术申请中的一些词汇作出解释:歌曲指的是流行音乐、古代音乐、民谣音乐等等。
[0020]歌声,指声带经头腔和喉腔共鸣产生的乐音,与说话时声音的主要区别在于特定音高上元音的拖长与否。
[0021]音乐是一种艺术形式和文化活动,其媒介是按时组织的、有规律的声波(机械波的一种),它的基本要素包括强弱、调性、时长、音色。
[0022]下面结合图1

图4描述本专利技术的一种歌声合成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌声合成方法,其特征在于,包括:获取目标歌曲的音乐数据;将所述音乐数据输入内容信息生成模型进行处理,输出与所述音乐数据对应的目标内容信息,其中,所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的;将所述音乐数据输入融合模型进行音色融合处理,输出目标音色信息,其中,所述融合模型用于将所述音乐数据对应的音色信息互相融合;根据所述目标内容信息和所述目标音色信息,生成与所述目标歌曲对应的频谱信息;利用预设的音频合成策略,对所述频谱信息进行音频合成处理,生成目标歌曲音频。2.根据权利要求1所述的一种歌声合成方法,其特征在于,所述将所述音乐数据输入内容信息生成模型进行处理,输出与所述音乐数据对应的目标内容信息,包括:获取所述音乐数据的音节信息和电子乐谱信息;将所述音节信息和所述电子乐谱信息输入所述内容信息生成模型,输出所述目标内容信息。3.根据权利要求1所述的一种歌声合成方法,其特征在于,所述将所述音乐数据输入融合模型进行音色融合处理,输出目标音色信息,包括:将所述音乐数据输入声纹提取模型进行提取处理,提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息;将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理,根据预设融合策略生成所述目标音色信息。4.根据权利要求3所述的一种歌声合成方法,其特征在于,所述根据所述目标内容信息和所述目标音色信息,生成与所述目标歌曲对应的频谱信息,包括:利用多头注意力块和残差块,将位于每一层的所述目标内容信息和所述目标音色信息分别进行归一化处理,得到每一层对应的归一化数据;按预设顺序将多层所述归一化数据拼接处理成初始频谱数据;将所述初始频谱数据输入注意力模型中,生成所述频谱信息。5.根据权利要求1所述的一种歌声合成方法,其特征在于,所述利用预设的音频合成策...

【专利技术属性】
技术研发人员:王春惠何星
申请(专利权)人:北京红棉小冰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1