歌声合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30522216 阅读:15 留言:0更新日期:2021-10-27 23:06
本发明专利技术公开了一种歌声合成方法、装置、计算机设备及存储介质,应用于计算机技术领域。本发明专利技术提供的方法包括:获取目标歌曲的音乐数据,通过预设的编码器对所述音乐数据进行编码,生成音乐编码数据;将音乐数据编码输入到注意力机制网络进行编码,生成特征信息;将特征信息输入到歌声合成模型中,并生成第一声谱数据;对所述第一声谱数据进行解码,得到第一线性谱数据,并通过傅里叶变换方式,将所述第一线性谱数据转换成目标歌曲音频。本发明专利技术通过少量的训练数据训练得到歌声合成模型,提高了目标歌曲音频的合成效率,同时保证目标歌曲音频的合成效果。频的合成效果。频的合成效果。

【技术实现步骤摘要】
歌声合成方法、装置、计算机设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种歌声合成方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,语音合成技术在趋向成熟,在交通、教育。医疗和社交等领域得到了广泛的应用。如交通语音导航、语言学习发音、医疗语音控制等,便利了人们的工作和生活。
[0003]进一步的歌声合成系统(singing voice synthesis,SVS)是一种根据给定的乐谱和歌词信息生成自然的歌声的系统。SVS要求每个音节的持续时间和音调具有可控性。
[0004]目前的歌声合成系统采用深度神经网络的方式,将目标歌手的音频数据作为训练数据,输入到神经网络中进行训练,以采用该歌手的声音合成音频。
[0005]但是,这种方法需要大量的训练数据,且只能针对同一个歌手进行训练,得到同一个歌手的歌声合成音频。这种方法导致歌声合成系统的适用性不高,且需要大量训练数据,合成歌声的效率不高。

技术实现思路

[0006]本专利技术提供一种歌声合成方法、装置、计算机设备及存储介质,用以提高歌声合成的效率。
[0007]一种歌声合成的方法,包括:
[0008]获取目标歌曲的音乐数据,通过预设的编码器对音乐数据进行编码,生成音乐编码数据,其中,音乐数据包括歌词数据、声谱数据、音调数据以及目标歌手的音频数据,音乐编码包括歌词编码、声谱编码、音调编码和音频编码;
[0009]将歌词编码、音频编码输入到第一注意力机制模型进行编码,得到音色特征信息;
[0010]将音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码,得到风格特征信息;
[0011]将音色特征信息与风格特征信息输入到歌声合成模型中进行声谱合成,得到第一声谱数据;
[0012]对第一声谱数据进行解码,得到第一线性谱数据,并通过傅里叶变换方式,将第一线性谱数据转换成目标歌曲音频。
[0013]一种歌声合成装置,包括:
[0014]数据编码模块,用于获取目标歌曲的音乐数据,通过预设的编码器对音乐数据进行编码,生成音乐编码数据,其中,音乐数据包括歌词数据、声谱数据、音调数据以及目标歌手的音频数据,音乐编码包括歌词编码、声谱编码、音调编码和音频编码;
[0015]第一特征信息生成模块,用于将歌词编码、音频编码输入到第一注意力机制模型进行编码,得到音色特征信息;
[0016]第二特征信息生成模块,用于将音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码,得到风格特征信息;
[0017]声谱数据生成模块,用于将音色特征信息与风格特征信息输入到歌声合成模型中进行声谱合成,得到第一声谱数据;
[0018]目标音频生成模块,用于对第一声谱数据进行解码,得到第一线性谱数据,并通过傅里叶变换方式,将第一线性谱数据转换成目标歌曲音频。
[0019]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述歌声合成方法的步骤。
[0020]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述歌声合成方法的步骤。
[0021]本专利技术提供的歌声合成方法、装置、计算机设备及存储介质,通过对目标合成歌曲的音乐数据,通过预设的编码器对所述音乐数据进行编码,生成音乐编码数据,其中,音乐数据包括歌词数据、声谱数据、音调数据和音频数据,音乐数据编码包括歌词编码、声谱编码、音调编码和音频编码;将歌词编码、音频编码输入都第一注意力机制模型进行编码,得到音色特征信息,将音频编码、声谱编码、音调编码输入到第二注意力机制进行编码,得到风格特征信息;基于音色特征信息和风格特征信息,将音色特征信息和风格特征信息输入到预先训练的歌声合成模型中,进而保证合成的目标歌曲音频中携带音色特征和风格特征,保证合成的目标歌曲音频具有接近真人演唱的听觉效果,采用少量的数据输入到训练过的歌声合成模型,提高合成目标歌曲音频的效率。
附图说明
[0022]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术一实施例中歌声合成方法的一应用环境示意图;
[0024]图2是本专利技术一实施例中歌声合成方法的一流程图;
[0025]图3是本专利技术一实施例中歌声合成装置的结构示意图;
[0026]图4是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本申请提供的歌声合成方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成
的服务器集群来实现。
[0029]系统框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0030]用户可以使用终端设备通过网络与服务器交互,以接收或者发送消息等。
[0031]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Eperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Eperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
[0032]服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
[0033]需要说明的是,本专利技术实施例所提供的歌声合成方法由服务器执行,相应地,歌声合成装置设置于服务器中。
[0034]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器,本专利技术实施例中的终端设备具体可以对应的是实际生产中的应用系统。
[0035]在一实施例中,如图2所示,提供一种歌声合成方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤S101至S105:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌声合成方法,其特征在于,包括:获取目标歌曲的音乐数据,通过预设的编码器对所述音乐数据进行编码,生成音乐编码数据,其中,所述音乐数据包括歌词数据、声谱数据、音调数据以及目标歌手的音频数据,所述音乐编码包括歌词编码、声谱编码、音调编码和音频编码;将所述歌词编码、音频编码输入到第一注意力机制模型进行编码,得到音色特征信息;将所述音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码,得到风格特征信息;将所述音色特征信息与所述风格特征信息输入到歌声合成模型中进行声谱合成,得到第一声谱数据;对所述第一声谱数据进行解码,得到第一线性谱数据,并通过傅里叶变换方式,将所述第一线性谱数据转换成目标歌曲音频。2.根据权利要求1所述的歌声合成方法,其特征在于,所述通过预设的编码器对所述音乐数据进行编码,生成音乐编码数据的步骤还包括:获取所述歌词数据的音素特征,并通过所述文本编码器,生成所述歌词编码;获取所述音频数据的声纹特征,并通过所述歌手身份编码器,生成所述音频数据的音频编码;获取所述声谱数据的基频特征,并通过所述梅尔谱编码器,生成所述声谱数据的声谱编码;获取所述音调数据的音高特征,并通过所述音调编码器,生成所述音调数据的音调编码。3.根据权利要求1所述的歌声合成方法,其特征在于,所述将所述歌词编码、音频编码输入到第一注意力机制模型进行编码,得到音色特征信息的步骤包括:通过所述第一注意力机制模型,对所述歌词编码、所述音频编码进行处理,得到共振峰掩码向量;通过共振峰掩码解码器对所述共振峰掩码向量进行解码,得到所述音色特征信息。4.根据权利要求1所述的歌声合成方法,其特征在于,所述将所述音频编码、声谱编码、音调编码输入到第二注意力机制模型进行编码,得到风格特征信息的步骤包括:通过所述第二注意力机制模型,对所述音频编码、声谱编码、音调编码进行处理,生成音调特征向量;通过音调解码器对所述音调特征向量进行解码,得到所述风格特征信息。5.根据权利要求1至4任一项所述的歌声合成方法,其特征在于,所述将所述音色特征信息与所述风格特征信息输入到歌声合成模型中进行声谱合成,得到第一声谱数据的步骤包括:采用时值编码器对时值特征进行编码,得到时值特征向量;将所述时值特征向量、所述音色特征信息以及所述风格特征信息输入至所述歌声合成模...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1