歌声合成方法及相关装置制造方法及图纸

技术编号:37507132 阅读:17 留言:0更新日期:2023-05-07 09:44
本申请实施例提供了一种歌声合成方法及相关装置,其中方法包括:将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中,获得待合成音频的共振峰表征信息,共振峰表征信息为无音色信息的表征信息;将待合成音频的共振峰表征信息以及音高信息输入到目标声学模型中的音色转换模型中,获得梅尔谱特征,合成的梅尔谱特征包括目标对象的音色信息,音色转换模型是基于目标对象的样本音频训练获得的;将梅尔谱特征输入到声码器中,获得合成的音频信号。可见,采用本申请实施例,可对任意音色跨语种的歌声进行合成。可对任意音色跨语种的歌声进行合成。可对任意音色跨语种的歌声进行合成。

【技术实现步骤摘要】
歌声合成方法及相关装置


[0001]本申请涉及计算机
,尤其涉及一种歌声合成方法及相关装置。

技术介绍

[0002]随着人工智能在音乐领域的不断发展,音乐应用中的歌声合成技术也越来越受到关注,其中,歌声合成技术是语音合成技术的一个新的应用,其主要是通过计算机程序,将乐谱信息和歌词合成接近真人演唱的歌声。目前,在进行歌声合成时,一般采用数据驱动的神经网络模型来实现,该方法支持的语种(即语言种类,例如国语、粤语、闽南语等)和目标音色对应的歌声数据有关系,其中,歌声数据包括指定人员(专业歌手)发出的演唱声音和伴奏乐器的声音(当没有伴奏乐器时,歌声数据即为指定人员发出的演唱声音),且语种和目标音色之间不能解耦,从而,使用该方法无法对任意音色跨语种的歌声进行合成。因此,如何实现跨语种的歌声合成成为了一个亟待解决的问题。

技术实现思路

[0003]本申请实施例提供一种歌声合成方法及相关装置,可对任意音色跨语种的歌声进行合成。
[0004]第一方面,本申请实施例提供了一种歌声合成方法,该方法包括:
[0005]将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中,获得待合成音频的共振峰表征信息,共振峰表征信息为无音色信息的表征信息;
[0006]将待合成音频的共振峰表征信息以及音高信息输入到目标声学模型中的音色转换模型中,获得梅尔谱特征,梅尔谱特征包括目标对象的音色信息,音色转换模型是基于目标对象的样本音频训练获得的;
[0007]将梅尔谱特征输入到声码器中,获得合成的音频信号。
[0008]本申请实施例中,利用共振峰模型可将待合成音频的音色信息和语种进行解耦,获得与音色无关的共振峰表征信息;将共振峰表征信息输入到目标对象对应的目标声学模型中的音色转换模型中,可得到包括目标对象音色信息的梅尔谱特征;将该梅尔谱特征输入到声码器中,可得到合成的音频信号。可见,采用本申请实施例,可对任意音色跨语种的歌声进行合成。
[0009]在一种可选的实施方式中,将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中之前,方法还包括:
[0010]获取训练样本音频集,训练样本音频集中包括多个对象的样本音频;
[0011]基于训练样本音频集中的每个样本音频对初始化的声学模型进行训练,得到训练后的声学模型;
[0012]将训练后的声学模型中的共振峰模型作为目标声学模型中的共振峰模型;
[0013]其中,初始化的声学模型包括初始化的共振峰模型和初始化的音色转换模型。
[0014]在一种可选的实施方式中,得到训练后的声学模型之后,方法还包括:
[0015]固定训练后的声学模型中共振峰模型的参数,并将目标对象对应的样本音频输入到训练后的声学模型中,对训练后的声学模型中的音色转换模型进行再次训练,得到训练后的音色转换模型;
[0016]将训练后的音色转换模型作为目标声学模型中的音色转换模型。
[0017]在一种可选的实施方式中,基于训练样本音频集中的每个样本音频对初始化的声学模型进行训练,得到训练后的声学模型,包括:
[0018]获取训练样本音频集中每个训练样本音频的音节序列、基频标记序列、音高信息、音色信息以及声学特征,声学特征为梅尔谱特征;
[0019]利用每个样本音频的音节序列、基频标记序列、音高信息、音色信息以及声学特征对初始化的声学模型进行训练,得到训练后的声学模型。
[0020]在一种可选的实施方式中,利用每个样本音频的音节序列、基频标记序列、音高信息、音色信息以及声学特征对初始化的声学模型进行训练,得到训练后的声学模型,包括:
[0021]将每个样本音频的音节序列、基频标记序列输入到初始化的共振峰模型中,得到每个样本音频的共振峰表征信息;
[0022]将每个样本音频的共振峰表征信息、音高信息以及音色信息输入到初始化的音色转换模型中,获得每个样本音频的预测梅尔谱特征;
[0023]基于每个样本音频的预测梅尔谱特征,确定每个样本音频的损失值;
[0024]当损失值不满足停止训练条件时,根据损失值,对初始化的声学模型包括的初始化的共振峰模型、初始化的音色转换模型的参数进行调整,得到训练后的声学模型。
[0025]在一种可选的实施方式中,基于每个样本音频的预测梅尔谱特征,确定每个样本音频的损失值,包括:
[0026]确定每个样本音频的预测梅尔谱特征和声学特征之间的最小均方误差,以及确定每个样本音频的预测梅尔谱特征对应的判别器误差;
[0027]基于最小均方误差和判别器误差,确定每个样本音频的损失值。
[0028]在一种可选的实施方式中,确定每个样本音频的预测梅尔谱特征对应的判别器误差,包括:
[0029]将每个样本音频的预测梅尔谱特征输入到初始化的判别器中,获得每个样本音频的预测梅尔谱特征的判别结果,判别结果包括预测梅尔谱特征是真实的梅尔谱特征,或预测梅尔谱特征是合成的梅尔谱特征;
[0030]基于每个样本音频的预测梅尔谱特征的判别结果,确定每个样本音频的预测梅尔谱特征对应的判别器误差。
[0031]在一种可选的实施方式中,确定每个样本音频的损失值之后,方法还包括:
[0032]当损失值不满足停止训练条件时,根据损失值对初始化的判别器中的参数进行调整,得到训练后的判别器。
[0033]第二方面,本申请实施例提供了一种歌声合成装置,该装置包括:
[0034]处理单元,用于将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中,获得待合成音频的共振峰表征信息,共振峰表征信息为无音色信息的表征信息;
[0035]处理单元,还用于将待合成音频的共振峰表征信息以及音高信息输入到目标声学
模型中的音色转换模型中,获得梅尔谱特征,合成的梅尔谱特征包括目标对象的音色信息,音色转换模型是基于目标对象的样本音频训练获得的;
[0036]处理单元,还用于将梅尔谱特征输入到声码器中,获得合成的音频信号。
[0037]其中,该歌声合成装置中各个单元可选的实施方式可参见前述第一方面中的描述,此处不再进行赘述。
[0038]第三方面,本申请实施例还提供了一种计算机设备,包括:存储器、处理器,其中,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面所述的方法。
[0039]第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
[0040]第五方面,本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的第一方面所述的方法。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌声合成方法,其特征在于,所述方法包括:将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中,获得所述待合成音频的共振峰表征信息,所述共振峰表征信息为无音色信息的表征信息;将所述待合成音频的共振峰表征信息以及音高信息输入到所述目标声学模型中的音色转换模型中,获得梅尔谱特征,所述合成的梅尔谱特征包括所述目标对象的音色信息,所述音色转换模型是基于所述目标对象的样本音频训练获得的;将所述梅尔谱特征输入到声码器中,获得合成的音频信号。2.根据权利要求1所述的方法,其特征在于,所述将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中之前,所述方法还包括:获取训练样本音频集,所述训练样本音频集中包括多个对象的样本音频;基于所述训练样本音频集中的每个样本音频对初始化的声学模型进行训练,得到训练后的声学模型;将所述训练后的声学模型中的共振峰模型作为目标声学模型中的共振峰模型;其中,所述初始化的声学模型包括初始化的共振峰模型和初始化的音色转换模型。3.根据权利要求2所述的方法,其特征在于,所述得到训练后的声学模型之后,所述方法还包括:固定所述训练后的声学模型中共振峰模型的参数,并将目标对象对应的样本音频输入到所述训练后的声学模型中,对所述训练后的声学模型中的音色转换模型进行训练,得到训练后的音色转换模型;将所述训练后的音色转换模型作为所述目标声学模型中的音色转换模型。4.根据权利要求2所述的方法,其特征在于,所述基于所述训练样本音频集中的每个样本音频对初始化的声学模型进行训练,得到训练后的声学模型,包括:获取所述训练样本音频集中每个训练样本音频的音节序列、基频标记序列、音高信息、音色信息以及声学特征,所述声学特征为梅尔谱特征;利用所述每个样本音频的音节序列、基频标记序列、音高信息、音色信息以及声学特征对所述初始化的声学模型进行训练,得到所述训练后的声学模型。5.根据权利要求4所述的方法,其特征在于,所述利用所述每个样本音频的音节序列、基频标记序列、音高信息、音色信息以及声学特征对所述初始化的声学模型进行训练,得到所述训练后的声学模型,包括:将所述每个样本音频的...

【专利技术属性】
技术研发人员:庄晓滨陈梦宗旋
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1