歌声合成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：40779951 阅读：4 留言：0更新日期：2024-03-25 20:24

本申请涉及一种歌声合成方法、装置、计算机设备和存储介质。所述方法包括：获取待演唱歌曲对应的音素信息，将音素信息输入至预训练的注入有低秩分解矩阵的编码模型，得到音素编码特征；获取待演唱歌曲的音素时长信息，将音素编码特征和音素时长信息输入至特征展开模型，得到音素编码特征对应的展开特征；获取目标对象的基频特征，将展开特征和基频特征输入至预训练的注入有低秩分解矩阵的解码模型，得到音频解码特征；将音频解码特征输入至预训练的频谱生成模型，得到频谱特征，将频谱特征输入至声码器，生成目标歌声音频。采用本方法能够通过向歌声合成模型中注入预训练的低秩分解矩阵，提高模型合成音频的音色与目标对象的音色之间的相似度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频处理，特别是涉及一种歌声合成方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

1、随着音频处理技术的发展，出现了歌声合成技术，歌声合成技术可以基于音频数据，生成具有个性化音色的音频。

2、传统技术中，可根据目标对象的歌声数据对预训练的歌声合成模型的全部参数或部分参数进行调整，以实现音色迁移；也可通过将目标对象的音色特征输入至对应的模型中，由音色嵌入向量控制和调整音色，以使生成的音频的音色接近目标对象的音色。

3、然而，传统方法在歌声合成过程中，需要大量的歌声数据对歌声合成模型进行多次训练，而随着训练数据和训练次数的增加，歌声合成模型可能会不稳定，生成的音频的音色与目标对象的音色之间的差距较大，不利于提高模型合成音频的音色与目标对象的音色之间的相似度。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高模型合成音频的音色与目标音色之间的相似度的歌声合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种歌声合成方法，所述方法包括：

3、获取待演唱歌曲对应的音素信息，将所述音素信息输入至预训练的编码模型，得到音素编码特征；所述预训练的编码模型中注入有采用目标对象的人声音频训练得到的编码模型低秩分解矩阵；

4、获取所述待演唱歌曲的音素时长信息，将所述音素编码特征和所述音素时长信息输入至预训练的特征展开模型，得到所述音素编码特征对应的展开特征；>

5、获取所述目标对象的基频特征，将所述展开特征和所述基频特征输入至预训练的解码模型，得到音频解码特征；所述预训练的解码模型中注入有采用所述目标对象的人声音频训练得到的解码模型低秩分解矩阵；

6、将所述音频解码特征输入至预训练的频谱生成模型，得到频谱特征，将所述频谱特征输入至声码器，生成目标歌声音频；所述目标歌声音频包括以所述目标对象的音色演唱所述待演唱歌曲的歌声音频。

7、在其中一个实施例中，所述方法还包括：

8、采用训练样本数据对待训练的生成器进行训练，得到训练后的生成器；所述训练后的生成器包括训练后的编码模型、训练后的特征展开模型和训练后的解码模型；

9、固定所述训练后的生成器的模型参数，分别注入待训练的低秩分解矩阵至所述训练后的编码模型和所述训练后的解码模型，得到调整后的生成器；

10、采用所述训练样本数据对所述调整后的生成器中的低秩分解矩阵进行训练，得到预训练的生成器；所述预训练的生成器包括所述预训练的编码模型、所述预训练的特征展开模型和所述预训练的解码模型。

11、在其中一个实施例中，所述方法还包括：

12、响应于所述目标对象触发的模型训练请求，获取所述目标对象选择的样本音频；所述样本音频包括以所述目标对象的音色演唱歌曲得到的人声音频；

13、采用所述样本音频对所述预训练的生成器中的低秩分解矩阵进行训练，得到注入有所述编码模型低秩分解矩阵的所述预训练的编码模型，以及，注入有所述解码模型低秩分解矩阵的所述预训练的解码模型。

14、在其中一个实施例中，所述采用训练样本数据对待训练的生成器进行训练，得到训练后的生成器，包括：

15、将所述训练样本数据输入至所述待训练的生成器，得到所述训练样本数据对应的训练频谱特征；

16、获取待训练的判别器，将所述训练频谱特征输入至所述待训练的判别器；所述待训练的判别器用于输出针对所述训练频谱特征的判别值；所述判别值表征所述训练频谱特征的真实性；

17、对所述待训练的生成器和所述待训练的判别器进行对抗式训练，通过所述对抗式训练训练出所述训练后的生成器。

18、在其中一个实施例中，所述训练样本数据包括具有预设音色的训练音频和所述训练音频对应的训练歌词文本，所述待训练的生成器包括待训练的编码模型、待训练的特征展开模型和待训练的解码模型，所述将所述训练样本数据输入至所述待训练的生成器，得到所述训练样本数据对应的训练频谱特征，包括：

19、获取所述训练歌词文本的训练音素信息，将所述训练音素信息输入至所述待训练的编码模型，得到训练音素编码特征；

20、获取所述训练歌词文本的训练音素时长信息，将所述训练音素编码特征和所述训练音素时长信息输入至所述待训练的特征展开模型，得到所述训练音素编码特征对应的训练展开特征；

21、获取所述训练音频的训练音色特征，对所述训练展开特征和所述训练音色特征进行求和，得到所述训练展开特征对应的训练求和特征；

22、获取所述训练音频的训练基频特征，将所述训练求和特征和所述训练基频特征输入至所述待训练的解码模型，得到训练音频解码特征，将所述训练音频解码特征输入至所述预训练的频谱生成模型，得到所述训练频谱特征。

23、在其中一个实施例中，所述采用所述训练样本数据对所述调整后的生成器中的低秩分解矩阵进行训练，得到预训练的生成器，包括：

24、将所述训练样本数据输入至所述调整后的生成器，根据所述调整后的生成器输出的结果，确定针对所述训练后的编码模型的编码模型矩阵参数修订值和针对所述训练后的解码模型的解码模型矩阵参数修订值；

25、根据所述编码模型矩阵参数修订值，调整所述训练后的编码模型中的低秩分解矩阵，根据所述解码模型矩阵参数修订值，调整所述训练后的解码模型中的低秩分解矩阵，直至得到所述预训练的生成器。

26、在其中一个实施例中，所述得到预训练的生成器之后，所述方法还包括：

27、响应于所述目标对象触发的音色组合请求，获取所述目标对象选择的音色样本；所述音色样本包括以至少两种待组合音色演唱的歌曲；

28、采用所述音色样本对所述预训练的生成器中的低秩分解矩阵进行训练，得到所述音色组合请求对应的音色组合低秩分解矩阵。

29、在其中一个实施例中，所述采用所述音色样本对所述预训练的生成器中的低秩分解矩阵进行训练，得到所述音色组合请求对应的音色组合低秩分解矩阵，包括：

30、采用所述音色样本，训练所述预训练的生成器，得到所述音色样本对应的音色编码低秩分解矩阵和音色解码低秩分解矩阵；

31、获取所述音色样本对应的音色权重信息，根据所述音色权重信息，对所述音色样本对应的音色编码低秩分解矩阵进行加权求和，得到音色组合编码低秩分解矩阵，根据所述音色权重信息，对所述音色样本对应的音色解码低秩分解矩阵进行加权求和，得到音色组合解码低秩分解矩阵；

32、根据所述音色组合编码低秩分解矩阵和所述音色组合解码低秩分解矩阵，确定所述音色组合低秩分解矩阵。

33、第二方面，本申请还提供了一种歌声合成装置，所述装置包括：

34、音素编码模块，用于获取待演唱歌曲对应的音素信息，将所述音素信息输入至预训练的编码模型，得到音素编码特征；所述预训练的编码模型中注入有采用目标对象的人声本文档来自技高网...

【技术保护点】

1.一种歌声合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述采用训练样本数据对待训练的生成器进行训练，得到训练后的生成器，包括：

5.根据权利要求4所述的方法，其特征在于，所述训练样本数据包括具有预设音色的训练音频和所述训练音频对应的训练歌词文本，所述待训练的生成器包括待训练的编码模型、待训练的特征展开模型和待训练的解码模型，所述将所述训练样本数据输入至所述待训练的生成器，得到所述训练样本数据对应的训练频谱特征，包括：

6.根据权利要求2所述的方法，其特征在于，所述采用所述训练样本数据对所述调整后的生成器中的低秩分解矩阵进行训练，得到预训练的生成器，包括：

7.根据权利要求2所述的方法，其特征在于，所述得到预训练的生成器之后，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述采用所述音色样本对所述预训练的生成器中的低秩分解矩阵进行

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种歌声合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述采用训练样本数据对待训练的生成器进行训练，得到训练后的生成器，包括：

6.根据权利要求2所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：庄晓滨，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人