音频合成方法、装置、设备及介质制造方法及图纸

技术编号:32963024 阅读:9 留言:0更新日期:2022-04-09 10:56
本申请公开了一种音频合成方法、装置、设备及介质,涉及机器学习领域。该方法包括:获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图;对风格频谱相位图进行编码得到风格编码,对内容频谱相位图进行编码得到内容编码;根据风格编码和所述内容编码,得到合成音频的输出频谱相位图;根据输出频谱相位图合成所述合成音频,合成音频的风格是以风格参考音频为参考的,合成音频的内容是以内容参考音频为参考的。本申请会根据风格参考音频和内容参考音频的频谱相位图来合成音频,合成音频的效果较好。音频的效果较好。音频的效果较好。

【技术实现步骤摘要】
音频合成方法、装置、设备及介质


[0001]本申请涉及机器学习领域,特别涉及一种音频合成方法、装置、设备及介质。

技术介绍

[0002]音频合成是指将两段或两段以上音频通过技术手段合成为一段音频。
[0003]相关技术会使用音频合成模型,将几段待合成的音频输入到音频合成模型中,由音频合成模型输出合成音频。
[0004]当待合成的音频的时长较短时,使用相关技术难以得到较好的合成音频。

技术实现思路

[0005]本申请实施例提供了一种音频合成方法、装置、设备及介质,该方法会根据风格音频和内容音频的频谱信息得到合成音频,合成效果较好。所述技术方案如下:
[0006]根据本申请的一个方面,提供了一种音频合成方法,该方法包括:
[0007]获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图;
[0008]对所述风格频谱相位图进行编码得到风格编码,对所述内容频谱相位图进行编码得到内容编码;
[0009]根据所述风格编码和所述内容编码,得到合成音频的输出频谱相位图;
[0010]根据所述输出频谱相位图合成所述合成音频,所述合成音频的风格是以所述风格参考音频为参考的,所述合成音频的内容是以所述内容参考音频为参考的。
[0011]根据本申请的另一个方面,提供了一种音频合成装置,该装置包括:
[0012]获取模块,用于获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图;
[0013]编码模块,用于对所述风格频谱相位图进行编码得到风格编码,对所述内容频谱相位图进行编码得到内容编码;
[0014]合成模块,用于根据所述风格编码和所述内容编码,得到合成音频的输出频谱相位图;
[0015]所述合成模块,还用于根据所述输出频谱相位图合成所述合成音频,所述合成音频的风格是以所述风格参考音频为参考的,所述合成音频的内容是以所述内容参考音频为参考的。
[0016]在本申请的一个可选设计中,所述合成模块,还用于将所述风格编码投影到权重空间,得到自适应权重;根据所述自适应权重,对所述内容编码进行二维卷积和上采样,得到所述合成音频的所述输出频谱相位图。
[0017]在本申请的一个可选设计中,所述合成模块,还用于将所述内容编码作为特征图进行二维卷积,得到内容特征图;将所述自适应权重作为权重,自适应归一化所述内容特征图,得到归一化后的内容特征图;上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。
[0018]在本申请的一个可选设计中,所述计算机设备包括生成网络,所述生成网络包括卷积网络层、自适应归一化网络层和上采样网络层;所述合成模块,还用于调用所述卷积网络层,将所述内容编码作为特征图进行二维卷积,得到内容特征图;调用所述自适应归一化网络层,将所述自适应权重作为权重,自适应归一化所述内容特征图,得到所述归一化后的内容特征图;调用所述上采样网络层,上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。
[0019]在本申请的一个可选设计中,所述合成模块,还用于合并所述风格编码和所述内容编码,得到潜码向量;将所述潜码向量作为特征图进行二维卷积,得到内容特征图;归一化所述内容特征图,得到归一化后的内容特征图;上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。
[0020]在本申请的一个可选设计中,所述计算机设备包括生成网络,所述生成网络包括卷积网络层、归一化网络层和上采样网络层;所述合成模块,还用于调用所述卷积网络层,将所述潜码向量作为特征图进行二维卷积,得到内容特征图;调用所述归一化网络层,归一化所述内容特征图,得到所述归一化后的内容特征图;调用所述上采样网络层,上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。
[0021]在本申请的一个可选设计中,所述计算机设备包括编码网络,所述编码网络包括风格编码子网络和内容编码子网络;所述编码模块,还用于调用所述风格编码子网络,对所述风格频谱相位图进行二维卷积和下采样,得到所述风格编码;调用所述内容编码子网络,对所述内容频谱相位图进行二维卷积和下采样得到所述内容编码。
[0022]根据本申请的一个方面,提供了一种音频合成模型的训练方法,该方法包括:
[0023]获取训练数据集,所述训练数据集包括样本音频的样本频谱相位图;
[0024]调用所述编码网络,对样本风格频谱相位图进行编码得到样本风格编码,对样本内容频谱相位图进行编码得到样本内容编码;
[0025]调用所述生成网络,根据所述样本风格编码和所述样本内容编码,得到样本合成音频的样本输出频谱相位图,所述样本合成音频的风格是以样本风格参考音频为参考的,所述样本合成音频的内容是以样本内容参考音频为参考的;
[0026]调用所述判别网络,根据所述样本输出频谱相位图和样本频谱相位图,得到生成图像判别结果、真实样本判别结果、生成图像分类结果和真实样本分类结果;
[0027]根据所述生成图像判别结果、所述真实样本判别结果、所述生成图像分类结果和所述真实样本分类结果,对所述音频合成模型进行训练。
[0028]根据本申请的一个方面,提供了一种音频合成模型的训练装置,音频合成模型包括编码网络、生成网络和判别网络,该装置包括:
[0029]样本获取模块,用于获取训练数据集,所述训练数据集包括样本音频的样本频谱相位图;
[0030]样本编码模块,用于调用所述编码网络,对样本风格频谱相位图进行编码得到样本风格编码,对样本内容频谱相位图进行编码得到样本内容编码;
[0031]样本合成模块,用于调用所述生成网络,根据所述样本风格编码和所述样本内容编码,得到样本合成音频的样本输出频谱相位图,所述样本合成音频的风格是以样本风格参考音频为参考的,所述样本合成音频的内容是以样本内容参考音频为参考的;
[0032]判别模块,用于调用所述判别网络,根据所述样本输出频谱相位图和样本频谱相位图,得到生成图像判别结果、真实样本判别结果、生成图像分类结果和真实样本分类结果;
[0033]训练模块,用于根据所述生成图像判别结果、所述真实样本判别结果、所述生成图像分类结果和所述真实样本分类结果,对所述音频合成模型进行训练。
[0034]在本申请的一个可选设计中,所述训练模块,还用于根据所述生成图像判别结果和所述真实样本判别结果,计算得到对抗损失,所述对抗损失用于表示所述生成网络和所述判别网络进行对抗所产生的损失;根据所述对抗损失,对所述生成网络进行训练。
[0035]在本申请的一个可选设计中,所述训练模块,还用于获取生成图像分类特征和真实样本分类特征;根据所述生成图像分类结果、所述真实样本分类结果、所述生成图像分类特征和所述真实样本分类特征,计算得到内容损失,所述内容损失用于表示样本输出频谱相位图在音频内容上的损失;根据所述内容损失,对所述判别网络进行训练。
[0036]在本申请的一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频合成方法,其特征在于,应用于计算机设备中,所述方法包括:获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图;对所述风格频谱相位图进行编码得到风格编码,对所述内容频谱相位图进行编码得到内容编码;根据所述风格编码和所述内容编码,得到合成音频的输出频谱相位图;根据所述输出频谱相位图合成所述合成音频,所述合成音频的风格是以所述风格参考音频为参考的,所述合成音频的内容是以所述内容参考音频为参考的。2.根据权利要求1所述的方法,其特征在于,所述根据所述风格编码和所述内容编码,得到合成音频的输出频谱相位图,包括:将所述风格编码投影到权重空间,得到自适应权重;根据所述自适应权重,对所述内容编码进行二维卷积和上采样,得到所述合成音频的所述输出频谱相位图。3.根据权利要求2所述的方法,其特征在于,所述根据所述自适应权重,对所述内容编码进行二维卷积和上采样,得到所述合成音频的所述输出频谱相位图,包括:将所述内容编码作为特征图进行二维卷积,得到内容特征图;将所述自适应权重作为权重,自适应归一化所述内容特征图,得到归一化后的内容特征图;上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。4.根据权利要求3所述的方法,其特征在于,所述计算机设备包括生成网络,所述生成网络包括卷积网络层、自适应归一化网络层和上采样网络层;所述将所述内容编码作为特征图进行二维卷积,得到内容特征图,包括:调用所述卷积网络层,将所述内容编码作为特征图进行二维卷积,得到内容特征图;所述将所述自适应权重作为权重,自适应归一化所述内容特征图,得到归一化后的内容特征图,包括:调用所述自适应归一化网络层,将所述自适应权重作为权重,自适应归一化所述内容特征图,得到所述归一化后的内容特征图;所述上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图,包括:调用所述上采样网络层,上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。5.根据权利要求1所述的方法,其特征在于,所述根据所述风格编码和所述内容编码,得到合成音频的输出频谱相位图,包括:合并所述风格编码和所述内容编码,得到潜码向量;将所述潜码向量作为特征图进行二维卷积,得到内容特征图;归一化所述内容特征图,得到归一化后的内容特征图;上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。6.根据权利要求5所述的方法,其特征在于,所述计算机设备包括生成网络,所述生成网络包括卷积网络层、归一化网络层和上采样网络层;所述将所述潜码向量作为特征图进行二维卷积,得到内容特征图,包括:
调用所述卷积网络层,将所述潜码向量作为特征图进行二维卷积,得到内容特征图;所述归一化所述内容特征图,得到归一化后的内容特征图,包括:调用所述归一化网络层,归一化所述内容特征图,得到所述归一化后的内容特征图;所述上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图,包括:调用所述上采样网络层,上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。7.根据权利要求1至6任一所述的方法,其特征在于,所述计算机设备包括编码网络,所述编码网络包括风格编码子网络和内容编码子网络;所述对所述风格频谱相位图进行编码得到风格编码,对所述内容频谱相位图进行编码得到内容编码,包括:调用所述风格编码子网络,对所述风格频谱相位图进行二维卷积和下采样,得到所述风格编码;调用所述内容编码子网络,对所述内容频谱相位图进行二维卷积和下采样得到所述内容编码。8.一种音频合成模型的训练方法,其特征在于,所述音频合成模型包括编码网络、生成网络和判别网络,所述方法包括:获取训练数据集,所述训练数据集包括样本音频的样本频谱相位图;调用所述编码网络,对样本风格频谱...

【专利技术属性】
技术研发人员:施力轩翁俊武王珏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1