【技术实现步骤摘要】
音频合成方法、装置、设备及介质
[0001]本申请涉及机器学习领域,特别涉及一种音频合成方法、装置、设备及介质。
技术介绍
[0002]音频合成是指将两段或两段以上音频通过技术手段合成为一段音频。
[0003]相关技术会使用音频合成模型,将几段待合成的音频输入到音频合成模型中,由音频合成模型输出合成音频。
[0004]当待合成的音频的时长较短时,使用相关技术难以得到较好的合成音频。
技术实现思路
[0005]本申请实施例提供了一种音频合成方法、装置、设备及介质,该方法会根据风格音频和内容音频的频谱信息得到合成音频,合成效果较好。所述技术方案如下:
[0006]根据本申请的一个方面,提供了一种音频合成方法,该方法包括:
[0007]获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图;
[0008]对所述风格频谱相位图进行编码得到风格编码,对所述内容频谱相位图进行编码得到内容编码;
[0009]根据所述风格编码和所述内容编码,得到合成音频的输出频谱相位图;
[0010]根据所述输出频谱相位图合成所述合成音频,所述合成音频的风格是以所述风格参考音频为参考的,所述合成音频的内容是以所述内容参考音频为参考的。
[0011]根据本申请的另一个方面,提供了一种音频合成装置,该装置包括:
[0012]获取模块,用于获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图;
[0013]编码模块,用于对所述风格频谱相位图进 ...
【技术保护点】
【技术特征摘要】
1.一种音频合成方法,其特征在于,应用于计算机设备中,所述方法包括:获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图;对所述风格频谱相位图进行编码得到风格编码,对所述内容频谱相位图进行编码得到内容编码;根据所述风格编码和所述内容编码,得到合成音频的输出频谱相位图;根据所述输出频谱相位图合成所述合成音频,所述合成音频的风格是以所述风格参考音频为参考的,所述合成音频的内容是以所述内容参考音频为参考的。2.根据权利要求1所述的方法,其特征在于,所述根据所述风格编码和所述内容编码,得到合成音频的输出频谱相位图,包括:将所述风格编码投影到权重空间,得到自适应权重;根据所述自适应权重,对所述内容编码进行二维卷积和上采样,得到所述合成音频的所述输出频谱相位图。3.根据权利要求2所述的方法,其特征在于,所述根据所述自适应权重,对所述内容编码进行二维卷积和上采样,得到所述合成音频的所述输出频谱相位图,包括:将所述内容编码作为特征图进行二维卷积,得到内容特征图;将所述自适应权重作为权重,自适应归一化所述内容特征图,得到归一化后的内容特征图;上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。4.根据权利要求3所述的方法,其特征在于,所述计算机设备包括生成网络,所述生成网络包括卷积网络层、自适应归一化网络层和上采样网络层;所述将所述内容编码作为特征图进行二维卷积,得到内容特征图,包括:调用所述卷积网络层,将所述内容编码作为特征图进行二维卷积,得到内容特征图;所述将所述自适应权重作为权重,自适应归一化所述内容特征图,得到归一化后的内容特征图,包括:调用所述自适应归一化网络层,将所述自适应权重作为权重,自适应归一化所述内容特征图,得到所述归一化后的内容特征图;所述上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图,包括:调用所述上采样网络层,上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。5.根据权利要求1所述的方法,其特征在于,所述根据所述风格编码和所述内容编码,得到合成音频的输出频谱相位图,包括:合并所述风格编码和所述内容编码,得到潜码向量;将所述潜码向量作为特征图进行二维卷积,得到内容特征图;归一化所述内容特征图,得到归一化后的内容特征图;上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。6.根据权利要求5所述的方法,其特征在于,所述计算机设备包括生成网络,所述生成网络包括卷积网络层、归一化网络层和上采样网络层;所述将所述潜码向量作为特征图进行二维卷积,得到内容特征图,包括:
调用所述卷积网络层,将所述潜码向量作为特征图进行二维卷积,得到内容特征图;所述归一化所述内容特征图,得到归一化后的内容特征图,包括:调用所述归一化网络层,归一化所述内容特征图,得到所述归一化后的内容特征图;所述上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图,包括:调用所述上采样网络层,上采样所述归一化后的内容特征图,得到所述合成音频的所述输出频谱相位图。7.根据权利要求1至6任一所述的方法,其特征在于,所述计算机设备包括编码网络,所述编码网络包括风格编码子网络和内容编码子网络;所述对所述风格频谱相位图进行编码得到风格编码,对所述内容频谱相位图进行编码得到内容编码,包括:调用所述风格编码子网络,对所述风格频谱相位图进行二维卷积和下采样,得到所述风格编码;调用所述内容编码子网络,对所述内容频谱相位图进行二维卷积和下采样得到所述内容编码。8.一种音频合成模型的训练方法,其特征在于,所述音频合成模型包括编码网络、生成网络和判别网络,所述方法包括:获取训练数据集,所述训练数据集包括样本音频的样本频谱相位图;调用所述编码网络,对样本风格频谱...
【专利技术属性】
技术研发人员:施力轩,翁俊武,王珏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。