歌唱合成优化方法、电子设备及存储介质技术

技术编号:41833304 阅读:18 留言:0更新日期:2024-06-27 18:17
本申请公开了一种歌唱合成优化方法、电子设备及存储介质,所述方法包括以下步骤:通过谐波加噪声模型从第一随机噪声中提取第一训练谐波含量信息和第一训练噪声信息;通过语义分割网络从第一训练谐波含量信息和第一训练噪声信息中提取第一训练潜变量特征,将第一随机噪声中的训练原始梅尔声谱图序列和第一训练潜变量特征输入扩展音频合成模型进行歌唱合成得到第一训练生成音频;将第一训练生成音频和第一真实音频输入鉴别器得到第一鉴别结果;根据第一训练生成音频与第一真实音频之间的差异以及第一鉴别结果对生成器进行迭代优化。本申请解决了相关技术中用于SVS任务的神经声码器难以同时保证较高的语音质量以及较快的训练速度的技术问题。

【技术实现步骤摘要】

本申请涉及歌唱语音合成领域,尤其涉及一种歌唱合成优化方法、电子设备及存储介质


技术介绍

1、随着深度学习的发展,基于神经网络的音频处理在生成逼真和自然的声音和语音方面取得了巨大成功。在这些任务中,歌唱语音合成(svs,singing voice synthesis)引起了学术界和nlp(natural language processing,自然语言处理)产业界的广泛关注。

2、与文本到语音任务(tts,text to speech)不同,svs任务旨在生成具有更高采样率(例如48khz)的高保真歌唱声音,以实现更好的听觉感知。为此,许多用于svs任务的神经声码器在其用于tts任务的对应物的基础上进行了改进。然而,相关技术中,用于svs任务的神经声码器,若要取得良好的性能,训练时收敛速度则较慢,若采用一些轻量级的声码器,虽然可以较快地收敛,但其推理结果失真,在人声生成方面的糟糕表现不能满足svs任务的需要。虽然训练速度和语音质量之间的折衷对于许多svs来说是常见的,但我们的目标是在保持高语音质量的同时突破极限,加快训练速度


本文档来自技高网...

【技术保护点】

1.一种歌唱合成优化方法,其特征在于,所述歌唱合成优化方法应用于第一设备,所述第一设备上部署有生成器和鉴别器,其中,所述生成器包括谐波加噪声模型、语义分割网络和扩展音频合成模型;所述歌唱合成优化方法包括以下步骤:

2.如权利要求1所述的歌唱合成优化方法,其特征在于,所述第一随机噪声包括训练原始梅尔声谱图序列、训练原始音高序列和训练原始响度序列,所述谐波加噪声模型包括第一多层感知机层、循环神经网络、第二多层感知机层和全连接层;

3.如权利要求1所述的歌唱合成优化方法,其特征在于,所述第一训练潜变量特征为第一训练潜变量序列,所述扩展音频合成模型包括残差模型;所述将所述...

【技术特征摘要】

1.一种歌唱合成优化方法,其特征在于,所述歌唱合成优化方法应用于第一设备,所述第一设备上部署有生成器和鉴别器,其中,所述生成器包括谐波加噪声模型、语义分割网络和扩展音频合成模型;所述歌唱合成优化方法包括以下步骤:

2.如权利要求1所述的歌唱合成优化方法,其特征在于,所述第一随机噪声包括训练原始梅尔声谱图序列、训练原始音高序列和训练原始响度序列,所述谐波加噪声模型包括第一多层感知机层、循环神经网络、第二多层感知机层和全连接层;

3.如权利要求1所述的歌唱合成优化方法,其特征在于,所述第一训练潜变量特征为第一训练潜变量序列,所述扩展音频合成模型包括残差模型;所述将所述第一随机噪声中的训练原始梅尔声谱图序列和所述第一训练潜变量特征输入扩展音频合成模型进行歌唱合成,得到第一训练生成音频的步骤包括:

4.如权利要求1所述的歌唱合成优化方法,其特征在于,所述鉴别器包括多周期鉴别器和多尺度-多频带-短时傅里叶变换鉴别器,所述第一鉴别结果包括第一概率、第二概率、第三概率和第四概率;所述将所述第一训练生成音频和所述第一真实音频输入所述鉴别器,得到第一鉴别结果的步骤包括:

5.如权利要求4所述的歌唱合成优化方法,其特征在于,所述多尺度-多频带-短时傅里叶变换鉴别器包括多个二维卷积层;所述将所述第一训练生成音频输入所述多尺度-多频带-短时傅里叶变换鉴别器,得到所述第一训练生成音频为真的第二概率的步骤包括:

6.如权利要求1所述的歌唱合成优化方法,其特征在于,所述根据所述第一训练生成音频与所述第一真实音频之间的差异以及所述第一鉴别结果,对所述生成器进行迭代优化的步骤包括:

7.如权利要求6所述的歌唱合成优化方法,其特征在于,所述第一鉴别结果包括所述第一训练生成音频为真的第五概率;所述根据所...

【专利技术属性】
技术研发人员:张博文朱叶凡
申请(专利权)人:浙江吉利控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1