音频生成模型的训练方法技术

技术编号:39577610 阅读:31 留言:0更新日期:2023-12-03 19:28
本申请公开了一种音频生成模型的训练方法

【技术实现步骤摘要】
音频生成模型的训练方法、音频生成方法、装置及设备


[0001]本申请实施例涉及人工智能
,特别涉及一种音频生成模型的训练方法

音频生成方法

装置及设备


技术介绍

[0002]音频生成技术是人工智能
的一个重要应用,通过使神经网络模型学习大量的文本数据和音频数据,得到音频生成模型,通过音频生成模型自动根据文本数据生成音频数据,实现从文本到音频(
Text

to

Speech

TTS
)的生成

然而,通过音频生成模型生成的音频存在发音错误的现象,使得音频质量较差


技术实现思路

[0003]本申请提供了一种音频生成模型的训练方法

音频生成方法

装置及设备,可以提高音频中发音的稳定性,提高音频质量,所述技术方案包括如下内容

[0004]第一方面,提供了一种音频生成模型的训练方法,所述方法包括:获取第一文本和第本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种音频生成模型的训练方法,其特征在于,所述方法包括:获取第一文本和第一音频,所述第一文本和所述第一音频的内容相同,所述第一文本包括多个第一音素,所述第一音频包括多个第一音频帧;通过第一网络模型确定所述第一文本包括的各个第一音素的分布特征,所述第一音素的分布特征用于描述所述第一音素且符合参考统计分布;通过所述第一网络模型确定所述第一音频包括的各个第一音频帧的分布特征,所述第一音频帧的分布特征用于描述所述第一音频帧且符合所述参考统计分布;确定从所述各个第一音素的分布特征到所述各个第一音频帧的分布特征的第一特征损失以及从所述各个第一音频帧的分布特征到所述各个第一音素的分布特征的第二特征损失;基于所述第一特征损失和所述第二特征损失对所述第一网络模型进行训练,得到音频生成模型,所述音频生成模型用于基于参考文本生成参考音频信号
。2.
根据权利要求1所述的方法,其特征在于,所述通过第一网络模型确定所述第一文本包括的各个第一音素的分布特征,包括:通过所述第一网络模型对所述第一文本进行编码,得到所述各个第一音素的文本特征;通过所述第一网络模型对所述各个第一音素的文本特征进行映射,得到所述各个第一音素的分布特征
。3.
根据权利要求2所述的方法,其特征在于,所述方法还包括:基于所述各个第一音素的分布特征和所述各个第一音频帧的分布特征,对所述各个第一音素和所述各个第一音频帧进行对齐,得到各个第一音素对应第一音频帧的第一数量;基于所述各个第一音素的文本特征,确定各个第一音素对应第一音频帧的第二数量;确定所述各个第一音素对应第一音频帧的第一数量和第二数量之间的数量损失;所述基于所述第一特征损失和所述第二特征损失对所述第一网络模型进行训练,得到音频生成模型,包括:基于所述数量损失

所述第一特征损失和所述第二特征损失对所述第一网络模型进行训练,得到音频生成模型
。4.
根据权利要求1所述的方法,其特征在于,所述通过所述第一网络模型确定所述第一音频包括的各个第一音频帧的分布特征,包括:对所述第一音频进行编码,得到所述各个第一音频帧的音频特征;通过所述第一网络模型对所述各个第一音频帧的音频特征进行映射,得到所述各个第一音频帧的分布特征
。5.
根据权利要求4所述的方法,其特征在于,所述第一音频为第一样本音频信号或者所述第一样本音频信号的谱图,所述第一网络模型包括第一解码器;所述方法还包括:通过所述第一解码器对所述各个第一音频帧的音频特征进行解码,得到第一重构音频信号;确定所述第一样本音频信号和所述第一重构音频信号之间的第一信号损失;所述基于所述第一特征损失和所述第二特征损失对所述第一网络模型进行训练,得到音频生成模型,包括:
基于所述第一信号损失

所述第一特征损失和所述第二特征损失,对所述第一网络模型进行训练,得到音频生成模型
。6.
根据权利要求5所述的方法,其特征在于,所述第一解码器包括第一输入层

至少两个第一卷积层和第一输出层,任一个第一卷积层包括至少两个相同空洞系数不同卷积尺寸的卷积核,不同第一卷积层的卷积核对应不同空洞系数;所述通过所述第一解码器对所述各个第一音频帧的音频特征进行解码,得到第一重构音频信号,包括:通过所述第一输入层将所述各个第一音频帧的音频特征转化为第一通道数的输入特征;通过第一个第一卷积层包括的各个卷积核,对所述第一通道数的输入特征进行空洞卷积,得到各个卷积核对应的卷积结果,将所述各个卷积核对应的卷积结果进行相加,得到所述第一个第一卷积层的输出特征;对于除所述第一个第一卷积层之外的任一个第一卷积层,通过所述任一个第一卷积层包括的各个卷积核,对上一个第一卷积层的输出特征进行空洞卷积,得到各个卷积核对应的卷积结果,将所述各个卷积核对应的卷积结果进行相加,得到所述任一个第一卷积层的输出特征;通过所述第一输出层将最后一个第一卷积层的输出特征转化为所述第一重构音频信号
。7.
根据权利要求1至6任一项所述的方法,其特征在于,所述基于所述第一特征损失和所述第二特征损失对所述第一网络模型进行训练,得到音频生成模型,包括:基于所述第一特征损失和所述第二特征损失调整所述第一网络模型的参数,得到第二网络模型,所述第二网络模型包括特征处理网络和第二解码器;获取第二音频,所述第二音频为第二样本音频信号或者所述第二样本音频信号的谱图,所述第二音频包括多个第二音频帧;对所述第二音频进行编码,得到各个第二音频帧的音频特征;通过所述第二解码器对所述各个第二音频帧的音频特征进行解码,得到第二重构音频信号;确定所述第二样本音频信号和所述第二重构音频信号之间的第二信号损失;基于所述第二信号损失调整所述第二解码器的参数,得到第三解码器;基于所述特征处理网络和所述第三解码器,确定所述音频生成模型
。8.
根据权利要求7所述的方法,其特征在于,所述方法还包括:获取第二文本,所述第二文本和所述第二音频的内容相同,所述第二文本包括多个第二音素;通过所述特征处理网络确定所述第二文本包括的各个第二音素的分布特征,对所述各个第二音频帧的音频特征进行映射,得到所述各个第二音频帧的分布特征;确定从所述各个第二音素的分布特征到所述各个第二音频帧的分布特征的第三特征损失以及从所述各个第二音频帧的分布特征到所述各个第二音素的分布特征的第四特征损失;所述基于所述第二信号损失调整所述第二解码器的参数,得到第三解码器,包括:
基于所述第三特征损失

所述第四特征损失和所述第二信号损失调整所述第二解码器的参数,得到第三解码器
。9.
根据权利要求7所述的方法,其特征在于,所述基于所述特征处理网络和所述第三解码器,确定所述音频生成模型,包括:获取第三音频,所述第三音频为第三样本音频信号或者所述第三样本音频信号的谱图,所述第三音频包括多个第三音频帧;对所述第三音频进行编码,得到各个第三音频帧的音频特征;通过所述第三解码器对所述各个第三音频帧的音频特征进行解码,得到第三重构音频信号;通过第四解码器对所述各个第三音频帧的音频特征进行解码,得到第四重构音频信号,所述第四解码器的参数数量小于所述第三解码器的参数数量;基于所述第三重构音频信号和所述第四重构音频信号之间的第三信号损失;基于所述第三信号损失调整所述第...

【专利技术属性】
技术研发人员:郑艺斌李新辉卢鲤
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1