语音转换模型的训练及语音转换方法、装置和相关设备制造方法及图纸

技术编号:34480640 阅读:30 留言:0更新日期:2022-08-10 08:56
本申请涉及人工智能技术,提出一种语音转换模型的训练及语音转换方法、装置和相关设备,该方法包括:将第一音色域语音数据和第二音色域语音数据输入至循环生成对抗网络以对循环生成对抗网络进行训练,获取循环生成对抗网络中判别器的判别结果;若需要对循环生成对抗网络中的生成器进行优化且根据判别结果确定进行梯度反转,则对根据生成器对应的损失函数计算得到的梯度进行反转,根据反转后的梯度对生成器的模型参数进行更新;若根据判别结果确定不进行梯度反转,则对根据生成器对应的损失函数计算梯度,根据梯度对生成器的模型参数进行更新,迭代训练直至模型收敛。通过本申请得到更加健壮的语音转换模型,同时增强了语音转换的准确性。转换的准确性。转换的准确性。

【技术实现步骤摘要】
语音转换模型的训练及语音转换方法、装置和相关设备


[0001]本申请涉及人工智能领域,尤其涉及一种语音转换模型的训练及语音转换方法、装置和相关设备。

技术介绍

[0002]语音转换(VD)是将源说话人的声音通过音色提取以及内容解耦转换为目标说话人的声音音色同时保持语音内容相同。其应用场景包括影视剧配音以及电子书阅读中声音音色转换以自动匹配不同的故事角色。
[0003]目前的语音转换方法主要是基于生成对抗网络(Generative Adversarial Network,简称GAN)的语音转换和基于条件VAE的语音转换。基于GAN的语音转换方法可以合成相似度较高的目标语音但是基于GAN的模型训练不稳定,基于条件VAE的方法训练比较简单但是很难全面学到和目标语音相同分布的隐变量。

技术实现思路

[0004]为了解决现有技术中语音转换的模型训练不稳定效果不佳或者难以全面学习到语音分布的技术问题。本申请提供了一种语音转换模型的训练及语音转换方法、装置和相关设备,其主要目的在于得到更加健壮的语音转换模型,同时增强了语音转换的准确性本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于循环对抗生成网络的语音转换模型的训练方法,其特征在于,所述语音转换模型的训练方法包括:获取第一音色域语音数据集和第二音色域语音数据集作为训练样本;将从所述第一音色域语音数据集中选取的第一音色域语音数据和从所述第二音色域语音数据集选取的第二音色域语音数据输入至构建的循环生成对抗网络以对所述循环生成对抗网络进行循环对抗训练,获取所述循环生成对抗网络中的判别器的判别结果;若需要对所述循环生成对抗网络中的生成器进行优化,则根据所述判别结果确定是否进行梯度反转;若根据所述判别结果确定进行梯度反转,则计算所述生成器对应的第一损失函数,对根据所述第一损失函数计算得到的第一梯度进行反转,根据反转后的第一梯度对所述生成器的模型参数进行更新;若根据所述判别结果确定不进行梯度反转,则计算所述生成器对应的第一损失函数,根据所述第一损失函数计算第一梯度,根据所述第一梯度对所述生成器的模型参数进行更新;若所述循环生成对抗网络未收敛,则重新执行上述将从所述第一音色域语音数据集中选取的第一音色域语音数据和从所述第二音色域语音数据集选取的第二音色域语音数据输入至构建的循环生成对抗网络以对所述循环生成对抗网络进行循环对抗训练的步骤,直至所述循环生成对抗网络收敛。2.根据权利要求1所述的方法,其特征在于,所述循环生成对抗网络包括第一生成器、第二生成器、第一判别器和第二判别器;所述将从所述第一音色域语音数据集中选取的第一音色域语音数据和从所述第二音色域语音数据集选取的第二音色域语音数据输入至构建的循环生成对抗网络以对所述循环生成对抗网络进行循环对抗训练,获取所述循环生成对抗网络中的判别器的判别结果,包括:通过所述第一生成器将第一音色域语音数据生成为仿第二音色域的第一生成语音数据,通过所述第二生成器对所述第一生成语音数据进行重构,得到仿第一音色域的第二生成语音数据;通过所述第二生成器将第二音色域语音数据生成为仿第一音色域的第三生成语音数据,通过所述第一生成器对所述第三生成语音数据进行重构,得到仿第二音色域的第四生成语音数据;通过所述第二判别器判断所述第一生成语音数据是否为所述第二音色域语音数据,得到第一判别结果;通过所述第一判别器判断所述第三生成语音数据是否为所述第一音色域语音数据,得到第二判别结果。3.根据权利要求2所述的方法,其特征在于,所述循环生成对抗网络还包括第一梯度反转层和第二梯度反转层;所述若根据所述判别结果确定进行梯度反转,则计算所述生成器对应的第一损失函数,对根据所述第一损失函数计算得到的第一梯度进行反转,根据反转后的第一梯度对所述生成器的模型参数进行更新,包括:
若所述第一判别结果为所述第一生成语音数据为所述第二音色域语音数据,则计算所述第一生成器对应的第一子损失函数,根据所述第一子损失函数计算所述第一生成器对应的第一子梯度,通过所述第一梯度反转层对所述第一子梯度进行反转,根据反转后的第一子梯度对所述第一生成器的模型参数进行更新,其中,所述第一子损失函数是根据所述第一音色域语音数据、第二音色域语音数据和第一转换语音数据计算得到的,所述第一转换语音数据包括所述第一生成语音数据、第二生成语音数据、第三生成语音数据、第四生成语音数据中的至少一种;若所述第二判别结果为所述第三生成语音数据为所述第一音色域语音数据,则计算所述第二生成器对应的第二子损失函数,根据所述第二子损失函数计算所述第二生成器对应的第二子梯度,通过所述第二梯度反转层对所述第二子梯度进行反转,根据反转后的第二子梯度对所述第二生成器的模型参数进行更新,其中,所述第二子损失函数是根据所述第一音色域语音数据、第二音色域语音数据和第二转换语音数据计算得到的,所述第二转换语音...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1