【技术实现步骤摘要】
基于域分离的语音转换模型的训练方法及装置
本专利技术涉及语音语义技术,尤其涉及一种基于域分离的语音转换模型的训练方法及装置。
技术介绍
语音转换为用于将A说话人的语音转换成以B说话人的声音来输出A说话人的语音中内容。语音转换不仅可以用在语音合成的后端,还可以用于说话人身份保密,影视作品配音等方面。现有技术中,实现语音转换的方法包括:基于生成式对抗网络、变分自编码器、音素后验图、隐马尔科夫模型等,但是现有技术中训练后的语音转换模型在对存在非平衡语料的音频进行语音转换时,无法将该音频进行完整的语音转换,且该音频转换完成后,得到音频与目标说话者音色的相似度不高。
技术实现思路
针对上述技术问题,本专利技术实施例提供了一种基于域分离的语音转换模型的训练方法及装置,通过域分离技术对语音转换模型进行训练,使得训练后的语音转换模型不仅能将非平衡语料进行完整的语音转换,而且提高了语音转换准确率。第一方面,本专利技术实施例提供了一种基于域分离的语音转换模型的训练方法,其包括:接收预设的训练语音并对所述训练语 ...
【技术保护点】
1.一种基于域分离的语音转换模型的训练方法,其特征在于,包括以下步骤:/n接收预设的训练语音并对所述训练语音进行特征提取,得到所述训练语音的梅尔频率倒谱系数;/n将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中,得到所述训练语音的音素特征向量和音色特征向量;/n根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理,得到第一分类误差和第二分类误差;/n将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中,得到所述梅尔频率倒谱系数的重构误差;/n根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的 ...
【技术特征摘要】
1.一种基于域分离的语音转换模型的训练方法,其特征在于,包括以下步骤:
接收预设的训练语音并对所述训练语音进行特征提取,得到所述训练语音的梅尔频率倒谱系数;
将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中,得到所述训练语音的音素特征向量和音色特征向量;
根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理,得到第一分类误差和第二分类误差;
将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中,得到所述梅尔频率倒谱系数的重构误差;
根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。
2.根据权利要求1所述的基于域分离的语音转换模型的训练方法,其特征在于,所述对所述训练语音进行特征提取,得到所述训练语音的梅尔频率倒谱系数,包括:
获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中,得到所述训练语音的梅尔频谱;
将所述训练语音的梅尔频谱进行倒谱分析,得到所述训练语音的梅尔频率倒谱系数。
3.根据权利要求2所述的基于域分离的语音转换模型的训练方法,其特征在于,所述获取所述训练语音的频谱,包括:
对所述训练语音进行预处理,得到预处理后的训练语音;
将所述预处理后的训练语音进行快速傅里叶变换,得到所述训练语音的频谱。
4.根据权利要求1所述的基于域分离的语音转换模型的训练方法,其特征在于,所述根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理,得到第一分类误差和第二分类误差,包括:
将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中,得到所述第一分类误差;
将所述音色特征向量输入至预置的第二分类器中,得到所述第二分类误差。
5.根据权利要求4所述的基于域分离的语音转换模型的训练方法,其特征在于,所述根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失,包括:
根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失;
根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。
6.根据权利要求5所述的...
【专利技术属性】
技术研发人员:陈闽川,马骏,王少军,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。