语音转换模型的训练、应用方法、装置、设备及存储介质制造方法及图纸

技术编号：29930981 阅读：53 留言：0更新日期：2021-09-04 18:59

本申请涉及语音处理技术，尤其涉及语音转换模型的训练、应用方法、装置、设备及存储介质。基于矢量量化对语音进行编码，通过新的训练目标得到了效果较好的语音转换模型。方法包括：获取包含语音和说话人标识的训练集，语音包括来自同一说话人的第一语音和第二语音。将第一语音输入矢量量化编码器得到第一内容向量和第一说话人向量，将第二语音输入矢量量化编码器得到第二内容向量和第二说话人向量。根据第一说话人向量和第二说话人向量确定第一损失值。将第一内容向量和第二说话人向量输入解码器得到预测的语音，根据预测的语音和第一语音确定第二损失值。基于第一损失值和第二损失值迭代优化语音转换模型的参数，得到训练好的语音转换模型。的语音转换模型。的语音转换模型。

全部详细技术资料下载

【技术实现步骤摘要】
语音转换模型的训练、应用方法、装置、设备及存储介质

[0001]本申请涉及语音处理
，尤其涉及一种语音转换模型的训练方法、语音转换模型的应用方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音转换，即在不改变话语内容信息的情况下，让某一个说话人说的一句话听起来像是另一个人说的，这是一门充满挑战性而又具有很强应用价值的任务。语音转换在很多领域发挥出很强的应用价值，例如驾驶导航，若能转换出驾驶员喜爱的明星的声音，必然能给驾驶员带来更大的心情愉悦。
[0003]基于矢量量化的语音转换方法(VQVC)可以胜任语音转换任务，由于其训练目标是矢量量化后的向量尽可能还原量化前的连续向量，未将语音的音素和说话人信息在训练中解耦，因此不能很好地学习到语音所包含的说话人信息。

技术实现思路

[0004]本申请提供了一种语音转换模型的训练、应用方法、装置、设备及存储介质，通过将同一说话人的语音经矢量量化编码得到的说话人向量的损失值，以及根据来自同一说话人的不同语音的说话人向量和内容向量重构的语音的损失值，作...

【技术保护点】

【技术特征摘要】
1.一种语音转换模型的训练方法，其特征在于，所述语音转换模型包括：矢量量化编码器和解码器，所述方法包括：获取训练集，所述训练集包含语音和与所述语音对应的说话人标识，所述语音包括第一语音和第二语音，所述第一语音和所述第二语音为同一个说话人的包含不同说话内容的语音；将所述第一语音输入所述矢量量化编码器，得到第一内容向量和第一说话人向量，将所述第二语音输入所述矢量量化编码器，得到第二内容向量和第二说话人向量；根据所述第一说话人向量和所述第二说话人向量确定第一损失值；将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音，并根据所述预测的语音和所述第一语音确定第二损失值；基于所述第一损失值和所述第二损失值迭代优化所述语音转换模型的参数，得到训练好的语音转换模型。2.根据权利要求1所述的训练方法，其特征在于，所述方法包括：将所述语音经过傅里叶变换得到语音的梅尔谱图，其中，所述语音包括：第一语音和第二语音；将所述语音的梅尔谱图输入所述矢量量化编码器，根据得到的矢量量化编码结果确定内容向量；根据所述矢量量化编码结果与所述语音的梅尔谱图的差异确定说话人向量。3.根据权利要求2所述的训练方法，其特征在于，所述将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音包括：将所述第一内容向量和所述第二说话人向量相加得到重构的梅尔谱；将所述重构的梅尔谱输入所述解码器，得到所述预测的语音。4.根据权利要求1所述的训练方法，其特征在于，所述方法还包括：将所述训练集划分为预设大小的批数据，其中，所述批数据由来自预设数量个说话人的第一语音和第二语音组成；将所述批数据输入语音转换模型，得到所述批数据的第一损失值和第二损失值；基于所述批数据的第一损失值和第二损失值迭代优化所述语音转换模型的参数，得到训练好的语音转换模型。5.根据权利要求1所述的训练方法，其特征在于，所述方法还包括：将所述训练集在所述语音转换模型的训练中传递预设数量个时期，对所述语音转换模型的参数进行迭代优化；其中，所述时期为将所述训练集在所述语音转换模型的训练中完整传递并完成一次迭代的过程。6.一种语音转换模型的应用方法，其特征在于，所述语音转换模型是根据权利要求1
‑
5中任一项所述的方法训练得到的，所述应用方法包括：将源说话人的语音输入所述训练好...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人