一种对偶语音转换方法、装置、存储介质和设备制造方法及图纸

技术编号：29839369 阅读：15 留言：0更新日期：2021-08-27 14:29

本发明专利技术涉及一种对偶语音转换方法、装置、存储介质和设备，其包括：将待转换源语音的梅尔语谱输入对偶语音转换模型，生成转换后的目标语音的梅尔语谱；其中，所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的，所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。本发明专利技术涉及的一种对偶语音转换方法、装置、存储介质和设备，利用语音转换的对称性，在对偶环中进行数据集的循环迭代训练，可以对所述对偶语音转换模型进行迭代优化，提升所述对偶语音转换模型的转换性能，因此，在少语料时也能合成高质量的转换语音。

全部详细技术资料下载

【技术实现步骤摘要】
一种对偶语音转换方法、装置、存储介质和设备
本专利技术涉及智能语音技术，特别涉及一种对偶语音转换方法、装置、存储介质和设备。
技术介绍
随着机器学习和人工智能最近几年以来的迅速发展，语音技术作为人工智能主要领域之一，也得到了广泛的关注。语音信号内蕴含了多种信息，包括说话人身份、情感和语义信息等。语音转换(VoiceConversion，VC)作为智能语音技术方向之一，其是通过修改语音信号中与说话人相关的频谱和韵律特征，在保持与说话人无关的信息(语言内容)不变的同时，改变感知到的说话人身份信息。语音转换技术在多个领域都有着广泛的应用场景，如：AI配音、歌声转换、模仿或隐藏说话人的身份、个性化语音合成等。相关技术中，语音转换通常面临平行语料难以获取的问题，当平行语料匮乏时，由于数据集中存在的音素分布比较单一，使用该数据集训练的语音转换模型建模的音素特征分布有限，对于未见过的音素特征进行转换时，很难生成对齐良好的转换音素，由于音素特征无法对齐，合成的转换语音通常上不可懂，在少语料时，语音转换系统的性能严重受限。因此，有必要设计一种新的对偶语音转换方法、装置、存储介质和设备，以克服上述问题。
技术实现思路
本专利技术实施例提供一种对偶语音转换方法、装置、存储介质和设备，以解决相关技术中当平行语料匮乏时，语音转换系统的性能严重受限的问题。第一方面，提供了一种少语料下的对偶语音转换方法，其包括：将待转换源语音的梅尔语谱输入对偶语音转换模型，生成转换后的目标语音的梅尔语谱；其中，...

【技术保护点】
1.一种少语料下的对偶语音转换方法，其特征在于，其包括：/n将待转换源语音的梅尔语谱输入对偶语音转换模型，生成转换后的目标语音的梅尔语谱；/n其中，所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的，所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。/n

【技术特征摘要】
1.一种少语料下的对偶语音转换方法，其特征在于，其包括：
将待转换源语音的梅尔语谱输入对偶语音转换模型，生成转换后的目标语音的梅尔语谱；
其中，所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的，所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。

2.如权利要求1所述的少语料下的对偶语音转换方法，其特征在于，在所述将待转换源语音的梅尔语谱输入对偶语音转换模型，生成转换后的目标语音的梅尔语谱之前，还包括：
根据第一语音转换基础模型和第二语音转换基础模型建立对偶环；
将语音数据集输入所述对偶环进行迭代训练得到所述对偶语音转换模型。

3.如权利要求2所述的少语料下的对偶语音转换方法，其特征在于，所述根据第一语音转换基础模型和第二语音转换基础模型建立对偶环，包括：
将所述第一语音转换基础模型的输出端与所述第二语音转换基础模型的输入端连接，将所述第二语音转换基础模型的输出端与所述第一语音转换基础模型的输入端连接，形成所述对偶环。

4.如权利要求2所述的少语料下的对偶语音转换方法，其特征在于，所述将语音数据集输入所述对偶环进行迭代训练得到所述对偶语音转换模型，包括：
将所述语音数据集中源语音的梅尔语谱X依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构，生成重构后的源梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第一语音转换基础模型，直至损失收敛至最低位；
将所述语音数据集中真实目标语音的梅尔语谱Y依次经过所述第二语音转换基础模型的转换和所述第一语音转换基础模型的重构，生成重构后的目标梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第二语音转换基础模型，直至损失收敛至最低位。

5.如权利要求4所述的少语料下的对偶语音转换方法，其特征在于，所述将所述语音数据集中源语音的梅尔语谱X依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构，生成重构后的源梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第一语音转换基础模型，直至损失收敛至最低位，包括：
将所述语音数据集中源语音的梅尔语谱X作为输入，真实目标语音的梅尔语谱Y作为标签形成真实数据对(X,Y)，将真实数据对(X,Y)输入所述第一语音转换基础模型转换得到预测的目标梅尔...

【专利技术属性】
技术研发人员：唐存琛，曹宽，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人