当前位置: 首页 > 专利查询>武汉大学专利>正文

一种对偶语音转换方法、装置、存储介质和设备制造方法及图纸

技术编号:29839369 阅读:15 留言:0更新日期:2021-08-27 14:29
本发明专利技术涉及一种对偶语音转换方法、装置、存储介质和设备,其包括:将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱;其中,所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。本发明专利技术涉及的一种对偶语音转换方法、装置、存储介质和设备,利用语音转换的对称性,在对偶环中进行数据集的循环迭代训练,可以对所述对偶语音转换模型进行迭代优化,提升所述对偶语音转换模型的转换性能,因此,在少语料时也能合成高质量的转换语音。

【技术实现步骤摘要】
一种对偶语音转换方法、装置、存储介质和设备
本专利技术涉及智能语音技术,特别涉及一种对偶语音转换方法、装置、存储介质和设备。
技术介绍
随着机器学习和人工智能最近几年以来的迅速发展,语音技术作为人工智能主要领域之一,也得到了广泛的关注。语音信号内蕴含了多种信息,包括说话人身份、情感和语义信息等。语音转换(VoiceConversion,VC)作为智能语音技术方向之一,其是通过修改语音信号中与说话人相关的频谱和韵律特征,在保持与说话人无关的信息(语言内容)不变的同时,改变感知到的说话人身份信息。语音转换技术在多个领域都有着广泛的应用场景,如:AI配音、歌声转换、模仿或隐藏说话人的身份、个性化语音合成等。相关技术中,语音转换通常面临平行语料难以获取的问题,当平行语料匮乏时,由于数据集中存在的音素分布比较单一,使用该数据集训练的语音转换模型建模的音素特征分布有限,对于未见过的音素特征进行转换时,很难生成对齐良好的转换音素,由于音素特征无法对齐,合成的转换语音通常上不可懂,在少语料时,语音转换系统的性能严重受限。因此,有必要设计一种新的对偶语音转换方法、装置、存储介质和设备,以克服上述问题。
技术实现思路
本专利技术实施例提供一种对偶语音转换方法、装置、存储介质和设备,以解决相关技术中当平行语料匮乏时,语音转换系统的性能严重受限的问题。第一方面,提供了一种少语料下的对偶语音转换方法,其包括:将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱;其中,所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。一些实施例中,在所述将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱之前,还包括:根据第一语音转换基础模型和第二语音转换基础模型建立对偶环;将语音数据集输入所述对偶环进行迭代训练得到所述对偶语音转换模型。一些实施例中,所述根据第一语音转换基础模型和第二语音转换基础模型建立对偶环,包括:将所述第一语音转换基础模型的输出端与所述第二语音转换基础模型的输入端连接,将所述第二语音转换基础模型的输出端与所述第一语音转换基础模型的输入端连接,形成所述对偶环。一些实施例中,所述将语音数据集输入所述对偶环进行迭代训练得到所述对偶语音转换模型,包括:将所述语音数据集中源语音的梅尔语谱X依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构,生成重构后的源梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第一语音转换基础模型,直至损失收敛至最低位;将所述语音数据集中真实目标语音的梅尔语谱Y依次经过所述第二语音转换基础模型的转换和所述第一语音转换基础模型的重构,生成重构后的目标梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第二语音转换基础模型,直至损失收敛至最低位。一些实施例中,所述将所述语音数据集中源语音的梅尔语谱X依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构,生成重构后的源梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第一语音转换基础模型,直至损失收敛至最低位,包括:将所述语音数据集中源语音的梅尔语谱X作为输入,真实目标语音的梅尔语谱Y作为标签形成真实数据对(X,Y),将真实数据对(X,Y)输入所述第一语音转换基础模型转换得到预测的目标梅尔语谱并计算出对应的转换损失将所述预测的目标梅尔语谱作为输入,真实源语音的梅尔语谱X作为标签构成伪对将伪对输入所述第二语音转换基础模型生成重构后的源梅尔语谱并计算出对应的重构损失根据转换损失和重构损失之和来对所述第一语音转换基础模型进行迭代优化。一些实施例中,所述将所述语音数据集中真实目标语音的梅尔语谱Y依次经过所述第二语音转换基础模型的转换和所述第一语音转换基础模型的重构,生成重构后的目标梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第二语音转换基础模型,直至损失收敛至最低位,包括:将所述语音数据集中真实目标语音的梅尔语谱Y作为输入,源语音的梅尔语谱X作为标签形成真实数据对(Y,X),将真实数据对(Y,X)输入所述第二语音转换基础模型转换得到预测的源梅尔语谱并计算出对应的转换损失将所述预测的源梅尔语谱作为输入,真实目标语音的梅尔语谱Y作为标签构成伪对将伪对输入所述第一语音转换基础模型生成重构后的目标梅尔语谱并计算出对应的重构损失根据转换损失和重构损失之和来对所述第二语音转换基础模型进行迭代优化。一些实施例中,在所述根据第一语音转换基础模型和第二语音转换基础模型建立对偶环之前,还包括:建立所述第一语音转换基础模型和所述第二语音转换基础模型,其中,所述第一语音转换基础模型和所述第二语音转换基础模型均包括编码器、注意力机制模块和解码器。第二方面,提供了一种少语料下的对偶语音转换装置,其包括:转换模块,其用于将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱;其中,所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。第三方面,提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述的少语料下的对偶语音转换方法。第四方面,提供了一种语音转换设备,其包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令,以执行上述的少语料下的对偶语音转换方法。本专利技术提供的技术方案带来的有益效果包括:本专利技术实施例提供了一种对偶语音转换方法、装置、存储介质和设备,由于对偶语音转换模型是通过将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,且所述第一语音转换基础模型与所述第二语音转换基础模型的映射能力相反,利用语音转换的对称性,在对偶环中进行数据集的循环迭代训练,可以对所述对偶语音转换模型进行迭代优化,提升所述对偶语音转换模型的转换性能,因此,在少语料时也能合成高质量的转换语音。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种少语料下的对偶语音转换方法的训练过程的流程示意图;图2为本专利技术实施例提供的一种少语料下的对偶语音转换方法的语音转换过程的流程示意图;图3为本专利技术实施例提供的对偶语音转换模型的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部本文档来自技高网...

【技术保护点】
1.一种少语料下的对偶语音转换方法,其特征在于,其包括:/n将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱;/n其中,所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。/n

【技术特征摘要】
1.一种少语料下的对偶语音转换方法,其特征在于,其包括:
将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱;
其中,所述对偶语音转换模型是将语音数据集输入第一语音转换基础模型和第二语音转换基础模型形成的对偶环进行迭代训练得到的,所述第一语音转换基础模型和所述第二语音转换基础模型的映射能力相反。


2.如权利要求1所述的少语料下的对偶语音转换方法,其特征在于,在所述将待转换源语音的梅尔语谱输入对偶语音转换模型,生成转换后的目标语音的梅尔语谱之前,还包括:
根据第一语音转换基础模型和第二语音转换基础模型建立对偶环;
将语音数据集输入所述对偶环进行迭代训练得到所述对偶语音转换模型。


3.如权利要求2所述的少语料下的对偶语音转换方法,其特征在于,所述根据第一语音转换基础模型和第二语音转换基础模型建立对偶环,包括:
将所述第一语音转换基础模型的输出端与所述第二语音转换基础模型的输入端连接,将所述第二语音转换基础模型的输出端与所述第一语音转换基础模型的输入端连接,形成所述对偶环。


4.如权利要求2所述的少语料下的对偶语音转换方法,其特征在于,所述将语音数据集输入所述对偶环进行迭代训练得到所述对偶语音转换模型,包括:
将所述语音数据集中源语音的梅尔语谱X依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构,生成重构后的源梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第一语音转换基础模型,直至损失收敛至最低位;
将所述语音数据集中真实目标语音的梅尔语谱Y依次经过所述第二语音转换基础模型的转换和所述第一语音转换基础模型的重构,生成重构后的目标梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第二语音转换基础模型,直至损失收敛至最低位。


5.如权利要求4所述的少语料下的对偶语音转换方法,其特征在于,所述将所述语音数据集中源语音的梅尔语谱X依次经过所述第一语音转换基础模型的转换和所述第二语音转换基础模型的重构,生成重构后的源梅尔语谱并根据转换和重构过程中的损失进行迭代优化所述第一语音转换基础模型,直至损失收敛至最低位,包括:
将所述语音数据集中源语音的梅尔语谱X作为输入,真实目标语音的梅尔语谱Y作为标签形成真实数据对(X,Y),将真实数据对(X,Y)输入所述第一语音转换基础模型转换得到预测的目标梅尔...

【专利技术属性】
技术研发人员:唐存琛曹宽
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1