非平行文本条件下基于文本编码器的多对多语音转换方法技术

技术编号:20330288 阅读:36 留言:0更新日期:2019-02-13 06:28
本发明专利技术公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text‑Encoder)相结合来实现语音转换系统,在VAWGAN中加入代表语义的句子嵌入,能够较好地提升转换后语音的语音质量和个性相似度,实现高质量的语音转换。此外,本方法解除了对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。此外,本方法可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。

【技术实现步骤摘要】
非平行文本条件下基于文本编码器的多对多语音转换方法
本专利技术涉及一种语音转换方法,特别是涉及一种非平行文本条件下基于文本编码器的多对多语音转换方法。
技术介绍
语音转换(VoiceConversion,VC)是一种在保持语义信息的同时将源说话人特征转换为目标说话人特征的技术。近几年的研究中,VC模型采用深度神经网络(DeepNeuralNetworks,DNN),将源语音参数转换为目标语音参数,相比于传统的高斯混合模型(GaussianMixtureModel,GMM),DNN可以更有效地转换语音特征。最近,变分自动编码器(VariationalAuto-Encoder,VAE)已经被用于非平行的VC模型,因为VAE比受限制的Boltzmann机更容易训练。在传统的基于VAE的非平行VC中,编码器从输入语音参数中提取与说话者无关的代表语义内容的潜在变量,然后解码器从潜在变量中重建参数。然而由于VAE的潜在变量中的过度正则化效应,这使得潜在变量的分布过于简单化,并且很难代表语义内容的基础结构,这种基于VAE的非平行语料转换语音的质量低于用平行语音语料库训练的DNN转换的质量。如果使用潜在变量的更复杂的先验分布,例如GMM来解决该问题,但是因为语义内容的变化很大,不容易确定GMM集群的数量,所以实现起来非常困难。目前,基于VAE的非平行语料转换语音方法存在着转换后的语音质量差、噪声多等不足。
技术实现思路
专利技术目的:本专利技术要解决的技术问题是提供一种非平行文本条件下基于文本编码器(Text-Encoder)的多对多语音转换方法,能够有效提升转换后的语音质量,减少转换过程中带来的噪声。技术方案:本专利技术所述的非平行文本条件下基于文本编码器的多对多语音转换方法,包括训练阶段和转换阶段,其中所述训练阶段包括以下步骤:(1.1)获取由多名说话人的语料组成的训练语料,包含源说话人和目标说话人;(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0;(1.3)通过fasttext框架将训练语料的语义内容编码为句子嵌入zp;(1.4)将所述频谱包络特征x与句子嵌入zp输入文本编码器进行训练,训练过程中使文本编码器的损失函数尽量小,直至设置的迭代次数,得到训练好的文本编码器;(1.5)将训练语料的句子嵌入zp、频谱包络特征x、说话人标签y输入VAWGAN网络模型进行训练,VAWGAN网络模型由编码器、生成器和鉴别器组成,训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VAWGAN网络;(1.6)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;所述转换阶段包括以下步骤:(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非周期性特征、对数基频logf0;(2.2)将上述频谱包络特征x,输入步骤(1.4)中训练好的文本编码器,输出得到文本编码器预测的源说话人每条语句的句子嵌入(2.3)将上述句子嵌入源说话人频谱包络特征x、目标说话人标签特征y输入步骤(1.5)中训练好的VAWGAN网络,从而重构出目标说话人频谱包络特征x′;(2.4)通过步骤(1.6)得到的基频转换函数,将步骤(2.1)中提取出的源说话人对数基频logf0转换为目标说话人的对数基频logf0′;(2.5)将步骤(2.3)中得到的频谱包络特征x′、(2.4)中得到的对数基频logf0′和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。进一步的,所述文本编码器采用l2损失函数,损失函数为:其中,M为训练语句的数量,zp为训练库中语义内容编码所得的真实句子嵌入,为文本编码器输出的预测句子嵌入。进一步的,所述文本编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。进一步的,步骤(1.5)中的训练过程包括以下步骤:(1)将所述的训练语料频谱包络特征x,作为所述VAWGAN网络中编码器的输入数据,输出得到说话人无关的语义特征z;(2)将上述语义特征z、说话人标签特征y、步骤(1.3)中所述的句子嵌入zp输入生成器进行训练,使生成器的损失函数尽量小,得到生成的说话人频谱包络特征x′;(3)将上述说话人频谱包络特征x′和训练语料频谱包络特征x输入所述鉴别器进行训练,使鉴别器的损失函数尽量大;(4)重复步骤(1)、(2)和(3),直至达到迭代次数,从而得到训练好的VAWGAN网络。进一步的,步骤(2.3)中的输入过程包括以下步骤:(1)将频谱包络特征x输入VAWGAN网络中的编码器,得到说话人无关的语义特征z;(2)将上述语义特征z、目标说话人标签特征y、步骤(2.2)中文本编码器预测的句子嵌入输入到所述的生成器中,重构出目标说话人频谱包络特征x′。进一步的,所述VAWGAN网络中的编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。进一步的,所述VAWGAN网络中的生成器采用二维卷积神经网络G,损失函数为:所述的鉴别器采用二维卷积神经网络D,损失函数为:其中,Gθ为生成器网络,Dψ为鉴别器网络,表示生成器生成的概率分布的期望,表示真实概率分布的期望。进一步的,所述的生成器的二维卷积神经网络G包括4个卷积层,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1;所述的鉴别器的二维卷积神经网络D,包括3个卷积层和1个全连接层,3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。进一步的,所述的基频转换函数为:其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,logf0s为源说话人的对数基频,logf0c为转换后对数基频。有益效果:本方法能够将转换语音中的语义内容通过文本编辑器处理后,应用到VAWGAN系统中去,相比于现有技术有效地提升了转换后的语音质量和相似度,减少转换过程中带来的噪声,实现高质量的语音转换。此外,本方法的训练过程并不依赖平行文本,能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。本方法还可以将多个源-目标说话人对的转换系统通过一个转换模型实现,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。附图说明图1是本方法的整体流程图。具体实施方式如图1所示,本专利技术所述高质量语音转换方法分为两个部分:训练部分用于得到语音转换所需的模型参数和转换函数,而转换部分用于实现源说话人语音到目标说话人语音的转换。训练阶段实施步骤为:1.1)获取非平行文本的训练语料,训练语料是多名说话人的语料,包含源说话人和目标说话人。训练语料取自VCC2018语音语料库,选取该语料库中4名男性本文档来自技高网...

【技术保护点】
1.一种非平行文本条件下基于文本编码器的多对多语音转换方法,其特征包括训练阶段和转换阶段,其中所述训练阶段包括以下步骤:(1.1)获取由多名说话人的语料组成的训练语料,包含源说话人和目标说话人;(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0;(1.3)通过fasttext框架将训练语料的语义内容编码为句子嵌入zp;(1.4)将所述频谱包络特征x与句子嵌入zp输入文本编码器进行训练,训练过程中使文本编码器的损失函数尽量小,直至设置的迭代次数,得到训练好的文本编码器;(1.5)将训练语料的句子嵌入zp、频谱包络特征x、说话人标签y输入VAWGAN进行训练,VAWGAN网络模型由编码器、生成器和鉴别器组成,训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VAWGAN网络;(1.6)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;所述转换阶段包括以下步骤:(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非周期性特征、对数基频logf0;(2.2)将上述频谱包络特征x,输入步骤(1.4)中训练好的文本编码器,输出得到文本编码器预测的源说话人每条语句的句子嵌入...

【技术特征摘要】
1.一种非平行文本条件下基于文本编码器的多对多语音转换方法,其特征包括训练阶段和转换阶段,其中所述训练阶段包括以下步骤:(1.1)获取由多名说话人的语料组成的训练语料,包含源说话人和目标说话人;(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0;(1.3)通过fasttext框架将训练语料的语义内容编码为句子嵌入zp;(1.4)将所述频谱包络特征x与句子嵌入zp输入文本编码器进行训练,训练过程中使文本编码器的损失函数尽量小,直至设置的迭代次数,得到训练好的文本编码器;(1.5)将训练语料的句子嵌入zp、频谱包络特征x、说话人标签y输入VAWGAN进行训练,VAWGAN网络模型由编码器、生成器和鉴别器组成,训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VAWGAN网络;(1.6)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;所述转换阶段包括以下步骤:(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非周期性特征、对数基频logf0;(2.2)将上述频谱包络特征x,输入步骤(1.4)中训练好的文本编码器,输出得到文本编码器预测的源说话人每条语句的句子嵌入(2.3)将上述句子嵌入源说话人频谱包络特征x、目标说话人标签特征y输入步骤(1.5)中训练好的VAWGAN网络,从而重构出目标说话人频谱包络特征x′;(2.4)通过步骤(1.6)得到的基频转换函数,将步骤(2.1)中提取出的源说话人对数基频logf0转换为目标说话人的对数基频logf0′;(2.5)将步骤(2.3)中得到的频谱包络特征x′、(2.4)中得到的对数基频logf0′和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。2.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于:所述文本编码器采用l2损失函数,损失函数为:其中,M为训练语句的数量,zp为训练库中语义内容编码所得的真实句子嵌入,为文本编码器输出的预测句子嵌入。3.根据权利要求2所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于:所述文本编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。4.根据权利要求1所述的非平行文本条件下基于文本编码器...

【专利技术属性】
技术研发人员:李燕萍石杨张燕
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1