非平行文本条件下基于文本编码器的多对多语音转换方法技术

技术编号：20330288 阅读：36 留言：0更新日期：2019-02-13 06:28

本发明专利技术公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法，包括了训练部分和转换部分，使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text‑Encoder)相结合来实现语音转换系统，在VAWGAN中加入代表语义的句子嵌入，能够较好地提升转换后语音的语音质量和个性相似度，实现高质量的语音转换。此外，本方法解除了对平行文本的依赖，实现了非平行文本条件下的语音转换，而且训练过程不需要任何对齐过程，提高了语音转换系统的通用性和实用性。此外，本方法可以将多个源‑目标说话人对的转换系统整合在一个转换模型中，即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
非平行文本条件下基于文本编码器的多对多语音转换方法
本专利技术涉及一种语音转换方法，特别是涉及一种非平行文本条件下基于文本编码器的多对多语音转换方法。
技术介绍
语音转换(VoiceConversion，VC)是一种在保持语义信息的同时将源说话人特征转换为目标说话人特征的技术。近几年的研究中，VC模型采用深度神经网络(DeepNeuralNetworks，DNN)，将源语音参数转换为目标语音参数，相比于传统的高斯混合模型(GaussianMixtureModel，GMM)，DNN可以更有效地转换语音特征。最近，变分自动编码器(VariationalAuto-Encoder，VAE)已经被用于非平行的VC模型，因为VAE比受限制的Boltzmann机更容易训练。在传统的基于VAE的非平行VC中，编码器从输入语音参数中提取与说话者无关的代表语义内容的潜在变量，然后解码器从潜在变量中重建参数。然而由于VAE的潜在变量中的过度正则化效应，这使得潜在变量的分布过于简单化，并且很难代表语义内容的基础结构，这种基于VAE的非平行语料转换语音的质量低于用平行语音语料库训练的DNN转换的质量。如果使用潜在变量的更复杂的先验分布，例如GMM来解决该问题，但是因为语义内容的变化很大，不容易确定GMM集群的数量，所以实现起来非常困难。目前，基于VAE的非平行语料转换语音方法存在着转换后的语音质量差、噪声多等不足。
技术实现思路
专利技术目的：本专利技术要解决的技术问题是提供一种非平行文本条件下基于文本编码器(Text-Encoder)的多对多语音转换方法，能够有效提升转换后的语音质量...

【技术保护点】
1.一种非平行文本条件下基于文本编码器的多对多语音转换方法，其特征包括训练阶段和转换阶段，其中所述训练阶段包括以下步骤：(1.1)获取由多名说话人的语料组成的训练语料，包含源说话人和目标说话人；(1.2)将所述的训练语料通过WORLD语音分析/合成模型，提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0；(1.3)通过fasttext框架将训练语料的语义内容编码为句子嵌入zp；(1.4)将所述频谱包络特征x与句子嵌入zp输入文本编码器进行训练，训练过程中使文本编码器的损失函数尽量小，直至设置的迭代次数，得到训练好的文本编码器；(1.5)将训练语料的句子嵌入zp、频谱包络特征x、说话人标签y输入VAWGAN进行训练，VAWGAN网络模型由编码器、生成器和鉴别器组成，训练过程使生成器的损失函数尽量小，使鉴别器的损失函数尽量大，直至设置的迭代次数，得到训练好的VAWGAN网络；(1.6)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数；所述转换阶段包括以下步骤：(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非...

【技术特征摘要】
1.一种非平行文本条件下基于文本编码器的多对多语音转换方法，其特征包括训练阶段和转换阶段，其中所述训练阶段包括以下步骤：(1.1)获取由多名说话人的语料组成的训练语料，包含源说话人和目标说话人；(1.2)将所述的训练语料通过WORLD语音分析/合成模型，提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0；(1.3)通过fasttext框架将训练语料的语义内容编码为句子嵌入zp；(1.4)将所述频谱包络特征x与句子嵌入zp输入文本编码器进行训练，训练过程中使文本编码器的损失函数尽量小，直至设置的迭代次数，得到训练好的文本编码器；(1.5)将训练语料的句子嵌入zp、频谱包络特征x、说话人标签y输入VAWGAN进行训练，VAWGAN网络模型由编码器、生成器和鉴别器组成，训练过程使生成器的损失函数尽量小，使鉴别器的损失函数尽量大，直至设置的迭代次数，得到训练好的VAWGAN网络；(1.6)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数；所述转换阶段包括以下步骤：(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非周期性特征、对数基频logf0；(2.2)将上述频谱包络特征x，输入步骤(1.4)中训练好的文本编码器，输出得到文本编码器预测的源说话人每条语句的句子嵌入(2.3)将上述句子嵌入源说话人频谱包络特征x、目标说话人标签特征y输入步骤(1.5)中训练好的VAWGAN网络，从而重构出目标说话人频谱包络特征x′；(2.4)通过步骤(1.6)得到的基频转换函数，将步骤(2.1)中提取出的源说话人对数基频logf0转换为目标说话人的对数基频logf0′；(2.5)将步骤(2.3)中得到的频谱包络特征x′、(2.4)中得到的对数基频logf0′和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型，合成得到转换后的说话人语音。2.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于：所述文本编码器采用l2损失函数，损失函数为：其中，M为训练语句的数量，zp为训练库中语义内容编码所得的真实句子嵌入，为文本编码器输出的预测句子嵌入。3.根据权利要求2所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于：所述文本编码器采用二维卷积神经网络，包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为16、32、64、128、256。4.根据权利要求1所述的非平行文本条件下基于文本编码器...

【专利技术属性】
技术研发人员：李燕萍，石杨，张燕，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人