基于STARGAN与i向量的多对多说话人转换方法技术

技术编号:21895630 阅读:20 留言:0更新日期:2019-08-17 15:59
本发明专利技术公开了一种基于STARGAN与i向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用循环对抗网络,通过降低循环对抗损失较好地提升转换后语音的个性相似度和语音质量,用STARGAN与i向量相结合来实现语音转换系统,较好地提升转换后语音的个性相似度和语音质量,特别是对于短时话语i向量具有更好的表征性能,语音转换质量更好,同时可以克服C‑VAE中过平滑的问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。

Multi-to-multi-speaker conversion method based on STARGAN and I vector

【技术实现步骤摘要】
基于STARGAN与i向量的多对多说话人转换方法
本专利技术涉及一种多对多说话人转换方法,特别是涉及一种基于STARGAN和i向量的多对多说话人转换方法。
技术介绍
语音转换是语音信号处理领域的研究分支,是在语音分析、识别和合成的研究基础上发展与延伸的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,也就是使一个人说的语音经过转换后听起来像是另一个人说的语音,同时保留语义。语音转换技术经过多年的研究,已经涌现了很多的经典转换方法。其中包括高斯混合模型(GaussianMixedModel,GMM)、递归神经网络(RecurrentNeuralNetwork,RNN)、深度神经网络(DeepNeuralNetworks,DNN)等大多数的语音转换方法。但是这些语音转换方法大多要求用于训练的语料库是平行文本,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而训练时语音特征参数对齐的准确性会成为语音转换性能的一种制约。此外在跨语种转换、医疗辅助患者语音转换等实际应用中也无法获取平行语音。因此,无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。现有的非平行文本条件下的语音转换方法有基于循环一致对抗网络(Cycle-ConsistentAdversarialNetworks,Cycle-GAN)的方法、基于条件变分自编码器(ConditionalVariationalAuto-Encoder,C-VAE)的方法等。基于C-VAE模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,其中编码器对语音实现语义和个性信息的分离,解码器通过语义和说话人身份标签来实现语音的重构,从而可以解除对平行文本的依赖。但是由于C-VAE基于理想假设,认为观察到的数据通常遵循高斯分布,导致解码器的输出语音过度平滑,转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失,同时学习声学特征的正映射和逆映射,可以有效解决过平滑问题,改善转换语音质量,但是Cycle-GAN只能实现一对一的语音转换。基于星型生成对抗网络(StarGenerativeAdversarialNetwork,STARGAN)模型的语音转换方法同时具有C-VAE和Cycle-GAN的优点,由于该方法的生成器具有编解码结构,可以同时学习多对多映射,生成器输出的属性由说话人身份标签控制,因此可以实现非平行下多对多的语音转换。但是此方法中说话人的身份标签并不能充分表达说话人的个性化特征,因此转换后的语音在在语音相似度上仍未得到很大改善。
技术实现思路
专利技术目的:本专利技术要解决的技术问题是提供一种基于STARGAN和i向量的多对多说话人转换方法,可以充分表达说话人的个性化特征,有效地提高了转换后语音的个性相似度。技术方案:本专利技术所述的基于STARGAN和i向量的多对多说话人转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、基频特征、以及代表各说话人个性化特征的i向量I-vector;(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs和i向量I-vectors,以及目标说话人标签ct、i向量I-vectort,输入到STARGAN网络进行训练,所述的STARGAN网络由生成器G、鉴别器D和分类器C组成,所述的生成器G由编码网络和解码网络构成;(1.4)训练过程使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小,直至设置的迭代次数,得到训练好的STARGAN网络;(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;所述转换阶段包括以下步骤:(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs′、非周期性特征和基频;(2.2)将上述源说话人频谱包络特征xs′、目标说话人标签特征ct′、目标说话人i向量I-vectort′输入(1.4)中训练好的STARGAN网络,重构出目标说话人频谱包络特征xtc′;(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人基频转换为目标说话人的基频;(2.4)将(2.2)中得到的目标说话人频谱包络特征xtc′、(2.3)中得到的目标说话人的基频和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。进一步的,步骤(1.3)和(1.4)中的训练过程包括以下步骤:(1)将源说话人的频谱包络特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);(2)将上述得到的语义特征G(xs)与目标说话人的标签特征ct、目标说话人的i向量I-vectort一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到目标说话人的频谱包络特征xtc;(3)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);(4)将上述得到的语义特征G(xtc)与源说话人标签特征cs、源说话人i向量I-vectors输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构源说话人的频谱包络特征xsc;(5)将目标说话人的频谱包络特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器的损失函数;(6)将目标说话人的频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器C进行训练,最小化分类器的损失函数;(7)回到步骤(1)重复上述步骤,直至达到迭代次数,从而得到训练好的STARGAN网络。进一步的,步骤(2.2)中的输入过程包括以下步骤:(1)将源说话人的频谱包络特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs)′;(2)将上述得到的语义特征G(xs)′与目标说话人的标签特征ct′、目标说话人的i向量I-vectort′一同输入到生成器G的解码网络,得到目标说话人的频谱包络特征xtc′。进一步的,所述的生成器G采用二维卷积神经网络,损失函数为:其中,λcls>=0、λcyc>=0和λid>=0是正则化参数,分别表示分类损失、循环一致性损失和特征映射损失的权重,Lcyc(G)、Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致损失、特征映射损失;所述的鉴别器D采用二维卷积神经网络,损失函数为:其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct,I-vectort)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct,I-vectort),ct)表示鉴别器判别生成的频谱特征,表示生成器G生成的概率分布的期望,表示真实概率分布的期望;所述的分类器采用二维卷积神经网络C,损失函数为:其中,pC(ct|xt)表示分类器判别目标说话人特征本文档来自技高网
...

【技术保护点】
1.一种基于STARGAN和i向量的多对多说话人转换方法,其特征在于包括训练阶段和转换阶段,所述训练阶段包括以下步骤:(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、基频特征、i向量;(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs和源说话人i向量I‑vectors,以及目标说话人标签ct、目标说话人i向量I‑vectort,输入到STARGAN网络进行训练,所述的STARGAN网络由生成器G、鉴别器D和分类器C组成,所述的生成器G由编码网络和解码网络构成;(1.4)训练过程使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小,直至设置的迭代次数,得到训练好的STARGAN网络;(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;所述转换阶段包括以下步骤:(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs′、非周期性特征和基频;(2.2)将上述源说话人频谱包络特征xs′、目标说话人标签特征ct′、目标说话人i向量I‑vectort′输入(1.4)中训练好的STARGAN网络,重构出目标说话人频谱包络特征xtc′;(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人基频转换为目标说话人的基频;(2.4)将(2.2)中得到的目标说话人频谱包络特征xtc′、(2.3)中得到的目标说话人的基频和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。...

【技术特征摘要】
1.一种基于STARGAN和i向量的多对多说话人转换方法,其特征在于包括训练阶段和转换阶段,所述训练阶段包括以下步骤:(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、基频特征、i向量;(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs和源说话人i向量I-vectors,以及目标说话人标签ct、目标说话人i向量I-vectort,输入到STARGAN网络进行训练,所述的STARGAN网络由生成器G、鉴别器D和分类器C组成,所述的生成器G由编码网络和解码网络构成;(1.4)训练过程使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小,直至设置的迭代次数,得到训练好的STARGAN网络;(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;所述转换阶段包括以下步骤:(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征xs′、非周期性特征和基频;(2.2)将上述源说话人频谱包络特征xs′、目标说话人标签特征ct′、目标说话人i向量I-vectort′输入(1.4)中训练好的STARGAN网络,重构出目标说话人频谱包络特征xtc′;(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人基频转换为目标说话人的基频;(2.4)将(2.2)中得到的目标说话人频谱包络特征xtc′、(2.3)中得到的目标说话人的基频和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。2.根据权利要求1所述的基于STARGAN和i向量的多对多说话人转换方法,其特征在于:步骤(1.3)和(1.4)中的训练过程包括以下步骤:(1)将源说话人的频谱包络特征xs输入生成器G的编码网络,得到说话人无关的语义特征G(xs);(2)将上述得到的语义特征G(xs)与目标说话人的标签特征ct、目标说话人的i向量I-vectort一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到目标说话人的频谱包络特征xtc;(3)将上述得到的目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络,得到说话人无关的语义特征G(xtc);(4)将上述得到的语义特征G(xtc)与源说话人标签特征cs、源说话人i向量I-vectors输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构源说话人的频谱包络特征xsc;(5)将目标说话人的频谱包络特征xtc、目标说话人频谱特征xt,以及目标说话人的标签特征ct一同输入到鉴别器D中进行训练,最小化鉴别器的损失函数;(6)将目标说话人的频谱包络特征xtc和目标说话人的频谱包络特征xt输入分类器C进行训练,最小化分类器的损失函数;(7)回到步骤(1)重复上述步骤,直至达到迭代次数,从而得到训练好的STARGAN网络。3.根据权利要求1所述的基于STARGAN和i向量的多对多说话人转换方法,其特征在于:步骤(2.2)中的输入过程包括以下步骤:(1)将源说话人的频谱包络特征xs′输入生成器G的编码网络,得到说话人无关的语义特征G(xs)′;(2)将上述得到的语义特征G(xs)′与目标说话人的标签特征ct′、目标说话人的i向量I...

【专利技术属性】
技术研发人员:李燕萍沙淮吴佳怡张燕
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1