语音转换模型训练方法及装置、语音转换方法及装置制造方法及图纸

技术编号:34775477 阅读:25 留言:0更新日期:2022-08-31 19:46
本发明专利技术涉及语音转换领域的语音转换模型训练方法及装置、语音转换方法及装置,模型训练方法,包括步骤:获取第一语音和与所述第一语音内容相同的文本数据,以所述文本数据计算第一内容特征;提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量;将所述第一隐变量和所述第一说话人特征输入流模型,以所述第一说话人特征为条件,计算输出第二说话特征,以第二说话特征和第一内容特征计算损失函数,提取达到预设优化参量后的第一隐变量,将优化后的第一隐变量输入解码器得到预测语音。本发明专利技术技术很好地保留了说话人的语气语调等信息。术很好地保留了说话人的语气语调等信息。术很好地保留了说话人的语气语调等信息。

【技术实现步骤摘要】
语音转换模型训练方法及装置、语音转换方法及装置


[0001]本专利技术涉及语音转换领域,尤其涉及一种语音转换模型训练方法及装置、语音转换方法及装置。

技术介绍

[0002]由于深度学习的发展及在各领域的应用,语音转换也得到了很多的受益。语音转换是对语音中的音色进行转换,其目标是只改变说话人的音色,说话人的内容,情感,语气,快慢等均要和原音频保持一致。举例:有A,B两个说话人,这时A说了一句话(S),语音转换的功能就是将这句话(S)中的音色换成B的声音,其他的内容保持不变。根据训练所使用的数据集可以划分为:1.基于平行语料的语音转换,2.基于非平行语料的语音转换。平行语料指:对于数据集中的每一条句子(S1),都有另外一条句子(S2),他们之间的区别只是说话人的音色不一致,其他的信息,比如内容,情感,语气,快慢等都相同。由于这种平行语料很难获得,所以目前的研究重点都基于非平行的语料的语音转换。
[0003]内容编码,现有的语音转换技术,首先会将源音频利用语音识别的方式提取对比预测编码。对比预测编码一般不包含音频中的说话人、语气、语调等信息,更多的是包含内容信息。
[0004]说话人编码,说话人编码是指从音频中提取说话人的技术,一般是利用深度学习技术提取出一个说话人向量。
[0005]特征解码,特征解码是将内容编码和说话人编码通过深度学习网络进行特征的融合,与从真实语音中提取的梅尔频谱计算损失。
[0006]声码器,将从真实语音中提取的梅尔频谱作为输入,利用神经网络模型比如:WaveNet,Parallel WaveNet,Hifi

Gan等去预测真实的语音波形。在推理阶段的输入是对源音频进行转换之后的梅尔频谱,并不是真实的梅尔频谱作为输入。
[0007]现有的技术线路是:1.通过语音识别的框架识别内容编码。2.由预训练的模型中提取说话人向量。在训练阶段是对1和2进行解码,得到源音频的梅尔频谱。在推理阶段是将2中的说话人向量替换为目标说话人的说话人向量。缺点是内容的识别依靠语音识别的模型,并且转换之后的音频只能保留内容信息,语气语调等无法进行转换。

技术实现思路

[0008]本专利技术针对现有技术中的缺点,提供了一种不需要依赖语音识别的框架对内容进行编码,且保留语气语调等信息的。
[0009]为了解决上述技术问题,本专利技术通过下述技术方案得以解决:
[0010]一种语音转换模型训练方法,包括步骤:获取第一语音和与所述第一语音内容相同的文本数据,以所述文本数据计算第一内容特征;
[0011]提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量;
[0012]将所述第一隐变量和所述第一说话人特征输入流模型,以所述第一说话人特征为条件,计算输出第二说话特征,以第二说话特征和第一内容特征计算损失函数,提取达到预设优化参量后的第一隐变量,将优化后的第一隐变量输入解码器得到预测语音。
[0013]优选的,所述提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括:
[0014]采用后验编码器,以所述第一频谱特征计算第一隐变量,所述后验编码器包括若干WaveNet残差模型。
[0015]优选的,所述提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括:
[0016]采用说话人编码器,以所述第一频谱特征计算第一说话人特征,所述说话人编码器包括Conformer模型。
[0017]优选的,所述流模型包括若干WaveNet的残差块,用于构建内容特征与隐变量的映射关系,
[0018]内容特征经过流模型转换成隐变量,所述隐变量经过流模型转换为内容特征。
[0019]优选的,以所述文本数据计算第一内容特征的方法包括:
[0020]将文本数据通过字形得到与文本对应的音素,对文本的音素进行表征,由CBHG模块对表征的特征进行编码,得到第一内容特征。
[0021]本专利技术还一种语音转换方法,包括根据上述语音转换模型训练方法训练得到的流模型,还包括步骤:
[0022]获取与源音频说话人信息无关的第一音频特征P1;
[0023]获取需转化的目标说话人语音,提取目标说话人语音的频谱特征,输出第二频谱特征,通过所述第二频谱特征计算第二说话特征S2;
[0024]将所述第二说话特征和所述第一音频特征输入流模型,得到第二隐变量Z2,将所述第二隐变量解码生成目标音频。
[0025]获取与源音频说话人信息无关的第一音频特征的方法包括采用内容编码器进行编码转换。
[0026]优选的,所述说话人信息包括说话人音色。
[0027]优选的,获取与源音频说话人信息无关的第一音频特征的方法包括:
[0028]将所述第一隐变量和所述第二说话人特征输入流模型,以所述第二说话人特征为条件,计算输出第二说话特征P1。
[0029]本专利技术还提供一种语音转换模型训练装置,包括:主控器,获取第一语音,计算第一频谱特征,计算与第一语音相同的文本数据,并控制数据在内容编码器、后验编码器、流模型单元以及解码器之间的输入输出;
[0030]内容编码器,获取与第一语音内容相同的文本数据,以所述文本数据计算第一内容特征;
[0031]后验编码器,接收第一频谱特征,通过所述第一频谱特征计算第一隐变量;
[0032]说话人编码器,接收第一频谱特征,通过所述第一频谱特征计算第一说话人特征;
[0033]流模型单元,接收第一隐变量和所述第一说话人特征,以所述第一说话人特征为条件,计算输出第二说话特征,以第二说话特征和第一内容特征计算损失函数,提取达到预
设优化参量后的第一隐变量;
[0034]解码器,用于将优化后的第一隐变量输入解码器得到预测语音。
[0035]本专利技术还提供一种语音转换装置,包括:
[0036]一种语音转换模型训练装置,包括:
[0037]内容编码器,对源说话人语音的文本内容通过深度学习模型进行编码,得到和源说话人信息无关的第一音频特征;
[0038]说话人编码器,接收需转化的目标说话人语音,提取目标说话人语音的频谱特征,输出第二频谱特征,通过所述第二频谱特征计算第二说话特征;
[0039]流模型单元,接收第二说话特征和所述第一音频特征,以第二说话特征作为条件输出第二隐变量;
[0040]解码器,接收第二隐变量,输出目标音频。
[0041]本专利技术的有益效果:
[0042]本专利技术避开了现有技术的缺点,不需要依赖语音识别的框架对内容进行编码,而且还可以保留语气语调等信息。由于本专利技术的结构可以对频谱中的说话人和非说话人特征进行很好的解耦合,所以转换后的音频保留了除说话人音色以外的其他信息。
[0043]此外本专利技术是一种通用的语音转换技术,既对任意语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换模型训练方法,其特征在于,获取第一语音和与所述第一语音内容相同的文本数据,以所述文本数据计算第一内容特征;提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量;将所述第一隐变量和所述第一说话人特征输入流模型,以所述第一说话人特征为条件,计算输出第二说话特征,以第二说话特征和第一内容特征计算损失函数,提取达到预设优化参量后的第一隐变量,将优化后的第一隐变量输入解码器得到预测语音。2.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括:采用后验编码器,以所述第一频谱特征计算第一隐变量,所述后验编码器包括若干WaveNet残差模型。3.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括:采用说话人编码器,以所述第一频谱特征计算第一说话人特征,所述说话人编码器包括Conformer模型。4.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述流模型包括若干WaveNet的残差块,用于构建内容特征与隐变量的映射关系,内容特征经过流模型转换成隐变量,所述隐变量经过流模型转换为内容特征。5.根据权利要求1所述的语音转换模型训练方法,其特征在于,以所述文本数据计算第一内容特征的方法包括:将文本数据通过字形得到与文本对应的音素,对文本的音素进行表征,由CBHG模块对表征的特征进行编码,得到第一内容特征。6.一种语音转换方法,其特征在于,包括根据权利要求1

5所述的语音转换模型训练方法训练得到的流模型,还包括步骤:获取与源音频说话人信息无关的第一音频特征P1;获取需转化的目标说话人语音,提取目标说话人语音的...

【专利技术属性】
技术研发人员:盛乐园
申请(专利权)人:杭州小影创新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1