语音转换模型训练方法及装置、语音转换方法及装置制造方法及图纸

技术编号：34775477 阅读：25 留言：0更新日期：2022-08-31 19:46

本发明专利技术涉及语音转换领域的语音转换模型训练方法及装置、语音转换方法及装置，模型训练方法，包括步骤：获取第一语音和与所述第一语音内容相同的文本数据，以所述文本数据计算第一内容特征；提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量；将所述第一隐变量和所述第一说话人特征输入流模型，以所述第一说话人特征为条件，计算输出第二说话特征，以第二说话特征和第一内容特征计算损失函数，提取达到预设优化参量后的第一隐变量，将优化后的第一隐变量输入解码器得到预测语音。本发明专利技术技术很好地保留了说话人的语气语调等信息。术很好地保留了说话人的语气语调等信息。术很好地保留了说话人的语气语调等信息。

全部详细技术资料下载

【技术实现步骤摘要】
语音转换模型训练方法及装置、语音转换方法及装置

[0001]本专利技术涉及语音转换领域，尤其涉及一种语音转换模型训练方法及装置、语音转换方法及装置。

技术介绍

[0002]由于深度学习的发展及在各领域的应用，语音转换也得到了很多的受益。语音转换是对语音中的音色进行转换，其目标是只改变说话人的音色，说话人的内容，情感，语气，快慢等均要和原音频保持一致。举例：有A，B两个说话人，这时A说了一句话(S)，语音转换的功能就是将这句话(S)中的音色换成B的声音，其他的内容保持不变。根据训练所使用的数据集可以划分为：1.基于平行语料的语音转换，2.基于非平行语料的语音转换。平行语料指：对于数据集中的每一条句子(S1)，都有另外一条句子(S2)，他们之间的区别只是说话人的音色不一致，其他的信息，比如内容，情感，语气，快慢等都相同。由于这种平行语料很难获得，所以目前的研究重点都基于非平行的语料的语音转换。
[0003]内容编码，现有的语音转换技术，首先会将源音频利用语音识别的方式提取对比预测编码。对比预测编码一般不包含音频中的说话人、语气、语调等信息，更多的是包含内容信息。
[0004]说话人编码，说话人编码是指从音频中提取说话人的技术，一般是利用深度学习技术提取出一个说话人向量。
[0005]特征解码，特征解码是将内容编码和说话人编码通过深度学习网络进行特征的融合，与从真实语音中提取的梅尔频谱计算损失。
[0006]声码器，将从真实语音中提取的梅尔频谱作为输入，利用神经网络模型比如：WaveNet，...

【技术保护点】

【技术特征摘要】
1.一种语音转换模型训练方法，其特征在于，获取第一语音和与所述第一语音内容相同的文本数据，以所述文本数据计算第一内容特征；提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量；将所述第一隐变量和所述第一说话人特征输入流模型，以所述第一说话人特征为条件，计算输出第二说话特征，以第二说话特征和第一内容特征计算损失函数，提取达到预设优化参量后的第一隐变量，将优化后的第一隐变量输入解码器得到预测语音。2.根据权利要求1所述的语音转换模型训练方法，其特征在于，所述提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括：采用后验编码器，以所述第一频谱特征计算第一隐变量，所述后验编码器包括若干WaveNet残差模型。3.根据权利要求1所述的语音转换模型训练方法，其特征在于，所述提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括：采用说话人编码器，以所述第一频谱特征计算第一说话人特征，所述说话人编码器包括Conformer模型。4.根据权利要求1所述的语音转换模型训练方法，其特征在于，所述流模型包括若干WaveNet的残差块，用于构建内容特征与隐变量的映射关系，内容特征经过流模型转换成隐变量，所述隐变量经过流模型转换为内容特征。5.根据权利要求1所述的语音转换模型训练方法，其特征在于，以所述文本数据计算第一内容特征的方法包括：将文本数据通过字形得到与文本对应的音素，对文本的音素进行表征，由CBHG模块对表征的特征进行编码，得到第一内容特征。6.一种语音转换方法，其特征在于，包括根据权利要求1
‑
5所述的语音转换模型训练方法训练得到的流模型，还包括步骤：获取与源音频说话人信息无关的第一音频特征P1；获取需转化的目标说话人语音，提取目标说话人语音的...

【专利技术属性】
技术研发人员：盛乐园，
申请(专利权)人：杭州小影创新科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人