一种训练方法、语音转换方法及装置和电子设备制造方法及图纸

技术编号:33965695 阅读:29 留言:0更新日期:2022-06-30 01:24
本公开提供一种训练方法、语音转换方法及装置和电子设备,涉及语音转换技术领域。所述训练方法包括:利用编码器从音频文本提取第一分布参数,利用解码器处理音频频谱信息和音频音色信息,获得第一隐变量,基于单调对齐搜索算法更新编码器的网络参数和解码器的网络参数,直到第一隐变量服从第一分布参数。由于解码器为基于流的生成模型,使得音频转换模型可以快速转换超长文本语音转换。以快速转换超长文本语音转换。以快速转换超长文本语音转换。

【技术实现步骤摘要】
一种训练方法、语音转换方法及装置和电子设备


[0001]本专利技术涉及人工智能
,尤其涉及一种训练方法、语音转换方法及装置和电子设备。

技术介绍

[0002]语音转换(Voice Conversion)是一种在说话内容不变基础上,将原始说话人的语音音色迁移到目标说话人的语音音色的方式,其在电影配音、角色模仿、复刻人物音色、教育领域等方面都有重要的应用。
[0003]以教育领域为例,在直播教学过程中可以为用户提供IP定制、个性化定制音色等变声服务。目前,可以通过单样本语音转换复制音色,以降低对语音转换训练数据的要求,并显著节省计算资源。

技术实现思路

[0004]根据本公开的一方面,提供了一种训练方法,用于训练语音转换模型,所述语音转换模型包括编码器和解码器,所述解码器为基于流的生成模型,所述方法包括:
[0005]利用所述编码器从语音文本提取第一分布参数;
[0006]利用所述解码器处理语音频谱信息和语音音色信息,获得第一隐变量,所述语音文本、所述语音频谱信息和所述语音音色信息来自同一语音;
...

【技术保护点】

【技术特征摘要】
1.一种训练方法,其特征在于,用于训练语音转换模型,所述语音转换模型包括编码器和解码器,所述解码器为基于流的生成模型,所述方法包括:利用所述编码器从语音文本提取第一分布参数;利用所述解码器处理语音频谱信息和语音音色信息,获得第一隐变量,所述语音文本、所述语音频谱信息和所述语音音色信息来自同一语音;基于单调对齐搜索算法更新所述编码器的网络参数和所述解码器的网络参数,直到所述第一隐变量服从所述第一分布参数。2.根据权利要求1所述的方法,其特征在于,所述编码器包括:转换单元,用于将所述语音文本转换为语音音素;提取单元,用于预测所述语音音素的时序信息;以及线性单元,用于基于所述时序信息确定所述第一分布参数。3.根据权利要求1所述的方法,其特征在于,所述解码器包括:压缩单元,用于对所述语音频谱信息进行压缩,获得频谱压缩信息;流模组,用于基于所述频谱压缩信息和所述语音音色信息获得耦合信息;以及解压单元,用于将所述耦合信息解压为所述第一隐变量。4.根据权利要求1所述的方法,其特征在于,所述语音音色信息包括语音风格特征和服从分布函数的音色相关参数,所述音色相关参数包括语音能量和语音基频,所述分布函数的类型与所述第一分布参数对应的分布函数的类型匹配;和/或,所述语音音色信息为来自参考模型的音色信息,所述参考模型包括:特征提取子模型,用于提取所述语音的语音风格特征;音色编码子模型,用于对所述音色相关参数进行编码,获得服从分布函数的音色相关参数;拼接单元,用于拼接所述语音风格特征和服从分布函数的音色相关参数,获得语音音色信息。5.根据权利要求1~4任一项所述的方法,其特征在于,所述基于单调对齐搜索算法更新所述编码器的网络参数和所述解码器的网络参数,直到所述第一隐变量服从所述第一分布参数,包括:采用单调对齐方式确定所述第一隐变量与所述语音文本的单调对齐信息;基于所述单调对齐信息和所述第一分布参数,获得第二隐变量;当所述第一隐变量和所述第二隐变量确定的损失量大于或等于第一阈值,基于所述第一隐变量和所述第二隐变量更新所述解码器的网络参数;基于所述单调对齐信息确定所述第二隐变量对齐的第二分布参数;当所述第一分布参数和所述第二分布参数确定的损失量大于或等于第二阈值,基于所述第一分布参数和所述第二分布参数更新所述编码器的网络参数。6.根据权利要求5所述的方法,其特征在于,所述采用单调对齐方式确定所述第一隐变量与所述语音文本的单调对齐信息,包括:基于所述第一分布参数、所述第一隐变量和语音频谱帧数,采用最大似然估计方式确定所述第一分布参数和所述第一隐变量的单调对齐信息;所述基于所述单调对齐信息和所述第一分布参数,获得第二隐变量,包括:
基于所述单调对齐信息,采用梯度下降法确定最大似然概率的模型参数;基于所述最大似然概率的模型参数、所述单调对齐信息和所述第一分布参数确定所述第二隐变量。7.一种语音转换方法,其特征在于,应用权利要求1~6任一项所述方法训练的语音转换模型,所述方法包括:获取原始语音;利用解码器处理同一所述原始语音的...

【专利技术属性】
技术研发人员:贺刚陈昌滨
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1