语音合成模型的训练方法、使用方法、装置、设备及介质制造方法及图纸

技术编号:32963071 阅读:10 留言:0更新日期:2022-04-09 10:57
本申请公开了一种语音合成模型的训练方法、使用方法、装置、设备及介质,属于语音合成领域。该方法包括:获取第一样本语音数据和第二样本语音数据;提取所述第一样本语音数据的第一PPG特征,以及提取所述第二样本语音数据的第二PPG特征;采用所述第一样本语音数据对应的文本序列和所述第一PPG特征,训练得到文本到PPG模型;采用所述第二PPG特征和所述第二样本语音数据,训练得到PPG到语音模型。本申请提供了一种能够合成韵律自然且高质量的语音数据的语音合成模型。使用了低质量语音数据和高质量语音数据,共同训练语音合成模型,学习低质量语音数据中丰富的韵律信息,并保证语音合成模型输出的合成语音数据的高质量。合成模型输出的合成语音数据的高质量。合成模型输出的合成语音数据的高质量。

【技术实现步骤摘要】
语音合成模型的训练方法、使用方法、装置、设备及介质


[0001]本申请涉及语音合成领域,特别涉及一种语音合成模型的训练方法、使用方法、装置、设备及介质。

技术介绍

[0002]语音合成(Text To Speech,TTS)是将文本转化为拟人化语音的技术。
[0003]目前多使用基于机器学习的语音合成模型来进行语音合成。该语音合成模型需要预先采用文本和语音数据所组成的样本TTS音频库进行训练。互联网上存在非常多的低质量语音数据可以用于构建样本TTS音频库。相关技术中,先采用语音增强模型来对低质量语音数据进行增强,然后构建样本TTS音频库。
[0004]由于语音增强模型会破坏语音数据本身的音质,导致最终训练得到语音合成模型所合成的语音存在失真的问题。

技术实现思路

[0005]本申请提供了一种语音合成模型的训练方法、使用方法、装置、设备及介质,通过分别学习语音数据中的韵律信息,和保证语音数据的高质量,获得可以合成包含丰富韵律信息的高质量语音数据的语音合成模型。所述技术方案如下:
[0006]根据本申请的一方面,提供了一种语音合成模型的训练方法,所述方法包括:
[0007]获取第一样本语音数据和第二样本语音数据,所述第一样本语音数据的质量差于第二样本语音数据;
[0008]提取所述第一样本语音数据的第一音素后验(Phonetic Posteriorgrams,PPG)特征,以及提取所述第二样本语音数据的第二PPG特征;
[0009]采用所述第一样本语音数据对应的文本序列和所述第一PPG特征,训练得到文本到PPG模型,所述文本到PPG模型是用于将输入的文本序列转换为PPG特征的机器学习模型;
[0010]采用所述第二PPG特征和所述第二样本语音数据,训练得到PPG到语音模型,所述PPG到语音模型是用于将所述PPG特征转换为语音数据的机器学习模型。
[0011]根据本申请的另一方面,提供了一种语音合成模型的使用方法,所述方法包括:
[0012]所述语音合成模型的使用方法包括:
[0013]获取输入文本;
[0014]将所述输入文本输入至所述文本到PPG模型,得到所述输入文本的预测PPG特征;
[0015]将所述输入文本的预测PPG特征输入至所述PPG到语音模型,得到所述输入文本对应的预测语音数据;
[0016]输出所述预测语音数据。
[0017]根据本申请的另一方面,提供了一种语音合成模型的训练装置,所述装置包括:
[0018]数据获取模块,用于获取第一样本语音数据和第二样本语音数据,所述第一样本语音数据的质量差于第二样本语音数据;
[0019]特征提取模块,用于提取所述第一样本语音数据的第一音素后验PPG特征,以及提取所述第二样本语音数据的第二PPG特征;
[0020]第一训练模块,用于采用所述第一样本语音数据对应的文本序列和所述第一PPG特征,训练得到文本到PPG模型,所述文本到PPG模型是用于将输入的文本序列转换为PPG特征的机器学习模型;
[0021]第二训练模块,用于采用所述第二PPG特征和所述第二样本语音数据,训练得到PPG到语音模型,所述PPG到语音模型是用于将所述PPG特征转换为语音数据的机器学习模型。
[0022]在本申请的一个可选设计中,所述文本到PPG模型包括:编码器和解码器;
[0023]所述第一训练模块,还用于将所述第一样本语音数据对应的文本序列的特征表示输入到所述编码器中,得到所述文本序列的隐层特征表示;
[0024]将所述文本序列的隐层特征表示输入到所述解码器中,得到所述文本序列的预测PPG特征;
[0025]基于所述第一PPG特征和所述预测PPG特征之间的误差,对所述编码器和所述解码器进行后向误差传播训练,以得到训练后的所述文本到PPG模型。
[0026]在本申请的一个可选设计中,所述解码器是基于注意力机制的自回归模型。
[0027]在本申请的一个可选设计中,所述PPG到语音模型包括:PPG到语音特征模型和语音特征到语音模型;
[0028]所述第二训练模块,包括:
[0029]特征提取单元,用于提取所述第二样本语音数据中的样本语音特征;
[0030]第一预测单元,用于将所述第二PPG特征输入到所述PPG到语音特征模型,得到预测语音特征;
[0031]第一训练单元,用于基于所述样本语音特征和所述预测语音特征之间的误差,对所述PPG到语音特征模型进行后向误差传播训练,以得到训练后的所述PPG到语音特征模型;
[0032]第二预测单元,用于将所述样本语音特征输入到所述语音特征到语音模型,得到预测语音数据;
[0033]第二训练单元,用于基于所述第二样本语音数据和所述预测语音数据之间的误差,对所述语音特征到语音模型进行后向误差传播训练,以得到训练后的所述语音特征到语音模型。
[0034]在本申请的一个可选设计中,所述PPG到语音特征模型是帧级的自回归模型。
[0035]在本申请的一个可选设计中,所述语音特征到语音模型是对抗式生成网络模型,所述对抗式生成网络模型包括生成器和判别器,所述生成器用于根据所述样本语音特征生成所述预测语音数据,所述判别器用于判断待判别语音数据是所述第二样本语音数据还是所述预测语音数据;
[0036]所述第二训练单元,还用于:固定所述生成器的网络参数不变,基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果,对所述判别器进行后向误差传播训练;
[0037]固定所述判别器的网络参数不变,基于所述判别器对所述第二样本语音数据和所
述预测语音数据的判断结果,对所述生成器进行后向误差传播训练;交替执行上述两个步骤,直至满足训练结束条件。
[0038]在本申请的一个可选设计中,所述特征提取模块,还用于:
[0039]通过ASR声学模型提取所述第一样本语音数据的第一PPG特征;
[0040]通过所述ASR声学模型提取所述第二样本语音数据的第二PPG特征。
[0041]根据本申请的另一方面,提供了一种语音合成模型的使用装置,所述装置包括:
[0042]获取模块,用于获取输入文本;
[0043]第一预测模块,用于将所述输入文本输入至所述文本到PPG模型,得到所述输入文本的预测PPG特征;
[0044]第二预测模块,用于将所述输入文本的预测PPG特征输入至所述PPG到语音模型,得到所述输入文本对应的预测语音数据;
[0045]输出模块,用于输出所述预测语音数据。
[0046]在本申请的一个可选设计中,所述PPG到语音模型包括:PPG到语音特征模型和语音特征到语音模型;
[0047]所述第二预测模块,还用于:
[0048]将所述输入文本的预测PPG特征输入至所述PPG到语音特征模型,得到所述预测PPG特征的预测语音特征;
[0049]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:获取第一样本语音数据和第二样本语音数据,所述第一样本语音数据的质量差于第二样本语音数据;提取所述第一样本语音数据的第一音素后验PPG特征,以及提取所述第二样本语音数据的第二PPG特征;采用所述第一样本语音数据对应的文本序列和所述第一PPG特征,训练得到文本到PPG模型,所述文本到PPG模型是用于将输入的文本序列转换为PPG特征的机器学习模型;采用所述第二PPG特征和所述第二样本语音数据,训练得到PPG到语音模型,所述PPG到语音模型是用于将所述PPG特征转换为语音数据的机器学习模型。2.根据权利要求1所述的方法,其特征在于,所述文本到PPG模型包括:编码器和解码器;所述采用所述第一样本语音数据对应的文本序列和所述第一PPG特征,训练得到文本到PPG模型,包括:将所述第一样本语音数据对应的文本序列的特征表示输入到所述编码器中,得到所述文本序列的隐层特征表示;将所述文本序列的隐层特征表示输入到所述解码器中,得到所述文本序列的预测PPG特征;基于所述第一PPG特征和所述预测PPG特征之间的误差,对所述编码器和所述解码器进行后向误差传播训练,以得到训练后的所述文本到PPG模型。3.根据权利要求2所述的方法,其特征在于,所述解码器是基于注意力机制的自回归模型。4.根据权利要求1所述的方法,其特征在于,所述PPG到语音模型包括:PPG到语音特征模型和语音特征到语音模型;所述采用所述第二PPG特征和所述第二样本语音数据,训练得到PPG到语音模型,包括:提取所述第二样本语音数据中的样本语音特征;将所述第二PPG特征输入到所述PPG到语音特征模型,得到预测语音特征;基于所述样本语音特征和所述预测语音特征之间的误差,对所述PPG到语音特征模型进行后向误差传播训练,以得到训练后的所述PPG到语音特征模型;将所述样本语音特征输入到所述语音特征到语音模型,得到预测语音数据;基于所述第二样本语音数据和所述预测语音数据之间的误差,对所述语音特征到语音模型进行后向误差传播训练,以得到训练后的所述语音特征到语音模型。5.根据权利要求4所述的方法,其特征在于,所述PPG到语音特征模型是帧级的自回归模型。6.根据权利要求4所述的方法,其特征在于,所述语音特征到语音模型是对抗式生成网络模型,所述对抗式生成网络模型包括生成器和判别器,所述生成器用于根据所述样本语音特征生成所述预测语音数据,所述判别器用于判断待判别语音数据是所述第二样本语音数据还是所述预测语音数据;所述基于所述第二样本语音数据和所述预测语音数据之间的误差,对所述语音特征到语音模型进行后向误差传播训练,以得到训练后的所述语音特征到语音模型,包括:
固定所述生成器的网络参数不变,基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果,对所述判别器进行后向误差传播训练;固定所述判别器的网络参数不变,基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果,对所述生成器进行后向误差传播训练;交替执行上述两个步骤,直至满足训练结束条件。7.根据权利要求1至6任一所述的方法,其特征在于,所述提取所述第一样本语音数据的第一PPG特征,包括:通过自动语音识别ASR声学...

【专利技术属性】
技术研发人员:苏丹阳珊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1