语音合成模型的训练方法、使用方法、装置、设备及介质制造方法及图纸

技术编号：32963071 阅读：10 留言：0更新日期：2022-04-09 10:57

本申请公开了一种语音合成模型的训练方法、使用方法、装置、设备及介质，属于语音合成领域。该方法包括：获取第一样本语音数据和第二样本语音数据；提取所述第一样本语音数据的第一PPG特征，以及提取所述第二样本语音数据的第二PPG特征；采用所述第一样本语音数据对应的文本序列和所述第一PPG特征，训练得到文本到PPG模型；采用所述第二PPG特征和所述第二样本语音数据，训练得到PPG到语音模型。本申请提供了一种能够合成韵律自然且高质量的语音数据的语音合成模型。使用了低质量语音数据和高质量语音数据，共同训练语音合成模型，学习低质量语音数据中丰富的韵律信息，并保证语音合成模型输出的合成语音数据的高质量。合成模型输出的合成语音数据的高质量。合成模型输出的合成语音数据的高质量。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型的训练方法、使用方法、装置、设备及介质

[0001]本申请涉及语音合成领域，特别涉及一种语音合成模型的训练方法、使用方法、装置、设备及介质。

技术介绍

[0002]语音合成(Text To Speech，TTS)是将文本转化为拟人化语音的技术。
[0003]目前多使用基于机器学习的语音合成模型来进行语音合成。该语音合成模型需要预先采用文本和语音数据所组成的样本TTS音频库进行训练。互联网上存在非常多的低质量语音数据可以用于构建样本TTS音频库。相关技术中，先采用语音增强模型来对低质量语音数据进行增强，然后构建样本TTS音频库。
[0004]由于语音增强模型会破坏语音数据本身的音质，导致最终训练得到语音合成模型所合成的语音存在失真的问题。

技术实现思路

[0005]本申请提供了一种语音合成模型的训练方法、使用方法、装置、设备及介质，通过分别学习语音数据中的韵律信息，和保证语音数据的高质量，获得可以合成包含丰富韵律信息的高质量语音数据的语音合成模型。所述技术方案如下：
[0006]根据本申请的一方面，提供了一种语音合成模型的训练方法，所述方法包括：
[0007]获取第一样本语音数据和第二样本语音数据，所述第一样本语音数据的质量差于第二样本语音数据；
[0008]提取所述第一样本语音数据的第一音素后验(Phonetic Posteriorgrams，PPG)特征，以及提取所述第二样本语音数据的第二PPG特征；
[0009]采用所述第一样本语音数据对...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法，其特征在于，所述方法包括：获取第一样本语音数据和第二样本语音数据，所述第一样本语音数据的质量差于第二样本语音数据；提取所述第一样本语音数据的第一音素后验PPG特征，以及提取所述第二样本语音数据的第二PPG特征；采用所述第一样本语音数据对应的文本序列和所述第一PPG特征，训练得到文本到PPG模型，所述文本到PPG模型是用于将输入的文本序列转换为PPG特征的机器学习模型；采用所述第二PPG特征和所述第二样本语音数据，训练得到PPG到语音模型，所述PPG到语音模型是用于将所述PPG特征转换为语音数据的机器学习模型。2.根据权利要求1所述的方法，其特征在于，所述文本到PPG模型包括：编码器和解码器；所述采用所述第一样本语音数据对应的文本序列和所述第一PPG特征，训练得到文本到PPG模型，包括：将所述第一样本语音数据对应的文本序列的特征表示输入到所述编码器中，得到所述文本序列的隐层特征表示；将所述文本序列的隐层特征表示输入到所述解码器中，得到所述文本序列的预测PPG特征；基于所述第一PPG特征和所述预测PPG特征之间的误差，对所述编码器和所述解码器进行后向误差传播训练，以得到训练后的所述文本到PPG模型。3.根据权利要求2所述的方法，其特征在于，所述解码器是基于注意力机制的自回归模型。4.根据权利要求1所述的方法，其特征在于，所述PPG到语音模型包括：PPG到语音特征模型和语音特征到语音模型；所述采用所述第二PPG特征和所述第二样本语音数据，训练得到PPG到语音模型，包括：提取所述第二样本语音数据中的样本语音特征；将所述第二PPG特征输入到所述PPG到语音特征模型，得到预测语音特征；基于所述样本语音特征和所述预测语音特征之间的误差，对所述PPG到语音特征模型进行后向误差传播训练，以得到训练后的所述PPG到语音特征模型；将所述样本语音特征输入到所述语音特征到语音模型，得到预测语音数据；基于所述第二样本语音数据和所述预测语音数据之间的误差，对所述语音特征到语音模型进行后向误差传播训练，以得到训练后的所述语音特征到语音模型。5.根据权利要求4所述的方法，其特征在于，所述PPG到语音特征模型是帧级的自回归模型。6.根据权利要求4所述的方法，其特征在于，所述语音特征到语音模型是对抗式生成网络模型，所述对抗式生成网络模型包括生成器和判别器，所述生成器用于根据所述样本语音特征生成所述预测语音数据，所述判别器用于判断待判别语音数据是所述第二样本语音数据还是所述预测语音数据；所述基于所述第二样本语音数据和所述预测语音数据之间的误差，对所述语音特征到语音模型进行后向误差传播训练，以得到训练后的所述语音特征到语音模型，包括：
固定所述生成器的网络参数不变，基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果，对所述判别器进行后向误差传播训练；固定所述判别器的网络参数不变，基于所述判别器对所述第二样本语音数据和所述预测语音数据的判断结果，对所述生成器进行后向误差传播训练；交替执行上述两个步骤，直至满足训练结束条件。7.根据权利要求1至6任一所述的方法，其特征在于，所述提取所述第一样本语音数据的第一PPG特征，包括：通过自动语音识别ASR声学...

【专利技术属性】
技术研发人员：苏丹，阳珊，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人