语音合成模型的训练方法、语音合成方法、装置及介质制造方法及图纸

技术编号：42994530 阅读：24 留言：0更新日期：2024-10-15 13:24

本公开提供了一种语音合成模型的训练方法、语音合成方法、装置及介质，属于计算机技术领域。上述方法包括：通过编码模块对样本音频进行编码，得到第一编码序列，通过语言模型对样本文本进行处理，得到第二编码序列，通过解码模块对第一编码序列进行处理，得到目标音频；基于第一编码序列和第二编码序列，确定第一训练损失；基于样本音频和目标音频，确定第二训练损失；基于第一训练损失、第二训练损失以及第三训练损失，训练第一语音合成模型，得到第二语音合成模型。上述技术方案能够采用联合训练的方式对语音合成模型中的多个模块进行训练，简化了训练步骤，减小了训练过程中的累积误差，提高了训练效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，特别涉及一种语音合成模型的训练方法、语音合成方法、装置及介质。

技术介绍

1、语音合成技术是指将文本序列转换为自然逼真的语音波形的技术。语音合成技术广泛应用于语音导航、智能家居等场景中。语音合成技术通常借助于语言模型实现。例如，在语音导航系统中，通过语言模型对输入文本进行处理，以输出流畅自然的导航语音。

2、相关技术中，通常采用两阶段训练的方式来训练语言模型。具体地，先对编码器进行预训练，以通过预训练好的编码器将样本音频编码成一段离散的编码序列(如token序列)。然后，通过与该样本音频对应的样本文本和上述编码序列对语言模型进行训练，以使语言模型能够根据输入文本预测编码序列。然后再通过解码器根据预测的编码序列来合成音频。

3、但是，上述训练方法需要先训练编码器，再训练语言模型，训练流程较为复杂，训练的累积误差较大，导致模型训练的效率和准确率均较为低下。

技术实现思路

1、本公开提供一种语音合成模型的训练方法、语音合成方法、装置及介质，能够对语音合成...

【技术保护点】

1.语音合成模型的训练方法，其特征在于，第一语音合成模型包括语言模型、编码模块以及解码模块，所述语言模型用于预测输入文本对应的编码序列，所述编码模块用于将输入音频编码成编码序列，所述解码模块用于基于编码序列重建音频；所述方法包括：

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述通过所述编码模块对样本音频进行编码，得到第一编码序列，包括：

3.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述通过所述编码模块中的量化器，分别对所述音频特征向量中的多行子特征向量进行量化，得到所述第一编码序列中的多个编码值，包括：

4.根据权利要...

【技术特征摘要】

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述通过所述编码模块对样本音频进行编码，得到第一编码序列，包括：

4.根据权利要求3所述的语音合成模型的训练方法，其特征在于，所述第三训练损失的确定过程包括：

5.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述通过所述语言模型对样本文本进行处理，得到第二编码序列，包括：

6.根据权利要求5所述的语音合成模型的训练方法，其特征在于，所述获取所述样本文本的音素序列，包括：

7.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述通过所述解码模块对所述第一编码序列进行处理，得到目标音频，包括：

8.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述基于所述第一训练损失、所述第二训练损失以及第三训练损失，...

【专利技术属性】
技术研发人员：强春雨，张晨，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人