语音合成模型的训练方法、语音合成方法、装置及设备制造方法及图纸

技术编号：44368210 阅读：13 留言：0更新日期：2025-02-25 09:47

本公开提供了一种语音合成模型的训练方法、语音合成方法、装置及设备，属于计算机技术领域。第一语音合成模型包括语言网络和扩散网络；方法包括：通过语言网络对样本文本和样本音频进行处理，得到第一音频特征，样本文本和样本音频内容一致，第一音频特征包括样本文本的内容特征和样本音频的声学特征；通过扩散网络，基于第一音频特征，对添加有参考噪声的样本音频进行噪声预测，得到预测噪声；基于参考噪声和预测噪声，确定第一训练损失；基于第一训练损失，对第一语音合成模型中的语言网络和扩散网络更新参数，得到第二语音合成模型。上述技术方案实现了对语音合成模型端到端训练的目的，简化了训练步骤，利于提高模型的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，特别涉及一种语音合成模型的训练方法、语音合成方法、装置及设备。

技术介绍

1、随着计算机技术的快速发展，语音合成技术已经广泛应用于人们日常生活中。例如，语音助手、导航系统、智能家居控制、阅读软件等。它通过将文本信息转换为可听的语音，为用户提供了更加自然和便捷的交互方式。

2、目前，语音合成技术主要基于网络模型来实现。网络模型通常将文本到语音的处理过程分为两个阶段：文本到语义和语义到声学。先通过有监督训练网络模型中的编码器，以学习文本的语义信息；再通过无监督训练网络模型中的语言模型，以学习将语义信息转换为声学特征；最后基于声学特征生成语音。

3、但是，上述技术方案中，需要分别对文本到语义和语义到声学分开进行训练，影响了模型的训练效率。

技术实现思路

1、本公开提供一种语音合成模型的训练方法、语音合成方法、装置及设备，实现了对语音合成模型端到端训练的目的，简化了训练步骤，利于提高模型的训练效率。本公开的技术方案如下：

2、根据本公开实施例的...

【技术保护点】

1.一种语音合成模型的训练方法，其特征在于，第一语音合成模型包括语言网络和扩散网络，所述语言网络用于预测文本的音频特征，所述扩散网络用于基于文本的音频特征重建音频；所述方法包括：

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述通过所述语言网络对样本文本和样本音频进行处理，得到第一音频特征，包括：

3.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述基于所述样本文本的内容，从所述样本音频中截取样本音频片段，包括：

4.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述基于所述样本文本的内容，从所述样本音频中截取样本...

【技术特征摘要】

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述通过所述语言网络对样本文本和样本音频进行处理，得到第一音频特征，包括：

3.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述基于所述样本文本的内容，从所述样本音频中截取样本音频片段，包括：

4.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述基于所述样本文本的内容，从所述样本音频中截取样本音频片段，包括：

5.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述样本音频中包括多个对象的语音；

6.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述通过所述扩散网络，基于所述第一音频特征，对添加有参考噪声的所述样本音频进行噪声预测，得到预测噪声，包括：

7.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述方法...

【专利技术属性】
技术研发人员：强春雨，张晨，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人