语音合成模型的训练方法、语音合成方法、装置及设备制造方法及图纸

技术编号:44368210 阅读:13 留言:0更新日期:2025-02-25 09:47
本公开提供了一种语音合成模型的训练方法、语音合成方法、装置及设备,属于计算机技术领域。第一语音合成模型包括语言网络和扩散网络;方法包括:通过语言网络对样本文本和样本音频进行处理,得到第一音频特征,样本文本和样本音频内容一致,第一音频特征包括样本文本的内容特征和样本音频的声学特征;通过扩散网络,基于第一音频特征,对添加有参考噪声的样本音频进行噪声预测,得到预测噪声;基于参考噪声和预测噪声,确定第一训练损失;基于第一训练损失,对第一语音合成模型中的语言网络和扩散网络更新参数,得到第二语音合成模型。上述技术方案实现了对语音合成模型端到端训练的目的,简化了训练步骤,利于提高模型的训练效率。

【技术实现步骤摘要】

本公开涉及计算机,特别涉及一种语音合成模型的训练方法、语音合成方法、装置及设备


技术介绍

1、随着计算机技术的快速发展,语音合成技术已经广泛应用于人们日常生活中。例如,语音助手、导航系统、智能家居控制、阅读软件等。它通过将文本信息转换为可听的语音,为用户提供了更加自然和便捷的交互方式。

2、目前,语音合成技术主要基于网络模型来实现。网络模型通常将文本到语音的处理过程分为两个阶段:文本到语义和语义到声学。先通过有监督训练网络模型中的编码器,以学习文本的语义信息;再通过无监督训练网络模型中的语言模型,以学习将语义信息转换为声学特征;最后基于声学特征生成语音。

3、但是,上述技术方案中,需要分别对文本到语义和语义到声学分开进行训练,影响了模型的训练效率。


技术实现思路

1、本公开提供一种语音合成模型的训练方法、语音合成方法、装置及设备,实现了对语音合成模型端到端训练的目的,简化了训练步骤,利于提高模型的训练效率。本公开的技术方案如下:

2、根据本公开实施例的一方面,提供一种语音本文档来自技高网...

【技术保护点】

1.一种语音合成模型的训练方法,其特征在于,第一语音合成模型包括语言网络和扩散网络,所述语言网络用于预测文本的音频特征,所述扩散网络用于基于文本的音频特征重建音频;所述方法包括:

2.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述通过所述语言网络对样本文本和样本音频进行处理,得到第一音频特征,包括:

3.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述样本文本的内容,从所述样本音频中截取样本音频片段,包括:

4.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述样本文本的内容,从所述样本音频中截取样本...

【技术特征摘要】

1.一种语音合成模型的训练方法,其特征在于,第一语音合成模型包括语言网络和扩散网络,所述语言网络用于预测文本的音频特征,所述扩散网络用于基于文本的音频特征重建音频;所述方法包括:

2.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述通过所述语言网络对样本文本和样本音频进行处理,得到第一音频特征,包括:

3.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述样本文本的内容,从所述样本音频中截取样本音频片段,包括:

4.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述样本文本的内容,从所述样本音频中截取样本音频片段,包括:

5.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述样本音频中包括多个对象的语音;

6.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述通过所述扩散网络,基于所述第一音频特征,对添加有参考噪声的所述样本音频进行噪声预测,得到预测噪声,包括:

7.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述方法还包括:

8.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述方法...

【专利技术属性】
技术研发人员:强春雨张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1