【技术实现步骤摘要】
本公开涉及计算机,特别涉及一种语音合成模型的训练方法、语音合成方法、装置及设备。
技术介绍
1、随着计算机技术的快速发展,语音合成技术已经广泛应用于人们日常生活中。例如,语音助手、导航系统、智能家居控制、阅读软件等。它通过将文本信息转换为可听的语音,为用户提供了更加自然和便捷的交互方式。
2、目前,语音合成技术主要基于网络模型来实现。网络模型通常将文本到语音的处理过程分为两个阶段:文本到语义和语义到声学。先通过有监督训练网络模型中的编码器,以学习文本的语义信息;再通过无监督训练网络模型中的语言模型,以学习将语义信息转换为声学特征;最后基于声学特征生成语音。
3、但是,上述技术方案中,需要分别对文本到语义和语义到声学分开进行训练,影响了模型的训练效率。
技术实现思路
1、本公开提供一种语音合成模型的训练方法、语音合成方法、装置及设备,实现了对语音合成模型端到端训练的目的,简化了训练步骤,利于提高模型的训练效率。本公开的技术方案如下:
2、根据本公开实施例的
...【技术保护点】
1.一种语音合成模型的训练方法,其特征在于,第一语音合成模型包括语言网络和扩散网络,所述语言网络用于预测文本的音频特征,所述扩散网络用于基于文本的音频特征重建音频;所述方法包括:
2.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述通过所述语言网络对样本文本和样本音频进行处理,得到第一音频特征,包括:
3.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述样本文本的内容,从所述样本音频中截取样本音频片段,包括:
4.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述样本文本的内容,从所
...【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,第一语音合成模型包括语言网络和扩散网络,所述语言网络用于预测文本的音频特征,所述扩散网络用于基于文本的音频特征重建音频;所述方法包括:
2.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述通过所述语言网络对样本文本和样本音频进行处理,得到第一音频特征,包括:
3.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述样本文本的内容,从所述样本音频中截取样本音频片段,包括:
4.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述基于所述样本文本的内容,从所述样本音频中截取样本音频片段,包括:
5.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述样本音频中包括多个对象的语音;
6.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述通过所述扩散网络,基于所述第一音频特征,对添加有参考噪声的所述样本音频进行噪声预测,得到预测噪声,包括:
7.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述方法还包括:
8.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述方法...
【专利技术属性】
技术研发人员:强春雨,张晨,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。