语音合成模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:45097590 阅读:34 留言:0更新日期:2025-04-25 18:36
本申请实施例提供了一种语音合成模型的训练方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取文本样本的音素序列,以及文本样本的语音的真实声学特征;将音素序列和真实声学特征输入至改进TTS声学模型进行训练;通过OT‑CFM机制,引导常微分方程对音素序列进行声学特征生成处理,得到与文本样本的期望声学特征对齐的预测声学特征;根据对齐的预测声学特征和真实声学特征,对改进TTS声学模型进行参数更新,得到训练好的语音合成模型,训练好的语音合成模型用于合成文本的语音。本申请实施例能够降低训练难度和训练成本,提供具有更快合成速度、更高合成效果的语音合成模型,以提高合成的语音的质量。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种语音合成模型的训练方法、装置、设备及存储介质


技术介绍

1、随着深度学习技术的发展,可以将深度学习应用于文本转语音的任务之中。利用扩散概率模型(diffusion probabilistic models,dpms)合成文本的语音是其中一个研究方向。

2、然而,扩散概率模型依赖于多个反向步骤逐步去噪,每一个去噪步骤都需要一定的时间,导致语音合成速度缓慢。并且,扩散概率模型是通过逐步去噪恢复输入信号的过程,这个过程中可能会产生一定的模糊性或不确定性,某些细节(如发音的清晰度、音高的准确性等)仍可能表现得较为模糊或者不稳定,导致合成的语音在自然性和清晰度上有所欠缺,影响合成的语音的质量。此外,由于扩散概率模型的复杂性,以及语音合成过程需要多次迭代并处理复杂的概率分布,训练难度高,且需要大量的计算资源,增加训练成本。

3、因此,如何在降低训练难度和训练成本的同时,提供具有更快合成速度、更高合成效果的语音合成模型,以提高合成的语音的质量,成为了亟待解决的技术问题。


技术实现思路<本文档来自技高网...

【技术保护点】

1.一种语音合成模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过OT-CFM机制,引导常微分方程对所述音素序列进行声学特征生成处理,得到与文本样本的期望声学特征对齐的预测声学特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述预测声学特征与所述期望声学特征进行对齐处理,得到所述对齐的预测声学特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述OT-CFM损失函数,将所述预测声学特征与所述期望声学特征进行对齐处理,得到所述对齐的预测声学特征,包括:

>5.根据权利要求2...

【技术特征摘要】

1.一种语音合成模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过ot-cfm机制,引导常微分方程对所述音素序列进行声学特征生成处理,得到与文本样本的期望声学特征对齐的预测声学特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述预测声学特征与所述期望声学特征进行对齐处理,得到所述对齐的预测声学特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述ot-cfm损失函数,将所述预测声学特征与所述期望声学特征进行对齐处理,得到所述对齐的预测声学特征,包括:

5.根据权利要求2所述的方法,其特征在于,所述通过所述改进tts声学模型的解码器,根据所述常微分方程,对所述音素序列进行声学特征生成处理,得到所述文本样本的预测声学特征之前,还包括:

【专利技术属性】
技术研发人员:孙奥兰王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1