【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种语音合成模型的训练方法、装置、设备及存储介质。
技术介绍
1、随着深度学习技术的发展,可以将深度学习应用于文本转语音的任务之中。利用扩散概率模型(diffusion probabilistic models,dpms)合成文本的语音是其中一个研究方向。
2、然而,扩散概率模型依赖于多个反向步骤逐步去噪,每一个去噪步骤都需要一定的时间,导致语音合成速度缓慢。并且,扩散概率模型是通过逐步去噪恢复输入信号的过程,这个过程中可能会产生一定的模糊性或不确定性,某些细节(如发音的清晰度、音高的准确性等)仍可能表现得较为模糊或者不稳定,导致合成的语音在自然性和清晰度上有所欠缺,影响合成的语音的质量。此外,由于扩散概率模型的复杂性,以及语音合成过程需要多次迭代并处理复杂的概率分布,训练难度高,且需要大量的计算资源,增加训练成本。
3、因此,如何在降低训练难度和训练成本的同时,提供具有更快合成速度、更高合成效果的语音合成模型,以提高合成的语音的质量,成为了亟待解决的技术问题。
...
【技术保护点】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过OT-CFM机制,引导常微分方程对所述音素序列进行声学特征生成处理,得到与文本样本的期望声学特征对齐的预测声学特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述预测声学特征与所述期望声学特征进行对齐处理,得到所述对齐的预测声学特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述OT-CFM损失函数,将所述预测声学特征与所述期望声学特征进行对齐处理,得到所述对齐的预测声学特征,包括:
【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过ot-cfm机制,引导常微分方程对所述音素序列进行声学特征生成处理,得到与文本样本的期望声学特征对齐的预测声学特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述预测声学特征与所述期望声学特征进行对齐处理,得到所述对齐的预测声学特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述ot-cfm损失函数,将所述预测声学特征与所述期望声学特征进行对齐处理,得到所述对齐的预测声学特征,包括:
5.根据权利要求2所述的方法,其特征在于,所述通过所述改进tts声学模型的解码器,根据所述常微分方程,对所述音素序列进行声学特征生成处理,得到所述文本样本的预测声学特征之前,还包括:
【专利技术属性】
技术研发人员:孙奥兰,王健宗,程宁,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。