语音生成模型训练方法、装置、设备及介质制造方法及图纸

技术编号:46052356 阅读:6 留言:0更新日期:2025-08-11 15:40
本发明专利技术涉及语音合成技术领域,提供了一种语音生成模型训练方法:获取样本数据集;通过预设训练模型中的语义特征模块对样本文本和样本语音进行语义特征识别,得到样本语义特征;通过声学特征模块对样本语音和样本语义特征进行声学特征识别,得到样本声学特征;通过声学解码模块对样本声学特征进行语音生成,得到预测生成语音;根据与同一样本文本对应的预测生成语音和样本语音,确定预测损失值;在预测损失值达到收敛条件时,将收敛之后的预设训练模型记录为语音生成模型。本发明专利技术应用于医疗问答场景或金融问答场景中。本发明专利技术通过语义特征模块和声学特征模块,实现了对语义特征和声学特征的条件分布的模拟,提高了训练时语音生成的效率。

【技术实现步骤摘要】

本专利技术涉及语音合成,尤其涉及一种语音生成模型训练方法、装置、设备及介质


技术介绍

1、语音生成技术是指可以将文本转换为对应的语音的合成技术,在互联网、金融、医疗、教育等多个领域中具有广泛的应用。在金融场景和医疗场景中,为了解答用户的疑问,通常配置有人员与用户进行交流,由于金融业务和医疗业务复杂多样,大量的咨询业务等简单任务会降低业务人员的工作效率和工作质量,而采用基于语音合成的智能会话方式可以节省大量的人工成本,同时可以通过控制合成语音来提升对客户的服务质量。因此,语音合成技术在金融场景和医疗场景中起到重要的辅助作用。现有技术中,对于使用非自回归模型的系统(比如扩散模型),在训练时往往需要数百乃至上千个去噪步骤才能实现高质量的语音生成,极大限制了生成效率和准确率。


技术实现思路

1、本专利技术实施例提供一种语音生成模型训练方法、装置、设备及介质,以解决现有技术中使用非自回归模型的系统在训练时效率和准确率较低的问题。

2、一种语音生成模型训练方法,包括:

3、获取样本数据集,所述样本文档来自技高网...

【技术保护点】

1.一种语音生成模型训练方法,其特征在于,包括:

2.如权利要求1所述的语音生成模型训练方法,其特征在于,所述通过所述预设训练模型中的语义特征模块对所述样本文本和所述样本语音进行语义特征识别,得到与各所述样本文本对应的样本语义特征,包括:

3.如权利要求2所述的语音生成模型训练方法,其特征在于,所述通过所述语义特征模块中的语义编码器对所述样本语音进行语义编码,得到完整语义特征和掩码语义特征,包括:

4.如权利要求1所述的语音生成模型训练方法,其特征在于,所述通过所述预设训练模型中的声学特征模块对所述样本语音和所述语义特征进行声学特征识别,得到与各所述样...

【技术特征摘要】

1.一种语音生成模型训练方法,其特征在于,包括:

2.如权利要求1所述的语音生成模型训练方法,其特征在于,所述通过所述预设训练模型中的语义特征模块对所述样本文本和所述样本语音进行语义特征识别,得到与各所述样本文本对应的样本语义特征,包括:

3.如权利要求2所述的语音生成模型训练方法,其特征在于,所述通过所述语义特征模块中的语义编码器对所述样本语音进行语义编码,得到完整语义特征和掩码语义特征,包括:

4.如权利要求1所述的语音生成模型训练方法,其特征在于,所述通过所述预设训练模型中的声学特征模块对所述样本语音和所述语义特征进行声学特征识别,得到与各所述样本文本对应的样本声学特征,包括:

5.如权利要求4所述的语音生成模型训练方法,其特征在于,所述通过所述声学...

【专利技术属性】
技术研发人员:石岩陈闽川王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1