语音合成方法和装置、电子设备及存储介质制造方法及图纸

技术编号:43920272 阅读:25 留言:0更新日期:2025-01-03 13:24
本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质,属于人工智能及金融技术领域。该方法包括:获取样本语音数据、样本文本数据、第一样本合成语音数据和样本合成频谱数据;基于样本语音数据、样本文本数据、第一样本合成语音数据和样本合成频谱数据对原始频谱合成模型进行模型优化,得到目标频谱合成模型;根据样本合成频谱数据、第一样本合成语音数据对原始语音合成模型进行模型优化,得到目标语音合成模型;通过目标频谱合成模型对参考语音数据和目标文本数据进行频谱合成,得到目标频谱数据;通过目标语音合成模型对目标频谱数据进行语音合成,得到目标合成语音数据。本申请实施例能够提高合成语音的效率。

【技术实现步骤摘要】

本申请涉及人工智能及金融,尤其涉及一种语音合成方法和装置、电子设备及存储介质


技术介绍

1、语音合成是一种将文本输入转换为语音输出的技术,可以应用于多种场景,例如在金融领域中,用于在智能助手、虚拟主播等场景中合成自然的语音。

2、目前,主要使用某一特定说话人的语音数据对语音合成模型进行训练,然后根据文本数据进行语音合成。但是当需要合成其他说话人的语音时,需要对语音合成模型进行重新训练,影响了语音合成的效率。

3、因此,如何提高语音合成的效率,成为了亟待解决的技术问题。


技术实现思路

1、本申请实施例的主要目的在于提出一种语音合成方法和装置、电子设备及存储介质,旨在提高语音合成的效率。

2、为实现上述目的,本申请实施例的第一方面提出了一种语音合成方法,所述方法包括:

3、获取样本语音数据和样本文本数据;其中,所述样本语音数据具有样本参考说话人特征;

4、根据所述样本参考说话人特征和所述样本文本数据进行语音合成,得到语音合成样本;其中,所述语音合成样本本文档来自技高网...

【技术保护点】

1.一种语音合成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述原始频谱合成模型包括原始说话人特征提取模型、原始音素特征提取模型和原始梅尔谱生成模型;所述通过预设的原始频谱合成模型对所述样本语音数据和所述样本文本数据进行频谱合成,得到目标样本频谱数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述样本合成频谱数据和所述目标样本频谱数据对所述原始频谱合成模型进行模型优化,得到目标频谱合成模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述原始频谱合成模型还包括优化说话人特征提取模型;所述基于所述目标...

【技术特征摘要】

1.一种语音合成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述原始频谱合成模型包括原始说话人特征提取模型、原始音素特征提取模型和原始梅尔谱生成模型;所述通过预设的原始频谱合成模型对所述样本语音数据和所述样本文本数据进行频谱合成,得到目标样本频谱数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述样本合成频谱数据和所述目标样本频谱数据对所述原始频谱合成模型进行模型优化,得到目标频谱合成模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述原始频谱合成模型还包括优化说话人特征提取模型;所述基于所述目标样本频谱数据对所述原始说话人特征提取模型进行模型调整,得到目标说话人特征提取模型,包括:

5.根据权利要求1所述的方法,其特征在于,所述原始语音合成模型包括原始扩散模型和原始声码器;所...

【专利技术属性】
技术研发人员:赵博涛彭俊清王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1