情感语音合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:43828399 阅读:21 留言:0更新日期:2024-12-31 18:28
本申请公开了一种情感语音合成方法、装置、计算机设备及存储介质。方法通过获取待合成的语音信息和文本信息;将语音信息输入至预训练的情感提取模型,情感提取模型解析语音信息,输出语音信息对应的情感表征;将文本信息输入至预设的文本编码器,文本编码器解析文本信息,输出文本信息对应的文本特征;将文本特征和情感表征输入至预训练的时长预测器,时长预测器解析文本特征和情感表征,输出文本特征和情感表征对应的对齐信息;根据对齐信息、情感表征和文本特征生成目标梅尔频谱,根据目标梅尔频谱生成情感语音,完成情感语音的合成。进而通过实现无标注的情感语音合成解决了情感标注数据难的问题,能实现任意多情感风格的语音合成。

【技术实现步骤摘要】

本申请涉及语音处理,尤其涉及一种情感语音合成方法、装置、计算机设备及存储介质


技术介绍

1、随着人工智能技术的发展,语音合成在人机对话领域占有越来越重要的地位。情感语音合成作为语音合成的重要补充,大大提升了语音合成的应用场景,根据不同的场景和环境,切换对应的情绪表达对于如在金融系统布置智能客服时通过对智能客服合成富有感染力的语音能够大幅提升用户的使用体验。

2、传统的情感语音合成需要在标注的合成语料的基础上,录制大量的与情感和风格相关的数据。导致存在下列问题:第一是情感数据的录制难度很大,单说话人的情感音库无法迁移到其它的音库;第二是标注情感的难度加大,情感相对来说是比较主观的表达特征,不同人员对不同情感的表达的认知和理解不同。基于以上两点,传统的语音情感合成系统受数据标注条件限制较大,导致所合成的语音效果不佳。


技术实现思路

1、本申请提供了一种情感语音合成方法、装置、计算机设备及存储介质,旨在解决传统模式下,当给予用于的角色包含许多用户无需使用的权限时,存在用户利用这些权限获取相关隐私资料的本文档来自技高网...

【技术保护点】

1.一种情感语音合成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述将所述语音信息输入至预训练的情感提取模型之前,还包括:

3.根据权利要求2所述的方法,其特征在于,在所述将所述历史文本信息和历史文本特征输入至预训练的时长预测器之前,还包括:

4.根据权利要求3所述的方法,其特征在于,在所述根据所述目标梅尔频谱生成情感语音之前,还包括:

5.根据权利要求3所述的方法,其特征在于,所述根据所述对齐信息、情感表征和文本特征生成目标梅尔频谱,根据所述目标梅尔频谱生成情感语音,包括:

6.根据权利要求3所述的方...

【技术特征摘要】

1.一种情感语音合成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述将所述语音信息输入至预训练的情感提取模型之前,还包括:

3.根据权利要求2所述的方法,其特征在于,在所述将所述历史文本信息和历史文本特征输入至预训练的时长预测器之前,还包括:

4.根据权利要求3所述的方法,其特征在于,在所述根据所述目标梅尔频谱生成情感语音之前,还包括:

5.根据权利要求3所述的方法,其特征在于,所述根据所述对齐信息、情感表征和文本特征生成目标梅尔频谱,根据所述目标梅尔频谱生成情感语音,包括:

【专利技术属性】
技术研发人员:石岩陈闽川王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1