语音合成方法、语音导航方法、装置和程序产品制造方法及图纸

技术编号：44735141 阅读：21 留言：0更新日期：2025-03-21 18:00

本申请提供一种语音合成方法、语音导航方法、装置和程序产品。该方法包括：响应于语音合成指令，获取目标对象的示例语音；采用预先训练好的语音合成模型对示例语音进行特征分析，获取目标对象对应的音色特征和时序风格特征；对预先设置的样本文本进行语义提取，获取内容语音信号；采用语音合成模型融合音色特征、时序风格特征和内容语音信号，得到目标对象对应的合成语音。本申请的方法能够提高语音合成速度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音合成，尤其涉及一种语音合成方法、语音导航方法、装置和程序产品。

技术介绍

1、为了提高用户体验，越来越多的领域采用语音播报文本的模式来与用户进行业务交互。

2、语音播报文本的过程设计语音包的生成，不同音色的语音包能够显著提高用户体验。然而，目前所使用的高质量语音包制作过程既复杂又耗时，且严重依赖于大量目标对象的语音数据。

3、这常见的语音包生成过程不仅需要消耗巨量资源，且生成时间也很长，在用户进行语音包自定义生成的场景中，会大大降低了用户的整体体验。

技术实现思路

1、本申请提供一种语音合成方法、语音导航方法、装置和程序产品，用以快速生成合成语音，解决合成语音生成速度慢的问题。

2、一方面，本申请提供一种语音合成方法，包括：

3、响应于语音合成指令，获取目标对象的示例语音；

4、采用预先训练好的语音合成模型对所述示例语音进行特征分析，获取所述目标对象对应的音色特征和时序风格特征；所述语音合成模型基于自蒸馏训练方法训练得到；

本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述采用预先训练好的语音合成模型对所述示例语音进行特征分析，获取所述目标对象对应的音色特征和时序风格特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一编码模块包括时序风格编码器和音色编码器；

4.根据权利要求1所述的方法，其特征在于，所述对预先设置的样本文本进行语义提取，获取内容语音信号，包括：

5.根据权利要求4所述的方法，其特征在于，所述第二编码模块包括文本编码器和映射解码器：

6.根据权利要求1所述的方法，其特征在于，所述采用...

【技术特征摘要】

1.一种语音合成方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一编码模块包括时序风格编码器和音色编码器；

4.根据权利要求1所述的方法，其特征在于，所述对预先设置的样本文本进行语义提取，获取内容语音信号，包括：

5.根据权利要求4所述的方法，其特征在于，所述第二编码模块包括文本编码器和映射解码器：

6.根据权利要求1所述的方法，其特征在于，所述采用所述语音合...

【专利技术属性】
技术研发人员：陈钱牛，蒿晓阳，刘越，
申请(专利权)人：北京高德云图科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人