用于语音合成的方法、装置、设备和存储介质制造方法及图纸

技术编号：42246082 阅读：28 留言：0更新日期：2024-08-02 13:56

本公开的实施例提供一种用于语音合成的方法、装置、设备和介质。一种方法包括：获取至少一个提示音频和待合成的目标文本；基于目标文本以及至少一个提示音频中与目标韵律相匹配的第一提示音频，利用语音合成模型中的第一编码器模块，提取第一提示音频和目标文本的韵律特征序列；基于至少一个提示音频中与目标音色相匹配的第二提示音频，利用语音合成模型中的第二编码器模块，提取第二提示音频的音色特征序列；以及至少基于韵律特征序列和音色特征序列，生成具备目标音色和目标韵律的目标语音。由此，能够合成具备提示语音的音色和韵律的语音，从而提高语音合成的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机领域，并且更具体地，涉及用于语音合成的方法、装置、设备和计算机可读存储介质。

技术介绍

1、随着人工智能和全球广域网(web)应用发展越来越成熟，语音合成技术在全球广域网中的应用越来越广泛。除了语音合成的清晰度和可懂度以外，人们对语音合成的自然度、节奏感以及音频质量的要求也越来越高。因此，期待使合成语音的表现力更加丰富，以及保留合成语音的细节。

技术实现思路

1、在本公开的第一方面，提供一种用于语音合成的方法。该方法包括：获取至少一个提示音频和待合成的目标文本；基于目标文本以及至少一个提示音频中与目标韵律相匹配的第一提示音频，利用语音合成模型中的第一编码器模块，提取第一提示音频和目标文本的韵律特征序列；基于至少一个提示音频中与目标音色相匹配的第二提示音频，利用语音合成模型中的第二编码器模块，提取第二提示音频的音色特征序列；以及至少基于韵律特征序列和音色特征序列，生成具备目标音色和目标韵律的目标语音。

2、在本公开的第二方面，提供一种用于语音合成的...

【技术保护点】

1.一种语音合成方法，包括：

2.根据权利要求1所述的方法，其中生成具备所述目标音色和所述目标韵律的目标语音包括：

3.根据权利要求1所述的方法，其中提取所述第二提示音频的音色特征序列包括：

4.根据权利要求1所述的方法，其中提取所述第一提示音频和所述目标文本的韵律特征序列包括：

5.根据权利要求4所述的方法，其中提取具备所述目标韵律的所述目标文本对应的音素帧序列包括：

6.根据权利要求1所述的方法，其中生成具备所述目标音色和目标韵律的目标语音包括：

7.根据权利要求1所述的方法，其中所述语音合成模型通过以下方式被训...

【技术特征摘要】

1.一种语音合成方法，包括：

2.根据权利要求1所述的方法，其中生成具备所述目标音色和所述目标韵律的目标语音包括：

3.根据权利要求1所述的方法，其中提取所述第二提示音频的音色特征序列包括：

4.根据权利要求1所述的方法，其中提取所述第一提示音频和所述目标文本的韵律特征序列包括：

5.根据权利要求4所述的方法，其中提取具备所述目标韵律的所述目标文本对应的音素帧序列包括：

6.根据权利要求1所述的方法，其中生成具备所述目标音色和目标韵...

【专利技术属性】
技术研发人员：张雅洁，宋伟，吴友政，
申请(专利权)人：京东城市北京数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人