一种语音合成方法和系统技术方案

技术编号：40354632 阅读：4 留言：0更新日期：2024-02-09 14:39

本申请提供了一种语音合成方法和系统，方法包括：将输入文本转换成音素序列；使用编码器对所述音素序列进行特征提取，获取编码特征；若输出流式语音，根据所述编码特征确定所述输入文本的每一片段的第一声学特征，使用声码器不断将每一片段的所述第一声学特征转换为语音波形；若输出非流式语音，根据所述编码特征确定所述输入文本的完整的第二声学特征，使用声码器将完整的所述第二声学特征转换为语音波形。输出流式语音可应用于用户需要快速、准确地获取信息的场景，输出非流式语音适用于语音质量需求高的场景，基于此，本申请不仅能够实现流式语音的输出，还通过切换输出流式语音和非流式语音，增加语音合成系统可适用的场景。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音合成，尤其涉及一种语音合成方法和系统。

技术介绍

1、语音合成系统是一种用于将文本信息转换为声音信息的系统。语音合成系统通过文本分析、语音合成和音频处理等技术，将输入的文本转化成自然流畅的语音并输出，实现人机交互。

2、目前的语音合成系统采用一次性将所有的文本转化成语音后输出的方式。即，用户在问完问题后需要等待一段时间，直到语音合成系统将所有的文本处理完成后，一次性输出全部的语音(称为非流式语音)，用户才能得到回复。在一些场景中，用户在与语音合成系统交互的过程中，需要实时听到正在合成的语音(称为流式语音)。

3、然而，目前的语音合成系统无法生成流式语音。

技术实现思路

1、本申请提供了一种语音合成方法和系统，能够实现流式语音的输出，以及流式语音和非流式语音之间的切换。

2、第一方面，提供了一种语音合成方法，包括：

3、将输入文本转换成音素序列；

4、使用编码器对音素序列进行特征提取，获取编码特征；

5、若输出流式语音，根据编码特征确定输入文本的每一片段的第一声学特征，使用声码器不断将每一片段的第一声学特征转换为语音波形；

6、若输出非流式语音，根据编码特征确定输入文本的完整的第二声学特征，使用声码器将完整的第二声学特征转换为语音波形。

7、在一种可行的设计中，若输出流式语音，根据编码特征确定输入文本的每一片段的第一声学特征，包括：

8、获取用户需求；