语音合成方法、系统及电子设备技术方案

技术编号：39965804 阅读：10 留言：0更新日期：2024-01-09 00:24

本申请实施例提供一种语音合成方法、系统及电子设备。该方法包括：获取待语音合成的目标文本；基于风格匹配模型从多个预标注了自然语言风格描述的注释音频中进行检索，以确定与所述目标文本相匹配的目标注释音频；所述风格匹配模型包含大语言模型模块；参照所述目标注释音频，基于TTS模型合成所述目标文本所对应的目标音频。由此，借助于大语言模型强大的自然语言理解能力，能够较佳地得出与待语音合成的目标文本相匹配的风格，并且利用目标注释音频来指导TTS模型生成目标文本所对应的目标音频，能在较低标注成本下实现高质量的合成语音。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音处理，尤其涉及一种语音合成方法、系统、电子设备及存储介质。

技术介绍

1、随着智能语音技术的不断发展，tts(text to speech,文本语音合成)神经模型可以在合成语音的质量和自然度方面实现实质性的改进，但是在合成语音和人类语音之间的表达能力方面仍然存在显著的差距，这涉及到对风格相关特征(例如音调、情感等)的复杂操作，限制了tts系统迎合多样化的场景和应用需求，催生了对表现力tts的研究。

2、目前，一些风格类的tts产品已经被推广，例如styletagging-tts、prompttts、instructtts等等，实现由直接自然语言风格提示驱动按照该指定风格来合成语音。

3、但是，这些tts产品都需要显式地将标注参考音频的风格嵌入与通过基于bert的模型提取的标注语义嵌入在跨模态隐空间中对齐，其需要大量的人工标注与训练，造成高成本，此外预定义的标注场景缺乏用户可调的灵活性。例如，当用户输入文本超过预定义注释场景时，其所合成的音频的风格效果无法达到预期，导致产品性能遭受质疑。

4、针对上述问题，目前业界暂未提出较佳的解决方案。

技术实现思路

1、本申请提供一种语音合成方法、系统、电子设备及存储介质，用以解决现有技术中风格tts的实现成本较高且灵活性较差的问题。

2、第一方面，本申请实施例提供一种语音合成方法，包括：获取待语音合成的目标文本；基于风格匹配模型从多个预标注了自然语言风格描述的注释音频中进行检索，以确

3、根据本申请实施例提供的语音合成方法，所述基于风格匹配模型从多个预标注了自然语言风格描述的注释音频中进行检索，以确定与所述目标文本相匹配的目标注释音频，包括：基于所述大语言模型模块，计算所述目标文本与各个所述注释音频所标注的自然语言风格描述之间的文本相似度；从所述各个注释音频中，将对应具有最大文本相似度的注释音频确定为目标注释音频。

4、根据本申请实施例提供的语音合成方法，所述参照所述目标注释音频，基于tts模型合成所述目标文本所对应的目标音频，包括：获取所述目标注释音频所对应的梅尔频谱；基于变分自编码器确定所述梅尔频谱所对应的第一音频矢量特征；将所述目标文本和所述第一音频矢量特征输入至所述tts模型，以由所述tts模型输出所述目标文本所对应的目标音频。

5、根据本申请实施例提供的语音合成方法，所述梅尔频谱是根据所述目标注释音频中的音频片段而确定的。

6、根据本申请实施例提供的语音合成方法，所述tts模型包含级联的矢量转换器和声码器，所述将所述目标文本和所述第一音频矢量特征输入至所述tts模型，以由所述tts模型输出所述目标文本所对应的目标音频，包括：基于所述矢量转换器对所述目标文本进行矢量编码，以确定相应的第二音频矢量特征；融合所述第一音频矢量特征和所述第二音频矢量特征，以确定相应的目标矢量特征；基于所述声码器对所述目标矢量特征进行音频编码，以输出目标音频。

7、根据本申请实施例提供的语音合成方法，在所述基于变分自编码器确定所述梅尔频谱所对应的第一音频矢量特征之后，所述方法还包括：获取所述目标文本所对应的目标音素序列；将所述目标音素序列和所述第一音频矢量特征输入至所述tts模型，以由所述tts模型输出所述目标文本所对应的目标音频。

8、根据本申请实施例提供的语音合成方法，所述基于变分自编码器确定所述梅尔频谱所对应的第一音频矢量特征，包括：基于所述变分自编码器中的第一完全连接层和第二完全连接层，分别确定所述梅尔频谱所对应的变分自编码器潜在变量的平均值和对数尺度标准偏差；其中所述第一完全连接层与所述第二完全连接层相互分离；基于所述变分自编码器中的第一完全连接层和第二完全连接层，分别确定所述梅尔频谱所对应的变分自编码器潜在变量的平均值和标准差；其中所述第一完全连接层与所述第二完全连接层相互分离；基于所述平均值和所述标准差，采样以确定变分自编码器潜在变量；根据所述变分自编码器潜在变量，确定所述第一音频矢量特征。

9、第二方面，本申请实施例提供一种语音合成系统，包括：文本获取单元，用于获取待语音合成的目标文本；音频检索单元，用于基于风格匹配模型从多个预标注了自然语言风格描述的注释音频中进行检索，以确定与所述目标文本相匹配的目标注释音频；所述风格匹配模型包含大语言模型模块；音频合成单元，用于参照所述目标注释音频，基于tts模型合成所述目标文本所对应的目标音频。

10、第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例的语音合成方法的步骤。

11、第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请任一实施例的语音合成方法的步骤。

12、本申请实施例的有益效果在于：在进行语音合成操作时，利用包含大语言模型模块的风格匹配模型从多个预标注了自然语言风格描述的注释音频检索确定相匹配的目标注释音频，利用此目标注释音频来指导tts模型合成目标文本所对应的目标音频。由此，借助于大语言模型强大的语义解析能力和强泛化水平，即使用户输入文本超过预定义注释场景，也能够较佳地得出与待语音合成的目标文本相匹配的风格，确保生成tts具有较佳的风格效果；此外，在本申请实施例中，利用目标注释音频来指导tts模型生成目标文本所对应的目标音频，能在较低标注成本下实现高质量的合成语音。

本文档来自技高网...

【技术保护点】

1.一种语音合成方法，包括：

2.根据权利要求1所述的语音合成方法，其中，所述基于风格匹配模型从多个预标注了自然语言风格描述的注释音频中进行检索，以确定与所述目标文本相匹配的目标注释音频，包括：

3.根据权利要求1所述的语音合成方法，其中，所述参照所述目标注释音频，基于TTS模型合成所述目标文本所对应的目标音频，包括：

4.根据权利要求3所述的语音合成方法，其中，所述梅尔频谱是根据所述目标注释音频中的音频片段而确定的；所述音频片段所对应的音频时长小于所述目标注释音频的总音频时长。

5.根据权利要求3所述的语音合成方法，其中，所述TTS模型包含级联的矢量转换器和声码器，

6.根据权利要求3所述的语音合成方法，其中，在所述基于变分自编码器确定所述梅尔频谱所对应的第一音频矢量特征之后，所述方法还包括：

7.根据权利要求3所述的语音合成方法，其中，所述基于变分自编码器确定所述梅尔频谱所对应的第一音频矢量特征，包括：

8.一种语音合成系统，包括：

9.一种电子设备，其包括：至少一个处理器，以及与

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种语音合成方法，包括：

3.根据权利要求1所述的语音合成方法，其中，所述参照所述目标注释音频，基于tts模型合成所述目标文本所对应的目标音频，包括：

5.根据权利要求3所述的语音合成方法，其中，所述tts模型包含级联的矢量转换器和声码器，

6.根据权利要求3所述的...

【专利技术属性】
技术研发人员：俞凯，张杭磊，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人