语音合成方法、系统、电子设备及介质技术方案

技术编号：40795246 阅读：2 留言：0更新日期：2024-03-28 19:23

本申请提供一种语音合成方法、系统、电子设备及介质，所述方法包括：输入文本内容以获取文本词元；获取参考语音以对所述参考语音进行编码获取语音嵌入数据；对所述语音嵌入数据进行特征转换以获取语音特征矩阵；基于所述文本词元和所述语音特征矩阵获取声学词元序列；基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。本申请能够同时接受文本内容和参考语音，进行语音合成，合成后的语音说话内容为文本内容，风格为参考语音风格，包括说话风格、声音和环境。本申请有效降低了语音合成的难度，并且提高了合成语言的人化程度，情感真实且自然。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于语音处理，涉及一种语音合成方法、系统、电子设备及介质。

技术介绍

1、语音合成（text to speech），简称tts，通常是指处理文本输入并生成旨在模仿人类语音的输出语音。在语音合成技术中，主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分，语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，想好该怎么读；声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，实现发声的功能。在声学系统部分，目前主要有有三种技术实现方式，分别为波形拼接，参数合成以及端到端的语音合成技术。但是，这些技术都存在缺点，例如通过端到端的语音合成技术合成的音频不能认为调优等。

技术实现思路

1、本申请提供一种语音合成方法、系统、电子设备及介质，用于解决现有技术缺少一种简单且自然的语音合成方法的技术问题。

2、第一方面，本申请提供一种语音合成方法，所述方法包括：输入文本内容以获取文本词元；获取参考语音以对所述参考语音进行编码获取语音嵌入数据；对所述语音嵌入数据进行特征转换以获取语音特征矩阵；基于所述文本词元和所述语音特征矩阵获取声学词元序列；基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。

3、在第一方面的一种实现方式中，获取参考语音以对所述参考语音进行编码获取语音嵌入数据包括：基于语音编码器对所述参考语音进行特征抽取与采样，以获取语音嵌入数据。

4、在第一方面的一种实现方式中，所述语

5、在第一方面的一种实现方式中，对所述语音嵌入数据进行特征转换以获取语音特征矩阵包括：构建标签向量矩阵；将所述语音嵌入数据与所述标签向量矩阵作为所述转换模块的输入以获取余弦相似度计算结果；基于所述语音嵌入数据和所述余弦相似度计算结果的独热编码更新所述转换模块的输入，以获取多个所述余弦相似度计算结果；基于多个所述余弦相似度计算结果获取所述语音特征矩阵。

6、在第一方面的一种实现方式中，基于所述文本词元和所述语音特征矩阵获取声学词元序列包括：基于所述文本词元和所述语音特征矩阵获取解码模块的输入，以通过所述解码模块获取声学词元；基于所述声学词元更新所述解码模块的输入以获取多个所述声学词元；基于多个所述声学词元获取所述声学词元序列。

7、在第一方面的一种实现方式中，基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征包括：基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取编码模块的输入，以通过所述编码模块获取新的声学词元序列；基于所述新的声学词元序列更新所述编码模块的输入以获取多个所述声学词元序列；基于多个所述声学词元序列获取声学特征。

8、在第一方面的一种实现方式中，基于声学特征进行语音合成包括：基于所述语音解码器对所述声学特征进行采样以进行语音合成。

9、第二方面，本申请提供一种语音合成系统，包括第一获取模块，用于输入文本内容以获取文本词元；第二获取模块，用于获取参考语音以对所述参考语音进行编码获取语音嵌入数据；第三获取模块，用于对所述语音嵌入数据进行特征转换以获取语音特征矩阵；第四获取模块，用于基于所述文本词元和所述语音特征矩阵获取声学词元序列；第五获取模块，用于基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。

10、第三方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面所述的语音合成方法。

11、第四方面，本申请提供一种电子设备，包括：存储器，被配置为存储计算机程序；以及处理器，与所述存储器通信相连，所述处理器被配置为调用所述计算机程序以执行本申请第一方面所述的语音合成方法。

12、本申请所述的一种语音合成的方法、系统、电子设备及介质，具有以下有益效果：能够同时接受文本内容和参考语音，进行语音合成，合成后的语音说话内容为文本内容，风格为参考语音风格，包括说话风格、声音和环境。本申请有效降低了语音合成的难度，并且提高了合成语言的人化程度，情感真实且自然。

本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的语音合成方法，其特征在于，获取参考语音以对所述参考语音进行编码获取语音嵌入数据包括：

3.根据权利要求2所述的语音合成方法，其特征在于，所述语音编码器由两层卷积层和四个编码块串联构成；所述编码块由三层直连层和一层卷积层串联构成；所述直连层包括两层卷积层；所述卷积层为一维卷积。

4.根据权利要求1所述的语音合成方法，其特征在于，对所述语音嵌入数据进行特征转换以获取语音特征矩阵包括：

5.根据权利要求1所述的语音合成方法，其特征在于，基于所述文本词元和所述语音特征矩阵获取声学词元序列包括：

6.根据权利要求1所述的语音合成方法，其特征在于，基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征包括：

7.根据权利要求1所述的语音合成方法，其特征在于，基于声学特征进行语音合成包括：

8.一种语音合成系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现权

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的语音合成方法，其特征在于，获取参考语音以对所述参考语音进行编码获取语音嵌入数据包括：

4.根据权利要求1所述的语音合成方法，其特征在于，对所述语音嵌入数据进行特征转换以获取语音特征矩阵包括：

5.根据权利要求1所述的语音合成方法，其特征在于，基...

【专利技术属性】
技术研发人员：孔欧，
申请(专利权)人：上海蜜度科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人