语音合成方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：39142369 阅读：7 留言：0更新日期：2023-10-23 14:55

本申请提供一种语音合成方法、装置、电子设备及可读存储介质。所述方法包括：获取待合成文本的每个音频片段的情感强度，每个所述音频片段分别对应所述待合成文本的一个音节，所述情感强度是音素级的情感强度；根据所述情感强度以及声学模型，获得所述待合成文本对应的梅尔频谱；基于所述梅尔频谱生成语音。本申请的实施例，获取待合成文本的每个音频片段的情感强度，声学模型基于情感强度获得所述待合成文本对应的梅尔频谱；基于所述梅尔频谱生成语音。其中的音频频段是每个音节对应的音频片段，获得的情感强度是音素级的情感强度，实现了细粒度情感可控的语音合成，合成的语音具有的情感更加准确。的情感更加准确。的情感更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备及可读存储介质

[0001]本申请涉及语音处理
，特别是指一种语音合成方法、装置、电子设备及可读存储介质。

技术介绍

[0002]语音合成(Speech Synthesis)，又称文语转换(Text to Speech，TTS)技术，是一种可以将文本转换为语音的技术。情感是说话人讲话时的内在情绪表现，是人机交互中不可缺少的部分。情感的表达包含情感的类别与强度两方面。情感语音合成旨在合成不同类别及不同强度情感的语音。当前主流的情感语音合成通常基于两种途径，即通过标签显式学习情感信息和通过参考音频隐式学习情感信息，当前对情感可控的研究大多都在句子级别的情感强度控制，无法精细控制句子的细节，使得合成的语音的情感不准确。

技术实现思路

[0003]本申请的目的是提供一种语音合成方法、装置、电子设备及可读存储介质，解决了现有的语音合成方法合成的语音的情感不准确的问题。
[0004]为达到上述目的，本申请的实施例提供一种语音合成方法，所述方法包括：
[0005]获取待合成文本的每个音频片段的情感强度，每个所述音频片段分别对应所述待合成文本的一个音节，所述情感强度是音素级的情感强度；
[0006]根据所述情感强度以及声学模型，获得所述待合成文本对应的梅尔频谱；
[0007]基于所述梅尔频谱生成语音。
[0008]可选的，所述获取待合成文本的每个音频片段的情感强度，包括：
[0009]提取所述待合成文本中每个音节对应的时长信息；
>[0010]根据所述时长信息对所述待合成文本进行音频截取，获得与音节对应的音频片段；
[0011]使用排序函数获取每个所述音频片段的音节级的情感强度；
[0012]将所述音节级的情感强度和音节级的待合成文本进行对齐，获得带有音节标记的待合成文本；
[0013]根据所述待合成文本的音节标记，执行音节级到音素级的上采样过程，获得所述音频片段的音素级的情感强度。
[0014]可选的，所述使用排序函数获取每个所述音频片段的音节级的情感强度，包括：
[0015]使用openSMILE特征提取器提取所述音频片段的openSMILE特征；
[0016]根据所述openSMILE特征，使用排序函数计算每个音频片段的音节级的情感强度。
[0017]可选的，所述方法还包括：
[0018]使用训练数据训练排序函数，所述训练数据包括情感音频数据和中性音频数据；其中所述排序函数的训练过程包括：
[0019]随机抽取所述训练数据中的两条音频数据；
[0020]通过openSMILE特征提取器提取所述音频数据的openSMILE特征；
[0021]利用排序函数的权重值对所述openSMILE特征进行加权求和，获得句子级的情感强度；
[0022]根据所述句子级的情感强度对所述排序函数进行迭代优化。
[0023]可选的，所述声学模型包括：文本编码器、情感编码器、韵律适配器以及解码器；
[0024]所述根据所述情感强度以及声学模型，获得所述待合成文本对应的梅尔频谱，包括：
[0025]将所述待合成文本对应的音素级文本输入所述文本编码器，获得编码的第一文本表征向量；
[0026]通过所述情感编码器并基于所述情感强度获得第一情感表征向量；
[0027]将所述第一文本表征向量和所述第一情感表征向量相加，获得第一文本情感表征向量；
[0028]将所述第一文本情感表征向量输入韵律适配器，获得韵律适配器的输出结果；
[0029]将所述韵律适配器的输出结果输入解码器，获得预测的梅尔频谱。
[0030]可选的，将所述待合成文本对应的音素级文本输入所述文本编码器，获得编码的第一文本表征向量，包括：
[0031]将所述待合成文本对应的音素级文本输入所述文本编码器，提取所述音素级文本的语言信息；所述文本编码器用于：根据所述语言信息编码获得并输出所述第一文本表征向量；
[0032]其中，所述语言信息包括：音频片段的数量、音素的数量、特征维度。
[0033]可选的，通过所述情感编码器并基于所述情感强度获得第一情感表征向量，包括：
[0034]在所述情感编码器中输入中性标签和情感标签，获得中性向量和情感向量；所述情感编码器用于：使用所述情感强度对所述中性向量和所述情感向量进行加权求和，获得并输出第一情感表征向量。
[0035]可选的，将所述第一文本情感表征向量输入韵律适配器，获得韵律适配器的输出结果，包括：
[0036]将所述第一文本情感表征向量输入韵律适配器，所述韵律适配器用于：获得每个音素的持续时长并利用所述持续时长对所述文本情感表征向量进行扩帧，获得帧级的第一文本情感表征向量；
[0037]将所述帧级的第一文本情感表征向量输入清浊音预测器，生成清浊音标签；所述韵律适配器还用于：将所述清浊音标签和所述帧级的第一文本情感表征向量相加，作为韵律适配器的输出结果。
[0038]可选的，所述声学模型包括：文本编码器、情感编码器、韵律适配器以及解码器；
[0039]所述方法还包括：使用训练数据对所述声学模型进行训练；
[0040]其中，所述声学模型的训练过程包括：
[0041]将所述训练数据对应的音素级文本输入所述文本编码器，获得编码的第二文本表征向量；
[0042]通过所述情感编码器并基于所述训练数据的情感强度获得第二情感表征向量；
[0043]将所述第二文本表征向量和所述第二情感表征向量相加，获得第二文本情感表征
向量；
[0044]将所述第二文本情感表征向量输入韵律适配器，获得韵律适配器的输出结果；
[0045]将所述韵律适配器的输出结果输入解码器，获得预测的梅尔频谱；
[0046]计算所述预测的梅尔频谱与真实梅尔频谱的均方误差，
[0047]根据所述均方误差对所述声学模型进行迭代优化。
[0048]可选的，将所述训练数据对应的音素级文本输入所述文本编码器，获得编码的第二文本表征向量，包括：
[0049]将所述训练数据对应的音素级文本输入所述文本编码器，提取所述音素级文本的语言信息；所述文本编码器用于：根据所述语言信息编码获得并输出所述第二文本表征向量；
[0050]其中，所述语言信息包括：音频片段的数量、音素的数量、特征维度。
[0051]可选的，通过所述情感编码器并基于所述训练数据的情感强度获得第二情感表征向量，包括：
[0052]在所述情感编码器中输入中性标签和情感标签，获得中性向量和情感向量；
[0053]所述情感编码器用于：使用所述训练数据的情感强度对所述中性向量和所述情感向量进行加权求和，获得并输出第二情感表征向量。
[0054]可选的，将所述第二文本情感表征向量输入韵律适配器，获得韵律适配器的输出结果，包括：
[0055]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取待合成文本的每个音频片段的情感强度，每个所述音频片段分别对应所述待合成文本的一个音节，所述情感强度是音素级的情感强度；根据所述情感强度以及声学模型，获得所述待合成文本对应的梅尔频谱；基于所述梅尔频谱生成语音。2.根据权利要求1所述的方法，其特征在于，所述获取待合成文本的每个音频片段的情感强度，包括：提取所述待合成文本中每个音节对应的时长信息；根据所述时长信息对所述待合成文本进行音频截取，获得与音节对应的音频片段；使用排序函数获取每个所述音频片段的音节级的情感强度；将所述音节级的情感强度和音节级的待合成文本进行对齐，获得带有音节标记的待合成文本；根据所述待合成文本的音节标记，执行音节级到音素级的上采样过程，获得所述音频片段的音素级的情感强度。3.根据权利要求2所述的方法，其特征在于，所述使用排序函数获取每个所述音频片段的音节级的情感强度，包括：使用openSMILE特征提取器提取所述音频片段的openSMILE特征；根据所述openSMILE特征，使用排序函数计算每个音频片段的音节级的情感强度。4.根据权利要求2所述的方法，其特征在于，所述方法还包括：使用训练数据训练排序函数，所述训练数据包括情感音频数据和中性音频数据；其中所述排序函数的训练过程包括：随机抽取所述训练数据中的两条音频数据；通过openSMILE特征提取器提取所述音频数据的openSMILE特征；利用排序函数的权重值对所述openSMILE特征进行加权求和，获得句子级的情感强度；根据所述句子级的情感强度对所述排序函数进行迭代优化。5.根据权利要求1所述的方法，其特征在于，所述声学模型包括：文本编码器、情感编码器、韵律适配器以及解码器；所述根据所述情感强度以及声学模型，获得所述待合成文本对应的梅尔频谱，包括：将所述待合成文本对应的音素级文本输入所述文本编码器，获得编码的第一文本表征向量；通过所述情感编码器并基于所述情感强度获得第一情感表征向量；将所述第一文本表征向量和所述第一情感表征向量相加，获得第一文本情感表征向量；将所述第一文本情感表征向量输入韵律适配器，获得韵律适配器的输出结果；将所述韵律适配器的输出结果输入解码器，获得预测的梅尔频谱。6.根据权利要求5所述的方法，其特征在于，将所述待合成文本对应的音素级文本输入所述文本编码器，获得编码的第一文本表征向量，包括：将所述待合成文本对应的音素级文本输入所述文本编码器，提取所述音素级文本的语言信息；所述文本编码器用于：根据所述语言信息编码获得并输出所述第一文本表征向量；
其中，所述语言信息包括：音频片段的数量、音素的数量、特征维度。7.根据权利要求5所述的方法，其特征在于，通过所述情感编码器并基于所述情感强度获得第一情感表征向量，包括：在所述情感编码器中输入中性标签和情感标签，获得中性向量和情感向量；所述情感编码器用于：使用所述情感强度对所述中性向量和所述情感向量进行加权求和，获得并输出第一情感表征向量。8.根据权利要求5所述的方法，其特征在于，将所述第一文本情感表征向量输入韵律适配器，获得韵律适配器的输出结果，包括：将所述第一文本情感表征向量输入韵律适配器，所述韵律适配器用于：获得每个音素的持续时长并利用所述持续时长对所述文本情感表征向量进行扩帧，获得帧级的第一文本情感表征向量；将所述帧级的第一文本情感表征向量输入清浊音预测器，生成清浊音标签；所述韵律适配器还用于：将所述清浊音标签和所述帧级的第一文本情感表征向量相加，作为韵律适配器的输出结果。9.根据权利要求1所述的方法，其特征在于，所述声学模型包括：文本编码器、情感编码器、韵律适配器以及解码器；所述方法还包括：使用训练数据对所述声学模型进行训练；其中，所述声学模型的训练过程包括：将所述训练数据对应的音素级文本输入所述文本编码器，获得编码的第二文本表征向量；通过所述情感编码器并基于所述训练数据的情感强...

【专利技术属性】
技术研发人员：刘莹，高莹莹，张世磊，雷怡，李函昭，谢磊，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人