结合情感强度的语音合成方法、电子设备及可读存储介质技术

技术编号：38322402 阅读：29 留言：0更新日期：2023-07-29 09:04

本申请涉及人工智能技术领域，提供了一种结合情感强度的语音合成方法、装置、电子设备及计算机可读存储介质，方法包括：获取语音信号以及与语音信号对应的合成文本；对合成文本进行检索处理得到音素序列以及音符音高特征；将文本特征输入至音高编码模型进行转换处理得到文本音高信息；将第二音高特征信息和文本音高信息输入至残差音高预测网络模型进行第一迭代预测处理，得到有效音高信息；以及将第二持续时间信息输入至预训练的残差持续时间预测网络模型进行第二迭代预测处理，得到有效持续时间；对合成音高信息进行解码处理得到合成语音梅尔频谱图。通过上述技术方案能够在语音合成的过程中兼备情感表达，使得语音合成的效果更佳。效果更佳。效果更佳。

全部详细技术资料下载

【技术实现步骤摘要】
结合情感强度的语音合成方法、电子设备及可读存储介质

[0001]本申请实施例涉及但不限于人工智能
，尤其涉及一种结合情感强度的语音合成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]在现有技术中，语音合成技术已经得到了快速的发展，被广泛地应用于智能音箱、虚拟机器人和电话机器人等领域；在金融行业中，已经越来越多地利用虚拟机器人来回答客户所咨询的问题；在传统的技术语音合成系统中，通过从参考音频中提取音频情感特征加入到系统中，从而控制合成音音频的情感接近参考音频的情感；但是目前的语音合成过程中，往往只会更多地关注语音合成结果是否清晰和准确，往往不可以根据说话人的情感而对合成语音进行调整，欠缺情感的表达，这样就会让用户觉得语音合成的效果不够完善，情感的表达粒度不够精细。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]为了解决上述
技术介绍
中提到的问题，本申请实施例提供了一种结合情感强度的语音合成方法、装置、电子设备及计算...

【技术保护点】

【技术特征摘要】
1.一种结合情感强度的语音合成方法，其特征在于，所述方法包括：获取语音信号以及与所述语音信号对应的合成文本；对所述合成文本进行检索处理得到音素序列以及音符音高特征；以及对所述语音信号进行特征提取处理得到第一音高特征信息和第一持续时间信息；将所述音素序列和所述音符音高特征进行组合处理得到文本特征；以及分别对所述第一音高特征信息和所述第一持续时间信息嵌入与所述语音信号对应的情感信息，得到与所述第一音高特征信息对应的第二音高特征信息和与所述第一持续时间信息对应的第二持续时间信息；将所述文本特征输入至预训练的音高编码模型进行转换处理得到文本音高信息；将所述第二音高特征信息和所述文本音高信息输入至预训练的残差音高预测网络模型进行第一迭代预测处理，得到有效音高信息；以及将所述第二持续时间信息输入至预训练的残差持续时间预测网络模型进行第二迭代预测处理，得到有效持续时间；将所述有效音高信息和所述有效持续时间进行结合处理得到合成音高信息；对所述合成音高信息进行解码处理得到合成语音梅尔频谱图。2.根据权利要求1所述的结合情感强度的语音合成方法，其特征在于，所述对所述合成文本进行检索处理得到音素序列以及音符音高特征，包括：基于预设的嵌入表对所述合成文本进行匹配处理，得到文本匹配信息；根据所述文本匹配信息从所述嵌入表中提取得到所述音素序列以及所述音符音高特征。3.根据权利要求1所述的结合情感强度的语音合成方法，其特征在于，所述对所述语音信号进行特征提取处理得到第一音高特征信息和第一持续时间信息，包括：将所述语音信号进行音高特征量化处理得到所述第一音高特征信息；对所述语音信号进行音高持续时间计算处理得到所述第一持续时间信息。4.根据权利要求1所述的结合情感强度的语音合成方法，其特征在于，所述将所述文本特征输入至预训练的音高编码模型进行转换处理得到文本音高信息，包括：基于所述音高编码模型对所述文本特征进行正则化处理得到正则化文本；对所述正则化文本进行音高转换处理得到所述文本音高信息。5.根据权利要求1所述的结合情感强度的语音合成方法，其特征在于，所述对所述合成音高信息进行解码处理得到合成语音梅尔频谱图之前，所述方法还包括：按照预设的梅尔帧的长度对所述合成音高信息进行长度归一化处理。6.根据权利要求1所述的结合情感强度的语音合成方法，其特征在于，所述分别对所述第一音高特征信息和所述第一持续...

【专利技术属性】
技术研发人员：张旭龙，王健宗，程宁，唐浩彬，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人