语音合成方法、语音合成装置、电子设备及存储介质制造方法及图纸

技术编号：36377605 阅读：14 留言：0更新日期：2023-01-18 09:38

本申请提供了一种语音合成方法、语音合成装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：获取待处理的原始音素数据，将原始音素数据输入至预设的语音合成模型；语音合成模型包括声学网络和生成网络；通过声学网络对原始音素数据进行编码处理，得到音素特征向量；通过声学网络对音素特征向量进行韵律标签识别，得到原始音素数据的韵律标签特征；通过声学网络对音素特征向量进行声学特征提取，得到原始音素数据的向量量化特征；根据向量量化特征和韵律标签特征进行特征预测，得到原始音素数据的目标韵律特征；通过生成网络对目标韵律特征和向量量化特征进行语音合成，得到目标语音数据。本申请能够提高语音合成的准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、语音合成装置、电子设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种语音合成方法、语音合成装置、电子设备及存储介质。

技术介绍

[0002]语音合成是指从文本中合成出可理解的、自然的语音，又称文本转语音(Text
‑
To
‑
Speech,TTS)。常见的语音合成方法大多是采用梅尔倒频谱作为语音合成的声学特征，而梅尔倒频谱在时域和频域的关系往往较为复杂，其复杂程度会极大地影响语音合成的准确性，因此，如何提高语音合成的准确性，成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种语音合成方法、语音合成装置、电子设备及存储介质，旨在提高语音合成的准确性。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种语音合成方法，所述方法包括：
[0005]获取待处理的原始音素数据，所述原始音素数据为文本数据；
[0006]将所述原始音素数据输入至预设的语音合成模型；其中，所述语音合成模型包括声学网络和生成网络；
[0007]通过所述声学网络对所述原始音素数据进行编码处理，得到音素特征向量；
[0008]通过所述声学网络对所述音素特征向量进行韵律标签识别，得到所述原始音素数据的韵律标签特征；
[0009]通过所述声学网络对所述音素特征向量进行声学特征提取，得到所述原始音素数据的向量量化特征；
[0010]根据所述向量量化特征和所述韵律标签特征进行特征预测...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：获取待处理的原始音素数据，所述原始音素数据为文本数据；将所述原始音素数据输入至预设的语音合成模型；其中，所述语音合成模型包括声学网络和生成网络；通过所述声学网络对所述原始音素数据进行编码处理，得到音素特征向量；通过所述声学网络对所述音素特征向量进行韵律标签识别，得到所述原始音素数据的韵律标签特征；通过所述声学网络对所述音素特征向量进行声学特征提取，得到所述原始音素数据的向量量化特征；根据所述向量量化特征和所述韵律标签特征进行特征预测，得到所述原始音素数据的目标韵律特征；通过所述生成网络对所述目标韵律特征和所述向量量化特征进行语音合成，得到目标语音数据。2.根据权利要求1所述的语音合成方法，其特征在于，所述声学网络包括第一LSTM层和解码器，所述通过所述声学网络对所述音素特征向量进行韵律标签识别，得到所述原始音素数据的韵律标签特征，包括：通过所述第一LSTM层对所述音素特征向量进行韵律特征提取，得到所述音素特征向量对应的初始韵律特征；通过预设的聚类算法和参考聚类标签对所述初始韵律特征进行聚类处理，得到所述原始音素数据的目标聚类标签；通过所述解码器对所述目标聚类标签进行解码处理，得到所述韵律标签特征。3.根据权利要求1所述的语音合成方法，其特征在于，所述声学网络包括第一LSTM层、解码器、第二LSTM层，所述通过所述声学网络对所述音素特征向量进行声学特征提取，得到所述原始音素数据的向量量化特征，包括：通过所述第一LSTM层对所述音素特征向量进行韵律特征提取，得到所述音素特征向量对应的初始韵律特征；通过所述解码器对所述初始韵律特征进行解码处理，得到初始梅尔倒谱特征；通过所述第二LSTM层和预设的声学特征标签对所述初始梅尔倒谱特征进行预测处理，得到所述向量量化特征。4.根据权利要求1所述的语音合成方法，其特征在于，所述根据所述向量量化特征和所述韵律标签特征进行特征预测，得到所述原始音素数据的目标韵律特征，包括：对所述向量量化特征和所述韵律标签特征进行拼接处理，得到预测韵律特征；对所述预测韵律特征进行层归一化处理，得到中间韵律特征；根据预设的参考韵律参数对所述中间韵律特征进行筛选处理，得到三维韵律特征；对所述三维韵律特征进行标准化处理，得到所述目标韵律特征。5.根据权利要求4所述的语音合成方法，其特征在于，所述对所述三维韵律特征进行标准化处理，得到所述目标韵律特征，包括：对所述三维韵律特征进行均值计算，得到韵律...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人