语音合成模型训练方法技术

技术编号：39510682 阅读：6 留言：0更新日期：2023-11-25 18:46

本申请实施例公开了一种语音合成模型训练方法

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型训练方法、语音数据获取方法、装置及设备

[0001]本申请实施例涉及计算机
，特别涉及一种语音合成模型训练方法
、
语音数据获取方法
、
装置及设备
。

技术介绍

[0002]随着计算机技术的发展，语音合成技术应用越来越广泛
。
例如，在智能客户场景
、
语音播报场景或导航场景下，常常会基于语音合成模型，将文本信息转换成频谱图，再将频谱图转换成语音数据以便播放该语音数据
。
通常在基于语音合成模型生成频谱图之前，需要对语音合成模型进行训练
。
相关技术中，需要利用高质量
、
无噪声的样本语音数据，对语音合成模型进行训练，但是，这种训练语音合成模型的方式对样本语音数据的要求高，适用范围窄
。

技术实现思路

[0003]本申请实施例提供了一种语音合成模型训练方法
、
语音数据获取方法
、
装置及设备，能够提高降低对样本语音数据的要求，提升了训练方式的适用范围
。
[0004]所述技术方案如下：
[0005]一方面，提供了一种语音合成模型训练方法，所述方法包括：
[0006]获取样本语音数据对应的样本频谱图和样本标签，所述样本标签指示所述样本语音数据是否含有噪声；
[0007]基于特征提取模型，获取所述样本频谱图对应的第一语音特征；对所述第一语音特征进行分类，得到预测标签，所述预测标签指示所述...

【技术保护点】

【技术特征摘要】
1.
一种语音合成模型训练方法，其特征在于，所述方法包括：获取样本语音数据对应的样本频谱图和样本标签，所述样本标签指示所述样本语音数据是否含有噪声；基于特征提取模型，获取所述样本频谱图对应的第一语音特征；对所述第一语音特征进行分类，得到预测标签，所述预测标签指示所述样本语音数据含有噪声的可能性；基于本次训练的损失值关于所述第一语音特征的第一梯度信息，确定与所述第一梯度信息反向的第二梯度信息，所述损失值基于所述样本标签与所述预测标签确定；基于语音合成模型和所述第一语音特征，生成预测频谱图；基于所述样本频谱图
、
所述预测频谱图及所述第二梯度信息，训练所述语音合成模型和所述特征提取模型
。2.
根据权利要求1所述的方法，其特征在于，所述基于本次训练的损失值关于所述第一语音特征的第一梯度信息，确定与所述第一梯度信息反向的第二梯度信息之前，所述方法还包括：获取目标损失函数关于第一参数的梯度函数，所述目标损失函数包含指代所述样本标签的第二参数以及指代所述预测标签的第三参数，所述第三参数包括所述第一参数，所述第一参数指代所述第一语音特征，所述梯度函数表示所述第一梯度信息与所述样本标签
、
所述预测标签以及所述第一语音特征之间的关系；基于所述梯度函数
、
所述样本标签
、
所述预测标签以及所述第一语音特征，确定所述第一梯度信息
。3.
根据权利要求1所述的方法，其特征在于，所述第一语音特征包括多个样本音素特征；所述基于语音合成模型和所述第一语音特征，生成预测频谱图，包括：从音素映射表包含的多个标准音素特征中，确定每个样本音素特征的相似音素特征；将所述多个样本音素特征的相似音素特征构成第二语音特征；基于所述语音合成模型
、
所述第一语音特征及所述第二语音特征，生成所述预测频谱图
。4.
根据权利要求3所述的方法，其特征在于，所述音素映射表包含于音素聚类模型中，基于所述第一语音特征获取所述第二语音特征的步骤基于所述音素聚类模型实现；所述基于所述样本频谱图
、
所述预测频谱图及所述第二梯度信息，训练所述语音合成模型和所述特征提取模型，包括：基于所述样本频谱图
、
所述预测频谱图及所述第二梯度信息，训练所述语音合成模型
、
所述特征提取模型
、
所述音素聚类模型及所述音素映射表
。5.
根据权利要求1所述的方法，其特征在于，所述基于语音合成模型和所述第一语音特征，生成预测频谱图，包括：基于语音合成模型，对所述样本语音数据对应的音素序列及所述第一语音特征进行处理，得到所述预测频谱图，所述音素序列包括至少一个音素，所述至少一个音素的发音与所述样本语音数据中的声音相匹配
。6.
根据权利要求5所述的方法，其特征在于，所述对所述样本语音数据对应的音素序列及所述第一语音特征进行处理，得到所述预测频谱图，包括：获取所述音素序列对应的第一音素特征信息；
将所述第一音素特征信息与所述第一语音特征进行融合，得到融合特征；对所述融合特征进行语音合成，得到所述预测频谱图
。7.
根据权利要求6所述的方法，其特征在于，所述获取所述音素序列对应的第一音素特征信息，包括：对所述音素序列进行特征提取，得到第二音素特征信息，所述第二音素特征信息包括所述音素序列中每个音素对应的音素特征；按照所述每个音素的样本持续时长，分别对所述第二音素特征信息中所述每个音素对应的音素特征进行扩充，得到所述第一音素特征信息，以使所述第一音素特征信息中所述每个音素对应的音素特征的数目与对应的样本持续时长匹配，所述样本持续时长指示所述音素的发音在所述样本语音数据中的持续时长
。8.
根据权利要求5所述的方法，其特征在于，所述方法还包括：对样本语音数据进行情感识别，得到所述样本语音数据所属的情感类型；获取所述情感类型对应的情感特征；所述基于语音合成模型，对所述样本语音数据对应的音素序列及所述第一语音特征进行处理，得到所述预测频谱图，包括：基于所述语音合成模型，对所述音素序列
、
所述情感特征及所述第一语音特征进行处理，得到所述预测频谱图
。9.
根据权利要求5‑8任一项所述的方法，其特征在于，所述基于所述样本频谱图
、
所述预测频谱图及所述第二梯度信息，训练所述语音合成模型和所述特征提取模型之后，所述方法还包括：获取目标文本信息；对所述目标文本信息进行音素映射，得到所述目标文本信息对应的目标音素序列；基于所述目标语音合成模型，对所述目标音素序列进行处理，得到目标频谱图；对所述目标频谱图进行语音转换，得到所述目标文本信息对应的目标语...

【专利技术属性】
技术研发人员：杨培基，廖欣欣，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人