模型训练方法和装置、语音合成方法、设备及存储介质制造方法及图纸

技术编号：37343894 阅读：25 留言：0更新日期：2023-04-22 21:35

本申请实施例提供了一种模型训练方法和装置、语音合成方法、设备及存储介质，属于人工智能技术领域。该方法包括：获取样本语音特征数据和样本音素数据；将样本语音特征数据输入预设的原始特征生成模型进行特征扩充得到初步语音特征数据；对样本语音特征数据和初步语音特征数据进行损失计算得到特征损失值；根据特征损失值对原始特征生成模型进行参数调整得到目标特征生成模型；将样本语音特征数据输入至目标特征生成模型进行特征扩充得到目标语音特征数据；根据目标语音特征数据更新原始样本数据得到目标样本数据；根据目标样本数据对预设的原始语音合成模型进行训练得到目标语音合成模型。本申请实施例能够得到合成效果更优的语音合成模型。更优的语音合成模型。更优的语音合成模型。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法和装置、语音合成方法、设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种模型训练方法和装置、语音合成方法、设备及存储介质。

技术介绍

[0002]机器学习模型在学习时需要大量的数据进行训练。例如，在语音合成领域需要收集大量语音资源作为模型训练的样本数据，但涉及多种语言类型的语音资源较少，如何通过少量不同语言类型的语音样本训练具有更好合成效果的语音合成模型是目前亟待解决的问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种模型训练方法和装置、语音合成方法、设备及存储介质，旨在实现少量的语音样本的场景下，训练得到语音合成效果更优的语音合成模型。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种模型训练方法，所述方法包括：
[0005]获取原始样本数据；其中，所述原始样本数据包括：样本语音特征数据和样本音素数据；
[0006]将所述样本语音特征数据输入预设的原始特征生成模型进行特征扩充处理，得到初步语音特征数据；
[0007]...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取原始样本数据；其中，所述原始样本数据包括：样本语音特征数据和样本音素数据；将所述样本语音特征数据输入预设的原始特征生成模型进行特征扩充处理，得到初步语音特征数据；对所述样本语音特征数据和所述初步语音特征数据进行损失计算，得到特征损失值；根据所述特征损失值对所述原始特征生成模型进行参数调整，直至所述特征损失值最小，得到目标特征生成模型；将所述样本语音特征数据输入至所述目标特征生成模型进行特征扩充处理，得到目标语音特征数据；根据所述样本语音特征数据、所述目标语音特征数据和所述样本音素数据构建目标样本数据；根据所述目标样本数据对预设的原始语音合成模型进行模型训练，得到目标语音合成模型。2.根据权利要求1所述的方法，其特征在于，所述原始特征生成模型包括：第一编码器、第一解码器和网络层；所述将所述样本语音特征数据输入预设的原始特征生成模型进行特征扩充处理，得到初步语音特征数据，包括：将所述样本语音特征数据输入所述第一编码器进行编码处理，得到初步特征向量；通过所述网络层将所述初步特征向量以预设码书进行转化处理，得到嵌入候选特征向量；通过所述网络层将预设的说话对象信息嵌入至所述嵌入候选特征向量，得到解码候选特征向量；通过所述第一解码器对所述解码候选特征向量进行解码处理，得到所述初步语音特征数据。3.根据权利要求2所述的方法，其特征在于，所述通过所述网络层将所述初步特征向量以预设码书进行转化处理，得到嵌入候选特征向量，包括：通过所述网络层获取所述预设码书的离散变量，得到码本向量；通过所述网络层将所述初步特征向量以所述码本向量进行映射处理，得到所述嵌入候选特征向量。4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述样本语音特征数据、所述目标语音特征数据和所述样本音素数据构建目标样本数据，包括：将所述样本语音特征数据和所述目标语音特征数据进行合并处理，得到更新语音特征数据；根据预设的数据映射关系对所述更新语音特征数据和所述样本音素数据进行筛选处理，得到音频配对数据；根据所述音频配对数据、所述更新语音特征数据和所述样本音素数据构建所述目标样本数据。5.根据权利要求4所述的方法，其特征在于，所述根据所述目标样本数据对预设的原始语音合成模型进行模型训练，得到目标语音合成模型，包括：
将所述样本音素数据输入所述原始语音合成模型进行语音合成，得到语音合成预测数据；根据所述音频配对数据和所述样本音素数据对所述更新...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人