模型训练方法和装置、语音合成方法、设备及存储介质制造方法及图纸

技术编号:37343894 阅读:12 留言:0更新日期:2023-04-22 21:35
本申请实施例提供了一种模型训练方法和装置、语音合成方法、设备及存储介质,属于人工智能技术领域。该方法包括:获取样本语音特征数据和样本音素数据;将样本语音特征数据输入预设的原始特征生成模型进行特征扩充得到初步语音特征数据;对样本语音特征数据和初步语音特征数据进行损失计算得到特征损失值;根据特征损失值对原始特征生成模型进行参数调整得到目标特征生成模型;将样本语音特征数据输入至目标特征生成模型进行特征扩充得到目标语音特征数据;根据目标语音特征数据更新原始样本数据得到目标样本数据;根据目标样本数据对预设的原始语音合成模型进行训练得到目标语音合成模型。本申请实施例能够得到合成效果更优的语音合成模型。更优的语音合成模型。更优的语音合成模型。

【技术实现步骤摘要】
模型训练方法和装置、语音合成方法、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法和装置、语音合成方法、设备及存储介质。

技术介绍

[0002]机器学习模型在学习时需要大量的数据进行训练。例如,在语音合成领域需要收集大量语音资源作为模型训练的样本数据,但涉及多种语言类型的语音资源较少,如何通过少量不同语言类型的语音样本训练具有更好合成效果的语音合成模型是目前亟待解决的问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种模型训练方法和装置、语音合成方法、设备及存储介质,旨在实现少量的语音样本的场景下,训练得到语音合成效果更优的语音合成模型。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种模型训练方法,所述方法包括:
[0005]获取原始样本数据;其中,所述原始样本数据包括:样本语音特征数据和样本音素数据;
[0006]将所述样本语音特征数据输入预设的原始特征生成模型进行特征扩充处理,得到初步语音特征数据;
[0007]对所述样本语音特征数据和所述初步语音特征数据进行损失计算,得到特征损失值;
[0008]根据所述特征损失值对所述原始特征生成模型进行参数调整,直至所述特征损失值最小,得到目标特征生成模型;
[0009]将所述样本语音特征数据输入至所述目标特征生成模型进行特征扩充处理,得到目标语音特征数据;
[0010]根据所述样本语音特征数据、所述目标语音特征数据和所述样本音素数据构建目标样本数据;
[0011]根据所述目标样本数据对预设的原始语音合成模型进行模型训练,得到目标语音合成模型。
[0012]在一些实施例,所述原始特征生成模型包括:第一编码器、第一解码器和网络层;所述将所述样本语音特征数据输入预设的原始特征生成模型进行特征扩充处理,得到初步语音特征数据,包括:
[0013]将所述样本语音特征数据输入所述第一编码器进行编码处理,得到初步特征向量;
[0014]通过所述网络层将所述初步特征向量以预设码书进行转化处理,得到嵌入候选特
征向量;
[0015]通过所述网络层将预设的说话对象信息嵌入至所述嵌入候选特征向量,得到解码候选特征向量;
[0016]通过所述第一解码器对所述解码候选特征向量进行解码处理,得到所述初步语音特征数据。
[0017]在一些实施例,所述通过所述网络层将所述初步特征向量以预设码书进行转化处理,得到嵌入候选特征向量,包括:
[0018]通过所述网络层获取所述预设码书的离散变量,得到码本向量;
[0019]通过所述网络层将所述初步特征向量以所述码本向量进行映射处理,得到所述嵌入候选特征向量。
[0020]在一些实施例,所述根据所述样本语音特征数据、所述目标语音特征数据和所述样本音素数据构建目标样本数据,包括:
[0021]将所述样本语音特征数据和所述目标语音特征数据进行合并处理,得到更新语音特征数据;
[0022]根据预设的数据映射关系对所述更新语音特征数据和所述样本音素数据进行筛选处理,得到音频配对数据;
[0023]根据所述音频配对数据、所述更新语音特征数据和所述样本音素数据构建所述目标样本数据。
[0024]在一些实施例,所述根据所述目标样本数据对预设的原始语音合成模型进行模型训练,得到目标语音合成模型,包括:
[0025]将所述样本音素数据输入所述原始语音合成模型进行语音合成,得到语音合成预测数据;
[0026]根据所述音频配对数据和所述样本音素数据对所述更新语音特征数据进行筛选处理,得到语音特征验证数据;
[0027]根据所述语音特征验证数据和所述语音合成预测数据对所述原始语音合成模型进行参数调整,得到所述目标语音合成模型。
[0028]在一些实施例,所述原始语音合成模型包括:第二编码器、第二解码器和声码器;所述将所述样本音素数据输入所述原始语音合成模型进行语音合成,得到语音合成预测数据,包括:
[0029]将所述样本音素数据输入所述第二编码器进行编码处理,得到初步语音向量;
[0030]根据预设的说话对象信息对所述初步语音向量进行注意力处理,得到解码候选语音向量;
[0031]通过所述第二解码器对所述解码候选语音向量进行解码处理,得到语音频谱数据;
[0032]通过所述声码器对所述语音频谱数据进行波形计算,得到所述语音合成预测数据。
[0033]为实现上述目的,本申请实施例的第二方面提出了一种语音合成方法,所述方法包括:
[0034]获取目标音素数据;
[0035]将所述目标音素数据输入目标语音合成模型;其中,所述目标语音合成模型通过如第一方面所述的模型训练方法得到;
[0036]通过所述目标语音合成模型对所述目标音素数据进行语音合成,得到目标语音合成数据;其中,所述目标语音合成数据为基于梅尔频谱的波形数据。
[0037]为实现上述目的,本申请实施例的第三方面提出了一种模型训练装置,所述装置包括:
[0038]样本获取模块,用于获取原始样本数据;其中,所述原始样本数据包括:样本语音特征数据和样本音素数据;
[0039]数据输入模块,用于将所述样本语音特征数据输入预设的原始特征生成模型进行特征扩充处理,得到初步语音特征数据;
[0040]损失计算模块,用于对所述样本语音特征数据和所述初步语音特征数据进行损失计算,得到特征损失值;
[0041]参数调整模块,用于根据所述特征损失值对所述原始特征生成模型进行参数调整,直至所述特征损失值最小,得到目标特征生成模型;
[0042]数据扩充模块,用于将所述样本语音特征数据输入至所述目标特征生成模型进行特征扩充处理,得到目标语音特征数据;
[0043]数据汇集模块,用于根据所述样本语音特征数据、所述目标语音特征数据和所述样本音素数据构建目标样本数据;
[0044]模型训练模块,用于根据所述目标样本数据对预设的原始语音合成模型进行模型训练,得到目标语音合成模型。
[0045]为实现上述目的,本申请实施例的第四方面提出了一种电子设备,所述电子设备包括存储器和处理器、存储在所述存储器上并可在所述处理器上运行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述计算机程序被所述处理器执行时实现上述第一方面所述的方法、或第二方面所述的方法。
[0046]为实现上述目的,本申请实施例的第五方面提出了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法、或第二方面所述的方法。
[0047]本申请提出的模型训练方法和装置、语音合成方法、设备及存储介质,其通过根据样本语音特征数据对原始特征生成模型进行训练得到目标特征生成模型,且目标特征生成模型对样本语音特征数据进行特征扩充得到目标语音特征数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取原始样本数据;其中,所述原始样本数据包括:样本语音特征数据和样本音素数据;将所述样本语音特征数据输入预设的原始特征生成模型进行特征扩充处理,得到初步语音特征数据;对所述样本语音特征数据和所述初步语音特征数据进行损失计算,得到特征损失值;根据所述特征损失值对所述原始特征生成模型进行参数调整,直至所述特征损失值最小,得到目标特征生成模型;将所述样本语音特征数据输入至所述目标特征生成模型进行特征扩充处理,得到目标语音特征数据;根据所述样本语音特征数据、所述目标语音特征数据和所述样本音素数据构建目标样本数据;根据所述目标样本数据对预设的原始语音合成模型进行模型训练,得到目标语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述原始特征生成模型包括:第一编码器、第一解码器和网络层;所述将所述样本语音特征数据输入预设的原始特征生成模型进行特征扩充处理,得到初步语音特征数据,包括:将所述样本语音特征数据输入所述第一编码器进行编码处理,得到初步特征向量;通过所述网络层将所述初步特征向量以预设码书进行转化处理,得到嵌入候选特征向量;通过所述网络层将预设的说话对象信息嵌入至所述嵌入候选特征向量,得到解码候选特征向量;通过所述第一解码器对所述解码候选特征向量进行解码处理,得到所述初步语音特征数据。3.根据权利要求2所述的方法,其特征在于,所述通过所述网络层将所述初步特征向量以预设码书进行转化处理,得到嵌入候选特征向量,包括:通过所述网络层获取所述预设码书的离散变量,得到码本向量;通过所述网络层将所述初步特征向量以所述码本向量进行映射处理,得到所述嵌入候选特征向量。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述样本语音特征数据、所述目标语音特征数据和所述样本音素数据构建目标样本数据,包括:将所述样本语音特征数据和所述目标语音特征数据进行合并处理,得到更新语音特征数据;根据预设的数据映射关系对所述更新语音特征数据和所述样本音素数据进行筛选处理,得到音频配对数据;根据所述音频配对数据、所述更新语音特征数据和所述样本音素数据构建所述目标样本数据。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标样本数据对预设的原始语音合成模型进行模型训练,得到目标语音合成模型,包括:
将所述样本音素数据输入所述原始语音合成模型进行语音合成,得到语音合成预测数据;根据所述音频配对数据和所述样本音素数据对所述更新...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1