模型训练方法及装置制造方法及图纸

技术编号:37490112 阅读:12 留言:0更新日期:2023-05-07 09:29
本说明书提供模型训练方法及装置,其中所述模型训练方法包括:获取音素样本数据以及包含至少两种语音类别的语音样本数据;根据所述语音样本数据对生成器和判别器进行初始训练,获得中间生成器和中间判别器;基于所述音素样本数据对所述中间生成器、所述中间判别器以及初始音素分类预测网络进行深度训练;根据训练结果获得满足训练停止条件的音素分类预测网络和目标生成器。络和目标生成器。络和目标生成器。

【技术实现步骤摘要】
模型训练方法及装置


[0001]本说明书涉及机器学习
,特别涉及模型训练方法及装置。

技术介绍

[0002]随着互联网技术的发展,语音识别成为了各个领域应用较为广泛的一项技术。现有技术中大量的口语评测方法都是基于声学模型加回归器的级联技术实现的,一个准确性和鲁棒性强的声学模型对于口语评测的效果至关重要。幼儿和成年人作为不同的发音主体,其发音方式和发音效果都是不相同的,在两者发音特征存在明显区别的基础上,若要对不同群体准确的进行口语评测,需要消耗大量的计算资源,因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此,本说明书实施例提供了一种模型训练方法。本说明书同时涉及一种模型训练装置,一种语音处理方法,一种语音处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种模型训练方法,包括:
[0005]获取音素样本数据以及包含至少两种语音类别的语音样本数据;
[0006]根据所述语音样本数据对生成器和判别器进行初始训练,获得中间生成器和中间判别器;
[0007]基于所述音素样本数据对所述中间生成器、所述中间判别器以及初始音素分类预测网络进行深度训练;
[0008]根据训练结果获得满足训练停止条件的音素分类预测网络和目标生成器。
[0009]可选地,所述判别器的初始训练过程如下:
[0010]将所述生成器的参数状态调整为固定状态,并将所述语音样本数据输入至固定状态的生成器进行处理,获得第一语音样本特征;
[0011]基于所述第一语音样本特征对所述判别器进行初始训练,获得满足初始训练停止条件的所述中间判别器。
[0012]可选地,所述生成器的初始训练过程如下:
[0013]将所述判别器的参数状态调整为固定状态,并将所述语音样本数据输入至所述生成器进行处理,获得第二语音样本特征;
[0014]将所述第二语音样本特征输入至固定状态的判别器进行处理,获得领域分类结果;
[0015]基于所述领域分类结果和所述语音样本数据对所述生成器进行调参,根据调参结果获得满足初始训练停止条件的所述中间生成器。
[0016]可选地,所述基于所述音素样本数据对所述中间生成器、所述中间判别器以及初始音素分类预测网络进行深度训练,包括:
[0017]对所述音素样本数据进行解析,获得包含音素标签的有标签样本数据以及未包含音素标签的无标签样本数据;
[0018]基于所述有标签样本数据对所述中间生成器、所述中间判别器以及所述初始音素分类预测网络进行深度训练,以及
[0019]基于所述无标签样本数据对所述中间判别器和所述中间生成器进行深度训练。
[0020]可选地,所述基于所述有标签样本数据对所述中间生成器、所述中间判别器以及所述初始音素分类预测网络进行深度训练,包括:
[0021]将所述中间生成器的参数状态调整为固定状态,并基于所述有标签样本数据对所述初始音素分类预测网络和所述中间判别器进行第一深度训练;
[0022]将所述中间判别器的参数状态调整为固定状态,并基于所述有标签样本数据对所述初始音素分类预测网络和所述中间生成器进行第二深度训练。
[0023]可选地,所述基于所述无标签样本数据对所述中间判别器和所述中间生成器进行深度训练,包括:
[0024]将所述中间生成器和所述初始音素分类预测网络的参数状态调整为固定状态,并基于所述无标签样本数据对所述中间判别器进行第三深度训练;
[0025]将所述中间判别器和所述初始音素分类预测网络的参数状态调整为固定状态,并基于所述无标签样本数据对所述中间生成器进行第四深度训练。
[0026]可选地,所述根据训练结果获得满足训练停止条件的音素分类预测网络和目标生成器,包括:
[0027]根据训练结果确定所述初始分类预测网络和所述中间生成器满足预设迭代次数的情况下,获得所述音素分类预测网络和所述目标生成器;或者,
[0028]根据训练结果确定所述初始分类预测网络和所述中间生成器的损失值达到损失值阈值的情况下,获得所述音素分类预测网络和所述目标生成器。
[0029]根据本说明书实施例的第二方面,提供了一种模型训练装置,包括:
[0030]获取数据模块,被配置为获取音素样本数据以及包含至少两种语音类别的语音样本数据;
[0031]初始训练模块,被配置为根据所述语音样本数据对生成器和判别器进行初始训练,获得中间生成器和中间判别器;
[0032]深度训练模块,被配置为基于所述音素样本数据对所述中间生成器、所述中间判别器以及初始音素分类预测网络进行深度训练;
[0033]训练停止模块,被配置为根据训练结果获得满足训练停止条件的音素分类预测网络和目标生成器。
[0034]根据本说明书实施例的第三方面,提供了一种语音处理方法,包括:
[0035]获取待处理语音以及所述待处理语音对应的参考文本;
[0036]将所述待处理语音输入至上述方法中的目标生成器进行处理,获得语音样本特征;
[0037]将所述语音样本特征输入至上述方法中的音素分类预测网络进行处理,获得音素识别结果;
[0038]基于所述参考文本和所述音素识别结果确定所述待处理语音中的每个音素对应
的发音检测结果。
[0039]可选地,所述基于所述参考文本和所述音素识别结果确定所述待处理语音中的每个音素对应的发音检测结果,包括:
[0040]对所述参考文本和所述音素识别结果进行对齐处理,获得对齐矩阵;
[0041]根据所述对齐矩阵创建所述待处理语音中每个音素对应的输出概率矩阵;
[0042]将每个音素对应的输出概率矩阵分别输入至多层感知机网络进行处理,根据处理结果获得每个音素对应的发音检测结果。
[0043]可选地,所述将所述待处理语音输入目标生成器进行处理,获得语音样本特征,包括:
[0044]将所述待处理语音输入至所述目标生成器,通过所述目标生成器中的第一全连接层对所述待处理语音进行升维处理,获得初始语音样本特征;
[0045]通过所述目标生成器中的第二全连接层对所述初始语音样本特征进行降维处理,获得所述语音样本特征并输出所述目标生成器。
[0046]根据本说明书实施例的第四方面,提供了一种语音处理装置,包括:
[0047]获取模块,被配置为获取待处理语音以及所述待处理语音对应的参考文本;
[0048]第一处理模块,被配置为将所述待处理语音输入至上述方法中的目标生成器进行处理,获得语音样本特征;
[0049]第二处理模块,被配置为将所述语音样本特征输入至上述方法中的音素分类预测网络进行处理,获得音素识别结果;
[0050]确定模块,被配置为基于所述参考文本和所述音素识别结果确定所述待处理语音中的每个音素对应的发音检测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取音素样本数据以及包含至少两种语音类别的语音样本数据;根据所述语音样本数据对生成器和判别器进行初始训练,获得中间生成器和中间判别器;基于所述音素样本数据对所述中间生成器、所述中间判别器以及初始音素分类预测网络进行深度训练;根据训练结果获得满足训练停止条件的音素分类预测网络和目标生成器。2.根据权利要求1所述的模型训练方法,其特征在于,所述判别器的初始训练过程如下:将所述生成器的参数状态调整为固定状态,并将所述语音样本数据输入至固定状态的生成器进行处理,获得第一语音样本特征;基于所述第一语音样本特征对所述判别器进行初始训练,获得满足初始训练停止条件的所述中间判别器。3.根据权利要求1所述的模型训练方法,其特征在于,所述生成器的初始训练过程如下:将所述判别器的参数状态调整为固定状态,并将所述语音样本数据输入至所述生成器进行处理,获得第二语音样本特征;将所述第二语音样本特征输入至固定状态的判别器进行处理,获得领域分类结果;基于所述领域分类结果和所述语音样本数据对所述生成器进行调参,根据调参结果获得满足初始训练停止条件的所述中间生成器。4.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述音素样本数据对所述中间生成器、所述中间判别器以及初始音素分类预测网络进行深度训练,包括:对所述音素样本数据进行解析,获得包含音素标签的有标签样本数据以及未包含音素标签的无标签样本数据;基于所述有标签样本数据对所述中间生成器、所述中间判别器以及所述初始音素分类预测网络进行深度训练,以及基于所述无标签样本数据对所述中间判别器和所述中间生成器进行深度训练。5.根据权利要求4所述的模型训练方法,其特征在于,所述基于所述有标签样本数据对所述中间生成器、所述中间判别器以及所述初始音素分类预测网络进行深度训练,包括:将所述中间生成器的参数状态调整为固定状态,并基于所述有标签样本数据对所述初始音素分类预测网络和所述中间判别器进行第一深度训练;将所述中间判别器的参数状态调整为固定状态,并基于所述有标签样本数据对所述初始音素分类预测网络和所述中间生成器进行第二深度训练。6.根据权利要求4所述的模型训练方法,其特征在于,所述基于所述无标签样本数据对所述中间判别器和所述中间生成器进行深度训练,包括:将所述中间生成器和所述初始音素分类预测网络的参数状态调整为固定状态,并基于所述无标签样本数据对所述中间判别器进行第三深度训练;将所述中间判别器和所述初始音素分类预测网络的参数状态调整为固定状态,并基于所述无标签样本数据对所述中间生成器进行第四深度训练。
7.根据权利要求1所述的模型训练方法,其特征在于,所述根据训练结果获得满足训练停止条件的音素分类预测网络和目标生成器,包括:根据训练结果确定所述初始分类预测网络和所述中间生成器满足预设迭代次数的情况下,获得所述音素分类预测网络和所述目标生成器;或者,根据训练结果确定所述初始分类预测网络和所述中间生成器...

【专利技术属性】
技术研发人员:吴凡李振权卓邦声林倩倩郭涵韬陆家辉夏龙
申请(专利权)人:北京猿力未来科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1