【技术实现步骤摘要】
一种模型训练方法、装置、电子设备及存储介质
[0001]本申请涉及模型训练
,尤其涉及一种模型训练方法、装置、电子设备及存储介质。
技术介绍
[0002]声学模型自适应是一种有效的鲁棒语音识别技术,实现的过程为:预先利用源域的样本数据训练声学模型,针对某个具体的测试环境,利用该测试环境下的少量自适应数据(即目标域的样本数据),对预先训练好的声学模型进行训练,使之与测试环境相匹配。
[0003]然而,直接利用测试环境下的少量自适应数据,对预先训练好的声学模型进行训练,容易导致模型发生过拟合现象,使得模型的输出分布偏向于自适应数据,从而损坏声学模型中已经学习到的信息,即,虽然提高了对目标域的处理能力,但是降低了对源域的处理能力。
技术实现思路
[0004]本申请实施例的目的在于提供一种模型训练方法、装置、电子设备及存储介质,以解决直接利用测试环境下的少量自适应数据,对预先训练好的声学模型进行训练,容易导致模型发生过拟合现象的问题。具体技术方案如下:
[0005]第一方面,提供了一种模型训练方 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取目标域对应的第一数据及自适应模型,所述自适应模型为预先利用源域的数据集训练好的模型;确定所述第一数据对应的第一数量,并基于所述第一数量确定第二数量;从所述源域的数据集中,抽取所述第二数量的第二数据;利用所述第一数据和所述第二数据,训练所述自适应模型,得到所述目标域对应的目标模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述利用所述第一数据和所述第二数据,训练所述自适应模型,包括:确定所述目标域对应的目标场景,并获取所述目标场景对应的特征提取模型;将所述第一数据输入至所述特征提取模型中,获取所述特征提取模型输出对应的场景特征;利用所述第一数据、所述第二数据及所述场景特征,训练所述自适应模型。3.根据权利要求2所述的模型训练方法,其特征在于,所述从所述源域的数据集中,抽取所述第二数量的第二数据,包括:将所述源域的数据集中的数据按照场景进行划分,得到至少一个子数据集,其中,一个所述子数据集对应一个场景;将除所述目标场景以外的场景所对应的子数据集确定为候选子数据集;在所有所述候选子数据集中,抽取所述第二数量的第二数据。4.根据权利要求3所述的模型训练方法,其特征在于,所述在所有所述候选子数据集中,抽取所述第二数量的第二数据,包括:确定每一所述候选子数据集的场景与所述目标场景的相关度;按照所述相关度由低到高的顺序对所有所述候选子数据集进行排序,并将排序靠前的预设数量的候选子数据集确定为目标子数据集;在所述目标子数据集中,抽取所述第二数量的第二数据。5.根据权利要求4所述的模型训练方法,其特征在于,所述在所述目标子数据集中,抽取所述第二数量的第二数据,包括:确定所述目标子数据集的第三数量;利用所述第二数量除以所述第三数量,得到平均数量;在每个所述目标子数据集中抽取所述平均数量的第二数据。6.根据权利要求1所述的模型训练方法,其特征在于,所述从所述源域的数据集中,抽取所述第二数量的第二数据,包括:确...
【专利技术属性】
技术研发人员:黄石磊,廖晨,曾航,陈诚,熊霞,
申请(专利权)人:深圳市北科瑞声科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。