一种机器学习模型的训练方法、装置以及相关设备制造方法及图纸

技术编号:35405748 阅读:13 留言:0更新日期:2022-11-03 10:58
本申请提供了一种机器学习模型的训练方法、装置以及相关设备,该方法通过结合训练记录集中超参数组合的聚集程度和模型评估值来调整超参数组合的范围,并且,在M+1次模型训练前,获取包括M个训练记录的训练记录集,通过在超参数范围内随机产生新的超参数组合和根据训练记录集生成新的超参数组合,再通过概率算法,在这两种新的超参数组合中概率性地选择其中一组超参数组合作为目标超参数,进行M+1次模型训练,这样,既能推荐较优秀的超参数组合,又能保证推荐的超参数的多样性。又能保证推荐的超参数的多样性。又能保证推荐的超参数的多样性。

【技术实现步骤摘要】
一种机器学习模型的训练方法、装置以及相关设备


[0001]本专利技术涉及人工智能(Artificial Intelligence,AI)领域,尤其涉及一种机器学习模型的训练方法、装置以及相关设备。

技术介绍

[0002]随着科学技术的不断发展,AI模型在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。AI模型通常需要使用大量的样本对其进行模型训练,在模型训练开始之前需要配置超参数组合,如训练迭代次数(epoch)、学习率等,超参数组合会影响机器学习的模型训练效果,合适的超参数组合可以帮助模型更快收敛。目前,配置超参数组合主要采用人工推荐超参数的方式,人工推荐超参数需要用户根据模型训练效果调整超参数组合配置,再进行下一次模型训练。
[0003]但是,人工推荐超参数需要依赖用户经验,且耗费用户时间,模型训练效率较低。因此,如何提高模型训练效率,让模型能尽快收敛到一个不错的解是一个亟待解决的问题。

技术实现思路

[0004]本申请提供了一种机器学习模型的训练方法、装置以及相关设备,该方法通过结合训练记录集中超参数组合的聚集程度和模型评估值来调整超参数组合的范围,并通过在超参数范围内随机产生新的超参数组合和根据训练记录集生成新的超参数组合,再通过概率算法,在这两种新的超参数组合中概率性地选择其中一组超参数组合作为目标超参数,进行M+1次模型训练,使目标超参数进行M+1次模型训练时产生的模型评估值较优秀,进而使模型能尽快收敛。
[0005]第一方面,本申请提供一种机器学习模型的训练方法,包括:在第M+1次模型训练前,从训练设备的存储空间中获取训练记录集,该训练记录集中包括M个训练记录,训练记录包括一次模型训练使用的一组超参数以及一个模型评估值,且每次模型训练使用的超参数组合都不相同,该模型评估值用于指示模型训练效果,其中,一次模型训练得到一个训练记录,M为大于或等于1的整数;基于第一范围随机生成一组第一备选超参数,第一范围指示一组第一备选超参数中各个超参数的取值范围;基于训练记录集中的超参数生成一组第二备选超参数;在一组第一备选超参数与一组第二备选超参数中确定一组目标超参数,其中,机器学习模型的训练是基于该目标超参数的。
[0006]本申请实施例通过在超参数范围内随机产生新的超参数和根据训练记录集生成新的超参数,再在这两种新的超参数中选择其中一组超参数作为目标超参数,进行M+1次模型训练,这样,能使目标超参数进行M+1次模型训练时产生的模型评估值较优秀。
[0007]结合第一方面,在一些实施例中,在基于第一范围随机生成一组第一备选超参数之前,该方法还包括:在M个模型评估值中存在大于阈值的模型评估值时,根据训练记录集中的一组第一超参数,确定第M次模型训练中每次模型训练后的变异系数,变异系数指示每次模型训练后的训练记录集中的超参数与一组第一超参数的聚集程度,一组第一超参数是
训练记录集中的超参数的子集;对前M次模型训练得到的M个变异系数与模型训练次数进行拟合,确定拟合后的函数斜率;在斜率大于0时,根据M个训练记录中的超参数确定第一范围。
[0008]这样,本申请实施例能在训练记录集中已出现较优超参数组合时,根据训练记录集中超参数的聚集程度确定随机产生超参数的生成范围,使得随机产生超参数能在较优模型评估值对应超参数组合附近生成。
[0009]结合第一方面,在一些实施例中,根据训练记录集中的超参数与第一超参数,确定第M次模型训练后的变异系数,包括:根据模型评估值确定N组超参数,其中,N小于或等于M;根据N组超参数与第一超参数,确定第M次模型训练后的变异系数。
[0010]也即是说,在训练记录中选取N组模型评估值较好的超参数组合,在计算变异系数时,不将训练记录集中所有超参数组合都进行计算,而只将这N组超参数组合进行计算,进而减少运算量。
[0011]结合第一方面,在一些实施例中,根据训练记录集中的超参数确定一组第一超参数,包括:根据模型评估值确定K组超参数,其中,K为大于0且小于等于N的整数;计算K组超参数的平均值,将平均值作为第一超参数。
[0012]也即是说,第一超参数可以是模型评估值最优的一组超参数,也可以是模型评估值最优的K组超参数的平均值。
[0013]结合第一方面,在一些实施例中,在基于第一范围随机生成一组第一备选超参数之前,该方法还包括:在M个模型评估值中不存在大于阈值的模型评估值时,根据训练集中的每个超参数的平均值与第二范围,将第二范围调整为第一范围,其中,第二范围是第M次模型训练时随机生成超参数时的范围。
[0014]这样,本申请实施例能在训练记录集中未出现较优超参数组合时,将上一次模型训练时随机生成超参数时的范围扩大为本次模型训练随机生成超参数时的范围,进而能在更大的范围内产生超参数组合。
[0015]结合第一方面,在一些实施例中,基于训练记录集中的超参数生成一组第二备选超参数,包括:根据M个模型评估值,在一组第二超参数与一组第三超参数中确定一组超参数作为一组第二备选超参数,其中,一组第二超参数与一组第三超参数与交换结果相同,交换结果是交换训练记录集中一组第四超参数的部分超参数的值与训练记录集中一组第五超参数的部分超参数的值得到的两组超参数。
[0016]也即是说,交换一组第四超参数与一组第五超参数中部分超参数的值能得到一组第二超参数与一组第三超参数。这样,本申请实施例能根据训练记录中较优秀的超参数组合,通过交换超参数组合的值,产生新的超参数组合,使得产生的超参数组合保留训练记录中较优秀的超参数组合的取值。
[0017]结合第一方面,在一些实施例中,基于训练记录集中的超参数生成一组第二备选超参数,包括:根据每个超参数对应的拟合函数确定一组第二备选超参数,其中,每个超参数对应的拟合函数指示基于训练记录集中的M个模型评估值对每个超参数的拟合,该一组第二备选超参数包括每个拟合函数中最优模型评估值对应的超参数的值。
[0018]也即是说,基于训练记录集中的超参数生成一组新的超参数,也可以是将训练记录集中超参数组合的每个超参数与模型评估值进行拟合得到的,第二备选超参数就是每个
超参数在模型评估值最优处对应取值的组合,其中,若将准确率作为模型评估值,则选取模型评估值最大处对应的超参数作为第二备选超参数中超参数取值。这样,推荐的第二备选超参数在每个超参数取值上模型评估值都是最优的。
[0019]结合第一方面,在一些实施例中,在所述一组第一备选超参数与所述一组第二备选超参数中确定一组目标超参数,包括:在第M+1次模型训练前,根据第一概率与第二概率,在所述一组第一备选超参数与所述一组第二备选超参数中确定一组目标超参数,其中,所述第一概率为将一组第一备选超参数作为目标超参数的概率,第一概率是根据随机超参数的使用概率、第M次随机产生超参数的概率确定的,其中,随机超参数的使用概率为前M次模型训练中使用随机产生的超参数进行模型训练的比例,第二概率为将一组第二备选超参数作为所述目标超参数的概率,第一概率与第二概率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器学习模型的训练方法,其特征在于,在所述机器学习模型的第M+1次模型训练前,根据训练记录集确定一组目标超参数,所述第M+1次训练基于所述一组目标超参数,包括:在第M+1次模型训练前,从训练设备的存储空间中获取训练记录集,所述训练记录集中包括M个训练记录,所述训练记录包括一次模型训练使用的一组超参数以及一个模型评估值,所述模型评估值用于指示模型训练效果,其中,一次模型训练得到一个训练记录,M为大于或等于1的整数;基于第一范围随机生成一组第一备选超参数,所述第一范围指示所述一组第一备选超参数中各个超参数的取值范围;基于所述训练记录集中的超参数生成一组第二备选超参数;在所述一组第一备选超参数与所述一组第二备选超参数中确定一组目标超参数。2.根据权利要求1所述的方法,其特征在于,在所述基于第一范围随机生成一组第一备选超参数之前,所述方法还包括:在M个模型评估值中存在大于阈值的模型评估值时,根据所述训练记录集中的一组第一超参数,确定第M次模型训练中每次模型训练后的变异系数,所述变异系数指示每次模型训练后的训练记录集中的超参数与所述一组第一超参数的聚集程度,所述一组第一超参数是所述训练记录集中的超参数的子集;对前M次模型训练得到的M个变异系数与模型训练次数进行拟合,确定拟合后的函数斜率;在所述斜率大于0时,根据所述M个训练记录中的超参数确定所述第一范围。3.根据权利要求1所述的方法,其特征在于,在所述基于第一范围随机生成一组第一备选超参数之前,所述方法还包括:在M个模型评估值中不存在大于阈值的模型评估值时,根据所述训练集中的每个超参数的平均值与第二范围,将所述第二范围调整为所述第一范围,其中,所述第二范围是第M次模型训练时随机生成超参数时的范围。4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述训练记录集中的超参数生成一组第二备选超参数,包括:根据所述M个模型评估值,在一组第二超参数与一组第三超参数中确定一组超参数作为所述一组第二备选超参数,其中,所述一组第二超参数与所述一组第三超参数与交换结果相同,所述交换结果是交换训练记录集中一组第四超参数的部分超参数的值与训练记录集中一组第五超参数的部分超参数的值得到的两组超参数。5.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述训练记录集中的超参数生成一组第二备选超参数,包括:根据每个超参数对应的拟合函数确定所述一组第二备选超参数,其中,所述每个超参数对应的拟合函数指示基于所述训练记录集中的M个模型评估值对所述每个超参数的拟合,所述一组第二备选超参数包括每个拟合函数中最优模型评估值对应的超参数的值。6.根据权利要求1

5任一所述的方法,其特征在于,所述在所述一组第一备选超参数与所述一组第二备选超参数中确定一组目标超参数,包括:在所述第M+1次模型训练前,根据第一概率与第二概率,在所述一组第一备选超参数与
所述一组第二备选超参数中确定一组目标超参数,其中,所述第一概率为将所述一组第一备选超参数作为所述目标超参数的概率,所述第一概率是根据所述随机超参数的使用概率、第M次随机产生超参数的概率确定的,其中,所述随机超参数的使用概率为所述前M次模型训练中使用随机产生的超参数进行模型训练的比例,所述第二概率为将所述一组第二备选超参数作为所述目标超参数的概率,所述第一概率与所述第二概率的和为1,所述机器学习模型的训练基于所述一组目标超参数。7.根据权利要求6所述的方法,其特征在于,包括:在第M+1次模型训练前,执行权利要求1中根据训练记录集确定一组目标超参数的操作i次,得到i组目标超参数,其中,i组目标超参数中随机产生的一组或多组超参数与基于所述训练记录生成的一组或多组超参数符合第一概率与第二概率的比例;根据所述i组目标超参数各自对应的预测模型评估值确定一组目标超参数,将确定的所述一组目标超参数用于所述第M+1次的模型训练。8.根据权利要求7所述的方法,其特征在于,在确定所述i组目标超参数各自对应的预测模型评估值之前,所述方法还包括:在所述i组目标超参数中存在一组第一目标超参数与一组第二目标超参数,且所述一组第一目标超参数与所述一组第二目标超参数中的每个超参数值相同时,根据所述一组第二目标超参数生成一组近似超参数,所述一组近似超参数是将所述一组第二目标超参数中部分超参数值取近似值得到的;将所述一组第二目标超参数替换为所述一组近似超参数。9.一种机器学习模型的训练装置,其特征在于,在第M+1次模型训练前,所述机器学习模型的训练装置根据训练记录集确定一组目标超参数,所述机器学习模型的训练基于所述一组目标超参数,所述机器学习模型的训练装置包括获取单元、生成单元...

【专利技术属性】
技术研发人员:罗彭婷寇振中潘琳温凯
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1