一种模型的获取方法及设备技术

技术编号:27529786 阅读:80 留言:0更新日期:2021-03-03 11:05
本申请实施例公开了一种模型的获取方法及设备,可应用于人工智能领域中的计算机视觉领域,该方法包括:通过构建的第一预测器快速预测基于约束条件构建的模型集中每个模型(根据第一数据集预训练过)在不同超参数情况下针对新任务的性能表现,并从中选择满足预设条件(如模型的输出精度取值最大)的模型和超参数作为最终处理新任务(即第二数据集)的目标模型和目标超参数。针对新任务,该方法基于用户给定的约束条件,可高效选择出合适的模型和超参数,节约了训练时间和算力成本。在实际业务交付过程中,可在有限时间针对一个新任务找到合适模型进行迁移学习,并将其训练到交付要求的精度。的精度。的精度。

【技术实现步骤摘要】
一种模型的获取方法及设备


[0001]本申请涉及机器学习领域,尤其涉及一种模型的获取方法及设备。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是利用计算机或者计算机控制的机器模拟、延伸和扩展人的智能。人工智能包括研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]迁移学习是一种机器学习的方法,是指把为任务A(可称为第一数据集)开发得到的模型作为初始点,重新使用在为新的任务B(可称为第二数据集)开发模型的过程中,即将一个基于任务A得到的预训练过的模型重新用在另一任务B中。然而,对于一个新的任务来说,存在海量的基于某些已有任务训练得到的模型(即预训练过的模型),如何从海量的模型中高效地选择到一个适合该新任务的模型以及一组合适的超参数是一个亟待解决的问题。目前,针对一个新任务,利用在已有的相关任务(如,ImageNet数据集分类任务)基础上训练好的模型进行迁移学习(如,fine-tune)是一种高效的技术,在计算机视觉领域被广泛使用。
[0004]现有的一种解决方式是根据经验人工选择一个在开放数据集(如ImageNet等原数据集)上预训练过的模型,并根据经验选择一组超参数(或手工微调超参数)进行迁移学习到新任务中,基于选出的这组超参数,根据该新任务对选出的这个模型进行再次训练,以期将该模型训练到目标精度,但是在原数据集上输出精度高的模型,在迁移学习任务(即第二数据集)上不一样好,如果训练结果没有达到目标精度,可能需要重新选择模型或重新选择超参数再次进行训练。如图1所示,整个流程可能涉及到多次模型选择和多次超参数选择(甚至可能需要人工设计新模型),而每次训练都需要花费大量的时间和算力成本。

技术实现思路

[0005]本申请实施例提供了一种模型的获取方法及设备,该方法综合考虑了模型的选择和超参数的选择,用于通过构建的第一预测器快速预测基于约束条件构建的模型集中每个模型在不同超参数情况下针对新任务的性能表现,并从中选择满足预设条件(如,模型的输出精度取值最大)的模型和超参数作为最终处理新任务(即第二数据集)的目标模型和目标超参数。针对新任务,该方法基于用户给定的约束条件,可高效选择出合适的模型和超参数,从而节约了训练时间和算力成本。
[0006]基于此,本申请实施例提供以下技术方案:
[0007]第一方面,本申请实施例首先提供一种模型的获取方法,可用于人工智能领域中,该方法包括:首先,基于约束条件构建模型集(也可称为模型集合,以下统称为模型集),该模型集中包括至少两个已经在第一数据集上预训练过的模型,在基于约束条件构建好模型集之后,那么该模型集就包括至少两个在第一数据集上预训练过的模型,之后,在超参数空间进行随机采样,得到一组超参数,这组随机采样得到的超参数可称为第一超参数,之后通
过构建的第一预测器预测模型集中的任意一个模型对第二数据集的第一输出精度,其中,每个模型对应一个第一输出精度,例如,可以是预测模型集中的一个模型的输出精度,也可以是预测模型集中的多个模型各自对应的输出精度,还可以是预测模型集中的每个模型的输出精度,此处不做限定,且每个模型都对应会有一个超参数(即第一超参数),也就是说,在模型的超参数设置为该第一超参数的情况下,通过构建的另一预测器(可称为第一预测器)预测该模型集里的任意一个模型对第二数据集的输出精度(可称为第一输出精度),其中,该第二数据集即为新任务的数据集。当得到的所有第一输出精度中,存在一个满足预设条件(可称为第一预设条件)的输出精度,则该满足第一预设条件的输出精度就称为目标输出精度,与该目标输出精度对应的模型和超参数则称为目标模型及目标超参数,之后,就将该目标模型和该目标超参数作为最终处理该第二数据集的模型和超参数,也就是说,选择该目标模型和该目标超参数在新的第二数据集上进行迁移学习。通过上述步骤从模型集和超参数空间确定出目标模型和目标超参数后,就可基于该目标超参数,根据该第二数据集对该目标模型进行训练,从而得到训练后的目标模型。
[0008]在本申请上述实施方式中,综合考虑了模型的选择和超参数的选择,用于通过构建的第一预测器快速预测基于约束条件构建的模型集中每个模型在不同超参数情况下针对新任务的性能表现,并从中选择满足预设条件(如,模型的输出精度取值最大)的模型和超参数作为最终处理新任务(即第二数据集)的目标模型和目标超参数。针对新任务,该方法基于用户给定的约束条件,可高效选择出合适的模型和超参数,从而节约了训练时间和算力成本。也就是说,本申请实施例所达到的技术效果是:在实际业务交付过程中,在有限的时间内对一个新任务(即第二数据集),找到合适的模型,并将其训练到达到交付要求的精度,也就是针对新任务要选择出一个最好的模型和一组最好的超参。
[0009]在第一方面的一种可能的实现方式中,构建的第一预测器的输入数据是从超参数空间采样得到的一组超参数(即第一超参数)、该模型集中的任意一个模型和第二数据集,输出是该任意一个模型在该第一超参数情况下对第二数据集的输出精度的预测。具体地,对该第一超参数、该模型以及该第二数据集分别进行编码,从而分别得到该超参数编码、该模型编码以及第二数据集编码,之后,将该超参数编码、该模型编码及第二数据集编码输入第一预测器,输出该模型在第一超参数情况下对第二数据集的第一输出精度的预测结果。
[0010]在本申请上述实施方式中,具体阐述了构建的第一检测器的输入数据和输出数据分别是什么,具备可实现性。
[0011]在第一方面的一种可能的实现方式中,由于构建的第一预测器是未经过训练的,因此,在本申请实施例中,可通过已有的任务对该第一预测器进行初始化,当该第二数据集作为新任务完成预测后,也可将该新任务作为下一个已有的任务对该第一预测器的参数进行更新,从而提高第一预测器的检测精度。具体来说,可以根据第二输出精度、第二数据集、目标超参数及目标模型更新该第一预测器的参数,其中,该第二输出精度为该训练后的目标模型对第二数据集的输出精度。
[0012]在本申请上述实施方式中,对于已处理完的第二数据集,可根据第二输出精度、第二数据集等更新该第一预测器,从而可提升该第一预测器的预测精度,第一输出精度是预测器粗略预测的,第二输出精度就是真实训练得到的,通过真实训练的输出精度去更新第一预测器的参数,那么第一预测器的检测精度相应就会提高。
[0013]在第一方面的一种可能的实现方式中,目标输出精度满足第一预设条件包括:所述目标输出精度在所述第一输出精度中取值最大,这里还需要注意的是,评价一个模型的性能,除了可以是通过输出精度,还可以是其他的,比如,错误率越小,则性能越好;准确率越大,则性能越好等,在本申请实施例中,仅是以输出精度为例进行说明。
[0014]在本申请上述实施方式中,从模型中确定出目标模型的方式可以是:在所有第一输出精度中选择取值最大的那个第一输出精度对应的模型作为本申请实施例所述的目标模型,一般来说,输出精度越大,说明该模型在对应超参数情本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型的获取方法,其特征在于,包括:基于约束条件构建模型集,所述模型集包括至少两个在第一数据集上预训练过的模型;通过构建的第一预测器预测所述模型集中任意一个模型对第二数据集的第一输出精度,其中,每个模型对应一个第一输出精度,所述每个模型对应一组超参数,所述超参数通过在超参数空间采样得到;确定所述模型中第一输出精度满足第一预设条件的模型为目标模型,所述目标模型对应的超参数为目标超参数;基于所述目标超参数,根据所述第二数据集对所述目标模型进行训练,得到训练后的目标模型。2.根据权利要求1所述的方法,其特征在于,所述通过构建的第一预测器预测所述模型集中任意一个模型对第二数据集的第一输出精度包括:对所述超参数、所述模型集中的任意一个模型及所述第二数据集分别进行编码,分别得到超参数编码、模型编码及第二数据集编码;将所述超参数编码、所述模型编码及所述第二数据集编码输入所述第一预测器,输出所述任意一个模型在所述超参数情况下对所述第二数据集的第一输出精度。3.根据权利要求1-2中任一项所述的方法,其特征在于,在所述基于所述目标超参数,根据所述第二数据集对所述目标模型进行训练,得到训练后的目标模型之后,所述方法还包括:根据第二输出精度、所述第二数据集、所述目标超参数及所述目标模型更新所述第一预测器的参数,所述第二输出精度为所述训练后的目标模型对所述第二数据集的输出精度。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述确定所述模型中第一输出精度满足第一预设条件的模型为目标模型包括:从所述模型中选取第一输出精度取值最大的模型为所述目标模型。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于约束条件构建模型集包括:基于约束条件构建初始模型集,所述初始模型集包括至少两个训练后的初始模型,所述训练后的初始模型为根据所述第一数据集对初始模型训练得到;根据所述训练后的初始模型对构建的第二预测器进行训练,得到训练后的第二预测器;通过演化算法(EA)得到每个初始模型各自对应的一组衍生模型,每组衍生模型包括至少一个衍生模型;通过所述训练后的第二预测器对每个衍生模型进行处理,得到每个衍生模型对所述第一数据集的第三输出精度;根据所述第三输出精度从所述衍生模型中选取目标衍生模型,并根据所述第一数据集对所述目标衍生模型进行训练,得到训练后的目标衍生模型,所述训练后的初始模型及所述训练后的目标衍生模型构成所述模型集。6.根据权利要求5所述的方法,其特征在于,所述基于约束条件构建初始模型集包括:
根据约束条件确定搜索空间,所述搜索空间包括多种网络结构单元(block)及所述多种网络结构单元之间的连接关系;从所述搜索空间随机采样至少两个初始模型,并根据所述第一数据集对所述初始模型进行训练,得到训练后的初始模型,所述初始模型集包括所述训练后的初始模型。7.根据权利要求6所述的方法,其特征在于,所述根据所述第一数据集对所述初始模型进行训练,得到训练后的初始模型包括:将所述至少两个初始模型融合成一个第一模型;根据所述第一数据集对所述第一模型进行训练,得到训练后的第一模型;将所述训练后的第一模型拆解为至少两个训练后的初始模型。8.根据权利要求5-7中任一项所述的方法,其特征在于,所述目标衍生模型为多个,所述根据所述第一数据集对所述目标衍生模型进行训练,得到训练后的目标衍生模型包括:将多个所述目标衍生模型融合成一个第二模型;根据所述第一数据集对所述第二模型进行训练,得到训练后的第二模型;将所述训练后的第二模型拆解为多个训练后的目标衍生模型。9.根据权利要求5-8中任一项所述的方法,其特征在于,所述根据所述训练后的初始模型对构建的第二预测器进行训练,得到训练后的第二预测器包括:对所述训练后的初始模型的图结构进行编码,得到图编码;根据所述图编码训练图卷积神经网络(GCN)和贝叶斯回归器,得到训练后的GCN和训练后的贝叶斯回归器,其中,所述第二预测器包括所述GCN和所述贝叶斯回归器,所述训练后的第二预测器包括所述训练后的GCN和训练后的贝叶斯回归器。10.根据权利要求5-9中任一项所述的方法,其特征在于,所述根据所述第三输出精度从所述衍生模型中选取目标衍生模型包括:从所述衍生模型中选取第三输出精度大于预设值的衍生模型作为所述目标衍生模型;或,从所述衍生模型中选取第三输出精度取值较大的前n个衍生模型作为所述目标衍生模型,n≥1;或,根据所述第三输出精度的均值和方差得到每个衍生模型对应的置信上界(UCB),并从所述衍生模型中选取置信上界取值较大的前m个衍生模型作为所述目标衍生模型,m≥1。11.根据权利要求5-10中任一项所述的方法,其特征在于,所述方法还包括:将所述模型集作为新的初始模型集,并将所述目标衍生模型作为新的初始模型,重复执行上述基于约束条件构建模型集的步骤直至达到第二预设条件。12.根据权利要求11所述的方法,其特征在于,所述第二预设条件包括:所述模型集内的模型数量达到预设数量;或,所述模型集内的模型满足的所述约束条件达到预设要求。13.根据权利要求1-12中任一项所述的方法,其特征在于,所述约束条件包括:模型大小、模型推理时延、模型训练时延、硬件部署条件、片上内存大小中的任意一个或多个。
14.根据权利要求1-13中任一项所述的方法,其特征在于,在所述得到训练后的目标模型之后,所述方法还包括:将所述训练后的目标模型部署在执行设备上,以使得所述执行设备通过所述训练后的目标模型对输入的目标数据进行处理。15.一种计算机设备,其特征在于,包括:构建模块,用于基于约束条件构建模型集,所述模型集包括至少两...

【专利技术属性】
技术研发人员:王波超康宁徐航黄国位张维李震国
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1