一种模型的获取方法及设备技术

技术编号：27529786 阅读：80 留言：0更新日期：2021-03-03 11:05

本申请实施例公开了一种模型的获取方法及设备，可应用于人工智能领域中的计算机视觉领域，该方法包括：通过构建的第一预测器快速预测基于约束条件构建的模型集中每个模型(根据第一数据集预训练过)在不同超参数情况下针对新任务的性能表现，并从中选择满足预设条件(如模型的输出精度取值最大)的模型和超参数作为最终处理新任务(即第二数据集)的目标模型和目标超参数。针对新任务，该方法基于用户给定的约束条件，可高效选择出合适的模型和超参数，节约了训练时间和算力成本。在实际业务交付过程中，可在有限时间针对一个新任务找到合适模型进行迁移学习，并将其训练到交付要求的精度。的精度。的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型的获取方法及设备

[0001]本申请涉及机器学习领域，尤其涉及一种模型的获取方法及设备。

技术介绍

[0002]人工智能(Artificial Intelligence，AI)是利用计算机或者计算机控制的机器模拟、延伸和扩展人的智能。人工智能包括研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
[0003]迁移学习是一种机器学习的方法，是指把为任务A(可称为第一数据集)开发得到的模型作为初始点，重新使用在为新的任务B(可称为第二数据集)开发模型的过程中，即将一个基于任务A得到的预训练过的模型重新用在另一任务B中。然而，对于一个新的任务来说，存在海量的基于某些已有任务训练得到的模型(即预训练过的模型)，如何从海量的模型中高效地选择到一个适合该新任务的模型以及一组合适的超参数是一个亟待解决的问题。目前，针对一个新任务，利用在已有的相关任务(如，ImageNet数据集分类任务)基础上训练好的模型进行迁移学习(如，fine-tune)是一种高效的技术，在计算机视觉领域被广泛使用。
[0004]现有的一种解决方式是根据经验人工选择一个在开放数据集(如ImageNet等原数据集)上预训练过的模型，并根据经验选择一组超参数(或手工微调超参数)进行迁移学习到新任务中，基于选出的这组超参数，根据该新任务对选出的这个模型进行再次训练，以期将该模型训练到目标精度，但是在原数据集上输出精度高的模型，在迁移学习任务(即第二数据集)上不一样好，如果训练结果没有达到目标精度，可能需要重新选择模型或重...

【技术保护点】

【技术特征摘要】
1.一种模型的获取方法，其特征在于，包括：基于约束条件构建模型集，所述模型集包括至少两个在第一数据集上预训练过的模型；通过构建的第一预测器预测所述模型集中任意一个模型对第二数据集的第一输出精度，其中，每个模型对应一个第一输出精度，所述每个模型对应一组超参数，所述超参数通过在超参数空间采样得到；确定所述模型中第一输出精度满足第一预设条件的模型为目标模型，所述目标模型对应的超参数为目标超参数；基于所述目标超参数，根据所述第二数据集对所述目标模型进行训练，得到训练后的目标模型。2.根据权利要求1所述的方法，其特征在于，所述通过构建的第一预测器预测所述模型集中任意一个模型对第二数据集的第一输出精度包括：对所述超参数、所述模型集中的任意一个模型及所述第二数据集分别进行编码，分别得到超参数编码、模型编码及第二数据集编码；将所述超参数编码、所述模型编码及所述第二数据集编码输入所述第一预测器，输出所述任意一个模型在所述超参数情况下对所述第二数据集的第一输出精度。3.根据权利要求1-2中任一项所述的方法，其特征在于，在所述基于所述目标超参数，根据所述第二数据集对所述目标模型进行训练，得到训练后的目标模型之后，所述方法还包括：根据第二输出精度、所述第二数据集、所述目标超参数及所述目标模型更新所述第一预测器的参数，所述第二输出精度为所述训练后的目标模型对所述第二数据集的输出精度。4.根据权利要求1-3中任一项所述的方法，其特征在于，所述确定所述模型中第一输出精度满足第一预设条件的模型为目标模型包括：从所述模型中选取第一输出精度取值最大的模型为所述目标模型。5.根据权利要求1-4中任一项所述的方法，其特征在于，所述基于约束条件构建模型集包括：基于约束条件构建初始模型集，所述初始模型集包括至少两个训练后的初始模型，所述训练后的初始模型为根据所述第一数据集对初始模型训练得到；根据所述训练后的初始模型对构建的第二预测器进行训练，得到训练后的第二预测器；通过演化算法(EA)得到每个初始模型各自对应的一组衍生模型，每组衍生模型包括至少一个衍生模型；通过所述训练后的第二预测器对每个衍生模型进行处理，得到每个衍生模型对所述第一数据集的第三输出精度；根据所述第三输出精度从所述衍生模型中选取目标衍生模型，并根据所述第一数据集对所述目标衍生模型进行训练，得到训练后的目标衍生模型，所述训练后的初始模型及所述训练后的目标衍生模型构成所述模型集。6.根据权利要求5所述的方法，其特征在于，所述基于约束条件构建初始模型集包括：
根据约束条件确定搜索空间，所述搜索空间包括多种网络结构单元(block)及所述多种网络结构单元之间的连接关系；从所述搜索空间随机采样至少两个初始模型，并根据所述第一数据集对所述初始模型进行训练，得到训练后的初始模型，所述初始模型集包括所述训练后的初始模型。7.根据权利要求6所述的方法，其特征在于，所述根据所述第一数据集对所述初始模型进行训练，得到训练后的初始模型包括：将所述至少两个初始模型融合成一个第一模型；根据所述第一数据集对所述第一模型进行训练，得到训练后的第一模型；将所述训练后的第一模型拆解为至少两个训练后的初始模型。8.根据权利要求5-7中任一项所述的方法，其特征在于，所述目标衍生模型为多个，所述根据所述第一数据集对所述目标衍生模型进行训练，得到训练后的目标衍生模型包括：将多个所述目标衍生模型融合成一个第二模型；根据所述第一数据集对所述第二模型进行训练，得到训练后的第二模型；将所述训练后的第二模型拆解为多个训练后的目标衍生模型。9.根据权利要求5-8中任一项所述的方法，其特征在于，所述根据所述训练后的初始模型对构建的第二预测器进行训练，得到训练后的第二预测器包括：对所述训练后的初始模型的图结构进行编码，得到图编码；根据所述图编码训练图卷积神经网络(GCN)和贝叶斯回归器，得到训练后的GCN和训练后的贝叶斯回归器，其中，所述第二预测器包括所述GCN和所述贝叶斯回归器，所述训练后的第二预测器包括所述训练后的GCN和训练后的贝叶斯回归器。10.根据权利要求5-9中任一项所述的方法，其特征在于，所述根据所述第三输出精度从所述衍生模型中选取目标衍生模型包括：从所述衍生模型中选取第三输出精度大于预设值的衍生模型作为所述目标衍生模型；或，从所述衍生模型中选取第三输出精度取值较大的前n个衍生模型作为所述目标衍生模型，n≥1；或，根据所述第三输出精度的均值和方差得到每个衍生模型对应的置信上界(UCB)，并从所述衍生模型中选取置信上界取值较大的前m个衍生模型作为所述目标衍生模型，m≥1。11.根据权利要求5-10中任一项所述的方法，其特征在于，所述方法还包括：将所述模型集作为新的初始模型集，并将所述目标衍生模型作为新的初始模型，重复执行上述基于约束条件构建模型集的步骤直至达到第二预设条件。12.根据权利要求11所述的方法，其特征在于，所述第二预设条件包括：所述模型集内的模型数量达到预设数量；或，所述模型集内的模型满足的所述约束条件达到预设要求。13.根据权利要求1-12中任一项所述的方法，其特征在于，所述约束条件包括：模型大小、模型推理时延、模型训练时延、硬件部署条件、片上内存大小中的任意一个或多个。
14.根据权利要求1-13中任一项所述的方法，其特征在于，在所述得到训练后的目标模型之后，所述方法还包括：将所述训练后的目标模型部署在执行设备上，以使得所述执行设备通过所述训练后的目标模型对输入的目标数据进行处理。15.一种计算机设备，其特征在于，包括：构建模块，用于基于约束条件构建模型集，所述模型集包括至少两...

【专利技术属性】
技术研发人员：王波超，康宁，徐航，黄国位，张维，李震国，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人