模型训练方法、电子设备及存储介质技术

技术编号:33616642 阅读:16 留言:0更新日期:2022-06-02 00:31
本申请涉及机器学习技术领域,具体公开了一种模型的训练方法、电子设备及存储介质,所述方法包括:获取预先训练好的超网络模型;从所述超网络模型的预设数量的子网络模型中,确定多个目标子网络模型;获取多个基于开源数据训练的主流网络模型;将每个所述目标子网络模型作为第一主干网络与第一分支网络拼接,得到多个第一拼接网络,以及将每个所述主流网络模型作为第二主干网络与第二分支网络拼接得到多个第二拼接网络;对多个所述第一拼接网络和所述第二拼接网络进行微调并测试以确定目标网络模型;对所述目标网络模型进行迁移学习,得到需要的模型,进而实现模型训练的便捷化和智能化,提升用户的体验度。提升用户的体验度。提升用户的体验度。

【技术实现步骤摘要】
模型训练方法、电子设备及存储介质


[0001]本申请涉及机器学习
,尤其涉及一种模型的训练方法、电子设备及存储介质。

技术介绍

[0002]神经网络结构搜索(Neural Architecture Search,NAS)是自动机器学习(Automated Machine Learning,AutoML)领域热点之一,通过设计经济高效的搜索方法,可以自动获取泛化能力强,硬件要求友好的神经网络,因此可以节省大量人力物力。NAS的主要工作原理是先定义搜索空间,然后通过搜索策略找出候选网络结构,对它们进行评估,根据反馈进行下一轮的搜索,直至搜索到目标网络结构,并基于目标网络结构进行自动机器学习得到需要的模型。
[0003]但是,现有的NAS搜索过程较长,每次拿到用户数据之后,都需要从头搜索,得到网络结构,使用该网络结构时候还需要进行预训练,然后在用户数据上进行迁移学习,才能得到需要的模型。由于需要长时间搜索等待,因此无法给用户提供友好的体验。

技术实现思路

[0004]本申请实施例提供了一种模型的训练方法、电子设备及存储介质,旨在解决长时间的神经网络结构搜索等待的问题,节约了时间成本,提供给用户更友好的体验。
[0005]第一方面,本申请提供了一种模型的训练方法,所述方法包括:
[0006]获取预先训练好的超网络模型,所述超网络模型包括预设数量的子网络模型;
[0007]从所述超网络模型的预设数量的子网络模型中,确定多个目标子网络模型;
[0008]获取多个基于开源数据训练的主流网络模型;
[0009]将每个所述目标子网络模型作为第一主干网络与第一分支网络拼接,得到多个第一拼接网络,以及将每个所述主流网络模型作为第二主干网络与第二分支网络拼接得到多个第二拼接网络,其中,每个所述第一主干网络后拼接的第一分支网络的网络结构相同且参数共享,每个所述第二主干网络后拼接的第二分支网络的网络结构相同且参数不共享;
[0010]对多个所述第一拼接网络和所述第二拼接网络进行微调并测试以确定目标网络模型;
[0011]对所述目标网络模型进行迁移学习,得到需要的模型。
[0012]第二方面,本申请实施例还提供了另一种模型训练方法,所述方法包括:
[0013]获取预先训练好的超网络模型,所述超网络模型包括预设数量的子网络模型;
[0014]从所述超网络模型的预设数量的子网络模型中,确定多个目标子网络模型;
[0015]获取多个基于开源数据训练的主流网络模型;
[0016]将每个所述目标子网络模型作为第一主干网络与第一分支网络拼接,得到多个第一拼接网络,以及将每个所述主流网络模型作为第二主干网络与第二分支网络拼接得到多个第二拼接网络;
[0017]对多个所述第一拼接网络和所述第二拼接网络进行微调并测试以确定目标网络模型;
[0018]对所述目标网络模型进行迁移学习,得到需要的模型。
[0019]第三方面,本申请实施例还提供了另一种模型训练方法,所述方法包括:
[0020]获取预先训练好的超网络模型,所述超网络模型包括预设数量的子网络模型;
[0021]从所述超网络模型的预设数量的子网络模型中,确定多个目标子网络模型;
[0022]获取多个基于开源数据训练的主流网络模型;
[0023]根据多个所述目标子网络模型和多个所述主流网络模型,确定目标网络模型;
[0024]对所述目标网络模型进行迁移学习,得到需要的模型。
[0025]第四方面,本申请实施例提供了一种电子设备,包括存储器和处理器;
[0026]所述存储器用于存储计算机程序;
[0027]所述处理器,用于执行所述计算机程序并在执行所述计算机程序时,实现本申请实施例提供任一项所述的模型训练方法。
[0028]第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供任一项所述模型训练方法。
[0029]本申请实施例提供的模型训练方法、电子设备和存储介质,通过预先训练好的超网络模型和主流网络模型结合,再利用主干网络与分支网络拼接的方式,不仅可以大大节省神经网络结构搜索(Neural Architecture Search,NAS)的搜索时间,同时还可以提高模型的准确性。
[0030]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请实施例的公开内容。
附图说明
[0031]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]图1是本申请实施例提供的一种超网络模型的训练方法;
[0033]图2是本申请实施例提供的一种超网络结构的示意图;
[0034]图3是本申请实施例提供的一种模型训练方法的示意流程图;
[0035]图4是本申请实施例提供的一种从超网络模型中选取满足预设模型约束条件的子网络模型的示意流程图
[0036]图5是本申请实施例提供的一种获取多个基于开源数据训练的主流网络模型的示意流程图;
[0037]图6是本申请实施例提供的一种模型训练方法应用在服务器时的场景示意图;
[0038]图7是本申请实施例提供的另一种模型训练方法的示意流程图;
[0039]图8是本申请一实施例提供的一种电子设备的示意性框图。
具体实施方式
[0040]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0041]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0042]在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0043]目前,神经网络结构搜索(Neural Architecture Search,NAS)是自动机器学习(Auto-ML)领域热点之一,通过设计经济高效的搜索方法,可以自动获取泛化能力强,硬件要求友好的神经网络,因此可以节省大量人力物力。
[0044]但是,现有的NAS搜索过程较长,每次拿到用户数据之后,都需要从头搜索,得到网络结构,使用该网络结构时候还需要进行预训练,然后在用户数据上进行迁移学习,才能得到需要的模型。由于需要长时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取预先训练好的超网络模型,所述超网络模型包括预设数量的子网络模型;从所述超网络模型的预设数量的子网络模型中,确定多个目标子网络模型;获取多个基于开源数据训练的主流网络模型;将每个所述目标子网络模型作为第一主干网络,与第一分支网络拼接,得到多个第一拼接网络,以及将每个所述主流网络模型作为第二主干网络,与第二分支网络拼接,得到多个第二拼接网络,其中,每个所述第一主干网络后拼接的第一分支网络的网络结构相同且参数共享,每个所述第二主干网络后拼接的第二分支网络的网络结构相同且参数不共享;对多个所述第一拼接网络和所述第二拼接网络进行微调并测试,以确定目标网络模型;对所述目标网络模型进行迁移学习,得到需要的模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取开源数据集;获取预设的超网络,所述超网络包括第一数量的通道和第二数量的层;随机关断所述超网络的通道和/或层,并利用所述开源数据集对剩下的网络训练一批数据;重复执行所述随机关断所述预设的超网络的通道和/或层,并利用所述开源数据集对剩下的网络训练一批数据的步骤,直至所述超网络收敛,得到预先训练好的超网络模型。3.根据权利要求1所述的方法,其特征在于,所述从所述超网络模型的预设数量的子网络模型中,确定多个目标子网络模型,包括:基于预设采样算法,从所述超网络模型中选取满足预设模型约束条件的子网络模型,直至采集的子网络模型的数量满足预设值为止;对采集到的多个子网络模型进行测试评估,确定多个目标子网络模型。4.根据权利要求3所述的方法,其特征在于,所述基于预设采样算法,从所述超网络模型中选取满足预设模型约束条件的子网络模型,包括:随机从所述超网络模型选取一个子网络模型;确定所述子网络模型的运算量是否小于预设运算量阈值,以及所述子网络模型的模型参数量是否小于预设参数量阈值;若所述子网络模型的运算量小于所述预设运算量阈值,且所述子网络模型的模型参数量小于所述预设参数量阈值,则选定所述子网络模型。5.根据权利要求1所述的方法,其特征在于,所述对采集到的多个子网络模型进行测试评估,确定多个目标子网络模型,包括:根据主流网络模型的数量确定需要确定的目标子网络模型的数量;根据测试集对所述采集到的多个子网络模型进行测试,得到所述多个子网络模型的准确率;根据所述多个子网络模型的准确率对所述多个子网络模型进行排序,得到所述多个子网络模型的排序结果;以及根据所述排序结果和所述目标子网络模型的数量,确定多个目标子网络模型。6.根据权利要求1所述的方法,其特征在于,所述获取多个...

【专利技术属性】
技术研发人员:蒋阳豆泽阳庞磊赵丛
申请(专利权)人:共达地创新技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1