神经网络结构搜索方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35096213 阅读:20 留言:0更新日期:2022-10-01 16:59
本申请涉及一种神经网络结构搜索方法、装置、计算机设备和存储介质。所述方法可应用于云技术、人工智能、智慧交通和辅助驾驶等场景,包括:根据全量训练集对基础网络结构的训练结果,从全量训练集中确定出包括遗忘样本和部分非遗忘样本的代理数据集,基于代理数据集,对基于基础网络结构构造的超网结构进行网络训练,得到训练后的超网结构。从训练后的超网结构中筛选出预设数目个子网络结构,根据代理数据集对各子网络结构进行从零训练,获得训练后的子网络结构,对训练后的各子网络结构进行评测处理,基于评测结果确定目标网络结构。采用本方法可提升网络训练速度,同时避免遗忘样本丢失,维持模型搜索精度,以保障目标网络结构符合实际需求。符合实际需求。符合实际需求。

【技术实现步骤摘要】
神经网络结构搜索方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种神经网络结构搜索方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着人工智能技术的发展,以及对于不同应用程序或者产品的更新需求和优化需求,包括对视频图像编辑应用程序、短视频应用程序以及视频通话等,以及设置有不同应用程序的智能终端设备进行更新和优化,出现了利用深度学习技术或者神经网络算法,来对不同应用程序或者智能终端设备,进行自动优化和更新处理,以提升优化、更新的处理效率。
[0003]而针对不同的应用程序或者产品的更新、优化需求,通常需要设计出或者查找到相匹配的神经网络模型,而现有的神经网络模型训练或搜索方式,均需要利用到全量训练集,即需要足量的训练集才能进行神经网络的训练和搜索,以保证所确定出的网络模型符合应用程序或者产品的实际需求。
[0004]传统技术中,通常采用随机采样生成的训练集,作为训练和搜索神经网络的训练集数据的方式,或采用数据量更少的同质任务对应的训练集,作为当前需要进行神经网络训练或者搜索时的代理数据集的方式。而随机采用生成的训练集只能保证可减少样本数据量,而并不能全面考虑整个全量数据集,存在丢失样本的问题,同样地,采用数据量更少的同质任务对应的训练集,进行神经网络搜索时,存在同质任务的样本和当前所需的样本数据分布特性不同,导致搜索得到的模型结构存在较大偏差的问题。
[0005]因此,根据传统方式中所采用的训练集,进行神经网络模型训练或搜索时,仍然存在样本丢失或数据样本分布特征差异大,导致所确定出的神经网络模型不符合实际需求,网络模型搜索精度低的问题。

技术实现思路

[0006]基于此,有必要针对上述技术问题,提供一种能够提升神经网络模型搜索精度,保障所确定出的神经网络模型符合实际需求的神经网络结构搜索方法、装置、计算机设备和存储介质。
[0007]第一方面,本申请提供了一种神经网络结构搜索方法。所述方法包括:
[0008]根据用全量训练集对基础网络结构进行训练的训练结果,从所述全量训练集中确定出代理数据集;所述代理数据集包括遗忘样本和经筛选后的部分非遗忘样本;
[0009]基于所述代理数据集,对基于所述基础网络结构构造的超网结构进行网络训练,得到训练后的超网结构,并从训练后的所述超网结构中的各子网络结构中筛选出预设数目个子网络结构;
[0010]根据所述代理数据集,对所述预设数目个子网络结构进行从零训练,获得训练后的子网络结构;
[0011]对训练后的各所述子网络结构进行评测处理,并基于评测结果确定出目标网络结构。
[0012]在其中一个实施例中,所述根据用全量训练集对基础网络结构进行训练的训练结果,从所述全量训练集中确定出代理数据集,包括:
[0013]获取基于所述全量训练集对所述基础网络结构进行迭代训练,得到的各次迭代训练的各训练样本对应的预测结果;
[0014]基于各次迭代训练的各训练样本对应的预测结果,将所述全量训练集中的训练样本划分为遗忘样本和非遗忘样本;
[0015]对所述非遗忘样本进行筛选,获得筛选后的部分非遗忘样本;
[0016]根据所述遗忘样本和所述部分非遗忘样本,获得代理数据集。
[0017]在其中一个实施例中,所述基于各次迭代训练的各训练样本对应的预测结果,将所述全量训练集中的训练样本划分为遗忘样本和非遗忘样本,包括:
[0018]基于任意连续两次迭代训练的预测结果,将前一次迭代训练的预测结果与所述训练样本的样本标签一致,而后一次迭代训练的预测结果与所述训练样本的样本标签不一致的训练样本,确定为遗忘样本;
[0019]基于各次迭代训练的预测结果,将任意一次迭代训练的预测结果与所述训练样本的样本标签一致时,之后的各次迭代训练的预测结果均与所述训练样本的样本标签一致的训练样本,确定为非遗忘样本。
[0020]在其中一个实施例中,所述基于所述代理数据集,对基于所述基础网络结构构造的超网结构进行网络训练,得到训练后的超网结构,并从训练后的所述超网结构中的各子网络结构中筛选出预设数目个子网络结构,包括:
[0021]基于所述代理数据集,对基于所述基础网络结构构造的超网结构进行网络训练,调整各所述基础网络结构的神经网络参数,得到训练后的超网结构;
[0022]根据所述预设评测样本集,对训练后的所述超网结构中的各子网络结构进行评测处理,生成对应的第一评测结果;
[0023]基于各所述第一评测结果,对各所述子网络结构进行排序处理,生成排序后的第一子网络结构序列;
[0024]从所述第一子网络结构序列中,筛选出预设数目个子网络结构。
[0025]在其中一个实施例中,所述对训练后的各所述子网络结构进行评测处理,并基于评测结果确定出目标网络结构,包括:
[0026]利用所述预设评测样本集,对训练后的各所述子网络结构进行评测处理,生成对应的第二评测结果;
[0027]基于各所述第二评测结果,对训练后的各所述子网络结构进行排序处理,生成排序后的第二子网络结构序列;
[0028]基于排序后的所述第二子网络结构序列,筛选出目标网络结构。
[0029]在其中一个实施例中,所述根据所述代理数据集,对所述预设数目个子网络结构进行从零训练,获得训练后的子网络结构,包括:
[0030]基于所述预设数目个子网络结构进行权重初始化处理,得到待训练的子网络结构;
[0031]根据所述代理数据集,对所述待训练的子网络结构进行从零训练,对各所述待训练的子网络结构的神经网络参数进行调整,获得训练后的子网络结构。
[0032]第二方面,本申请还提供了一种神经网络结构搜索装置。所述装置包括:
[0033]代理数据集确定模块,用于根据用全量训练集对基础网络结构进行训练的训练结果,从所述全量训练集中确定出代理数据集;所述代理数据集包括遗忘样本和经筛选后的部分非遗忘样本;
[0034]子网络结构筛选模块,用于基于所述代理数据集,对基于所述基础网络结构构造的超网结构进行网络训练,得到训练后的超网结构,并从训练后的所述超网结构中的各子网络结构中筛选出预设数目个子网络结构;
[0035]子网络结构训练模块,用于根据所述代理数据集,对所述预设数目个子网络结构进行从零训练,获得训练后的子网络结构;
[0036]目标网络结构确定模块,用于对训练后的各所述子网络结构进行评测处理,并基于评测结果确定出目标网络结构。
[0037]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0038]根据用全量训练集对基础网络结构进行训练的训练结果,从所述全量训练集中确定出代理数据集;所述代理数据集包括遗忘样本和经筛选后的部分非遗忘样本;
[0039]基于所述代理数据集,对基于所述基础网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络结构搜索方法,其特征在于,所述方法包括:根据用全量训练集对基础网络结构进行训练的训练结果,从所述全量训练集中确定出代理数据集;所述代理数据集包括遗忘样本和经筛选后的部分非遗忘样本;基于所述代理数据集,对基于所述基础网络结构构造的超网结构进行网络训练,得到训练后的超网结构,并从训练后的所述超网结构中的各子网络结构中筛选出预设数目个子网络结构;根据所述代理数据集,对所述预设数目个子网络结构进行从零训练,获得训练后的子网络结构;对训练后的各所述子网络结构进行评测处理,并基于评测结果确定出目标网络结构。2.根据权利要求1所述的方法,其特征在于,所述根据用全量训练集对基础网络结构进行训练的训练结果,从所述全量训练集中确定出代理数据集,包括:获取基于所述全量训练集对所述基础网络结构进行迭代训练,得到的各次迭代训练的各训练样本对应的预测结果;基于各次迭代训练的各训练样本对应的预测结果,将所述全量训练集中的训练样本划分为训练样本遗忘样本和非遗忘样本;对所述非遗忘样本进行筛选,获得筛选后的部分非遗忘样本;根据所述遗忘样本和所述部分非遗忘样本,获得代理数据集。3.根据权利要求2所述的方法,其特征在于,所述基于各次迭代训练的各训练样本对应的预测结果,将所述全量训练集中的训练样本划分为遗忘样本和非遗忘样本,包括:基于任意连续两次迭代训练的预测结果,将训练样本前一次迭代训练的预测结果与所述训练样本的样本标签一致,而后一次迭代训练的预测结果与所述训练样本的样本标签不一致的训练样本,确定为遗忘样本;基于各次迭代训练的预测结果,将任意一次迭代训练的预测结果与所述训练样本的样本标签一致时,之后的各次迭代训练的预测结果均与所述训练样本的样本标签一致的训练样本,确定为非遗忘样本。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述基于所述代理数据集,对基于所述基础网络结构构造的超网结构进行网络训练,得到训练后的超网结构,并从训练后的所述超网结构中的各子网络结构中筛选出预设数目个子网络结构,包括:基于所述代理数据集,对基于所述基础网络结构构造的超网结构进行网络训练,调整各所述基础网络结构的神经网络参数,得到训练后的超网结构;根据所述预设评测样本集,对训练后的所述超网结构中的各子网络结构进行评测处理,生成对应的第一评测...

【专利技术属性】
技术研发人员:康洋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1