一种在搜索阶段无需训练的图像分类模型的构建方法技术

技术编号:38000509 阅读:13 留言:0更新日期:2023-06-30 10:14
本发明专利技术提供了一种在搜索阶段无需训练的图像分类模型的构建方法,包括:在模型结构的搜索阶段,执行步骤A1

【技术实现步骤摘要】
一种在搜索阶段无需训练的图像分类模型的构建方法


[0001]本专利技术涉及自动化机器学习领域,具体来说涉及图像分类
,更具体地说,涉及一种在搜索阶段无需训练的图像分类模型的构建方法。

技术介绍

[0002]自动化机器学习要解决的问题是,针对特定的一类或若干类机器学习任务,在没有人类专家干预且计算资源有限的条件下,自动化地构建机器学习流程。研究方向包括:自动化特征提取、自动化模型选择、自动化模型参数调优、自动化模型结构搜索、自动化模型评估、元学习、迁移学习等。其中神经网络架构搜索作为其中一个关键的环节,旨在预定义好的搜索空间中通过自动化的技术搜索得到性能最优的网络结构。神经网络架构搜索得到的结构性能已经在多个任务中被验证可以超过人工设计的网络结构性能。因此,自动化设计网络结构受到研究者的广泛关注。
[0003]神经网络架构搜索的关键步骤是需要评估搜索空间中每个架构的性能。早期的方法需要单独训练每个架构至收敛,然后验证它们的性能,该过程要消耗大量的时间和资源,需要成百上千个GPU天数才可以完成搜索。后来,为了减少架构的性能评估时间,一种权重共享的技术被提出。权重共享,指在不同子网络之间共享相同操作的权重,这样就只需要训练一个超网络即可,不同的子网络就可以直接继承超网络的权重进行验证性能。具体而言,基于梯度训练的超网络引入架构参数,分别在训练集和验证集交替训练网络权重和架构参数,然后根据架构参数的大小评估候选架构的性能;另一方面,基于单路径采样训练的超网络在训练收敛之后,利用进化算法挑选大量子网络通过继承超网络的权重进行验证性能。无论如何,基于权重共享的超网络训练方案都需要在验证性能之前进行训练以根据训练的结果进行搜索,搜索完成后对得到的目标网络再进行训练;这种训练、搜索和再训练的方式需要较大的计算开销。
[0004]在图像分类领域,神经网络模型的规格越来越大,为了得到性能优异的模型结构,可能需要从搜索空间中的大量的模型结构中确定所需的模型结构。在搜索量大、模型的计算量大的情况下,若仍采用训练、搜索和再训练的方式,需要耗费大量的算力和时间成本,效率低下且严重浪费资源。
[0005]为了最大限度地减少神经网络性能评估的开销,一些无需训练的搜索方式被提出,通过设计不同的代理指标,然后通过计算在神经网络初始化时的代理指标,该代理指标的大小作为神经网络性能的指示器来预估网络的性能。这样搜索时就不需要任何训练过程,大大提升了神经网络架构搜索的速度,但是,代理指标设计的好坏直接决定着性能评估的准确性。之前的代理指标要么是受在初始化时神经网络剪枝经验启发设计的,比如SNIP、GraSP、SynFlow等方法;但是,根据剪枝经验设计的代理指标的性能预测不够准确。这些无需训练的代理指标在不同的搜索空间中表现各异,甚至并不能超越最简单的代理,即神经网络的参数量指标。另一方面,其他的代理指标由神经网络训练的理论分析中得出,比如NASWOT方法通过分析神经网络的线性区域来预测网络的性能;神经网络正切核描述了神经
网络的训练动力学,NASI和TE

NAS方法通过计算初始化时的神经网络正切核指标预测网络的性能,但是神经网络正切核只能在极宽的网络下才能保证,存在一定的局限性,且这种根据网络训练动力学设计的代理指标,缺乏对泛化性的考虑;还有的代理指标是通过分析神经网络训练过程的梯度损失景观,然后设计新的代理指标预测网络性能。
[0006]以上现有的无需训练的搜索方式的代理指标主要侧重于网络的训练性而忽视了网络的泛化性,使得选定的模型在经过训练之后的测试精度难以保障。因此,需要对现有技术进行改进。

技术实现思路

[0007]因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种在搜索阶段无需训练的图像分类模型的构建方法。
[0008]本专利技术的目的是通过以下技术方案实现的:
[0009]根据本专利技术的第一方面,提供一种在搜索阶段无需训练的图像分类模型的构建方法,包括:在模型结构的搜索阶段,执行步骤A1

A4:A1、从预设的搜索空间所包含的多个神经网络模型结构中采样出多个待选的模型结构,A2、对每个待选的模型结构,利用从图像分类数据集中提取的评价集中的每个图像样本分别在该待选的模型结构进行一次正向传播得到图像分类结果,并基于图像分类结果的分类损失求梯度并反向传播得到待选的模型结构下各图像样本对应的每个可训练的参数的梯度,A3、根据每个待选的模型结构下各图像样本对应的每个可训练的参数的梯度,确定每个待选的模型结构的信噪比代理指标,其中,所述信噪比代理指标与各图像样本对应的参数的梯度的均值的平方与参数的梯度的方差的比值正相关,A4、根据所有待选的模型结构的信噪比代理指标,从多个待选的模型结构选定目标网络模型;在训练阶段,根据从图像分类数据集中提取的训练集对目标网络模型进行图像分类训练,得到经训练的图像分类模型。
[0010]在本专利技术的一些实施例中,信噪比代理指标为评价集中各图像样本对应的参数的梯度的均值的平方与参数的梯度的方差的比值之和。
[0011]在本专利技术的一些实施例中,所述信噪比代理指标为评价集中各图像样本对应的参数的梯度的均值的平方与修正的参数的梯度的方差的比值之和,其中,修正的参数的梯度为该图像样本对应的参数的梯度的方差与预设的正则化值之和。
[0012]在本专利技术的一些实施例中,所述信噪比代理指标按照以下方式确定:
[0013][0014]其中,N表示评价集中的图像样本的总数,X
i
表示评价集中的第i个图像样本,Y
i
表示第i个图像样本的标签,θ
j
表示第j个参数,表示针对第i个图像样本计算出的参数θ
j
的梯度,表示第i个图像样本对应的参数的梯度的均值的平方,表示第i个图像样本对应的参数的梯度的方差,ξ表示预设的正则化值。
[0015]在本专利技术的一些实施例中,在模型结构的搜索阶段,针对每个待选的模型结构,评
价集中的每个图像样本只对应一次正向传播和一次反向传播,以确定该待选的模型结构下该图像样本对应的每个可训练的参数的梯度,并屏蔽根据参数的梯度更新参数的过程。
[0016]在本专利技术的一些实施例中,步骤A4中,从所有待选的模型结构中,选择信噪比代理指标的数值最高的模型结构作为目标网络模型。
[0017]根据本专利技术的第二方面,提供一种用于实现第一方面所述的方法的图像分类模型的训练装置,包括:神经网络采样模块,用于从预设的搜索空间所包含的多个神经网络模型结构中采样出多个待选的模型结构;神经网络性能预估模块,用于对每个待选的模型结构,利用从图像分类数据集中提取的评价集中的每个图像样本分别在该待选的模型结构进行一次正向传播得到图像分类结果,并基于图像分类结果的分类损失求梯度并反向传播得到待选的模型结构下各图像样本对应的每个可训练的参数的梯度;以及根据每个待选的模型结构下各图像样本对应的每个可训练的参数的梯度,确定每个待选的模型结构的信噪比代理指标,其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在搜索阶段无需训练的图像分类模型的构建方法,其特征在于,包括:在模型结构的搜索阶段,执行步骤A1

A4:A1、从预设的搜索空间所包含的多个神经网络模型结构中采样出多个待选的模型结构;A2、对每个待选的模型结构,利用从图像分类数据集中提取的评价集中的每个图像样本分别在该待选的模型结构进行一次正向传播得到图像分类结果,并基于图像分类结果的分类损失求梯度并反向传播得到待选的模型结构下各图像样本对应的每个可训练的参数的梯度;A3、根据每个待选的模型结构下各图像样本对应的每个可训练的参数的梯度,确定每个待选的模型结构的信噪比代理指标,其中,所述信噪比代理指标与各图像样本对应的参数的梯度的均值的平方与参数的梯度的方差的比值正相关;A4、根据所有待选的模型结构的信噪比代理指标,从多个待选的模型结构选定目标网络模型;在训练阶段,根据从图像分类数据集中提取的训练集对目标网络模型进行图像分类训练,得到经训练的图像分类模型。2.根据权利要求1所述的方法,其特征在于,所述信噪比代理指标为评价集中各图像样本对应的参数的梯度的均值的平方与参数的梯度的方差的比值之和。3.根据权利要求1所述的方法,其特征在于,所述信噪比代理指标为评价集中各图像样本对应的参数的梯度的均值的平方与修正的参数的梯度的方差的比值之和,其中,修正的参数的梯度为该图像样本对应的参数的梯度的方差与预设的正则化值之和。4.根据权利要求3所述的方法,其特征在于,所述信噪比代理指标按照以下方式确定:其中,N表示评价集中的图像样本的总数,X
i
表示评价集中的第i个图像样本,Y
i
表示第i个图像样本的标签,θ
j
表示第j个参数,表示针对第i个图像样本计算出的参数θ
j
的梯度,表示第i个图像样本对应的参数的梯度的均值的平方,表示第i个图像样本对应的参数的梯度的方差,ξ表示预设的正则化值。5.根据权利要求1所述的方法,其特征在于,在模型结构的搜索阶段,针对每个待选...

【专利技术属性】
技术研发人员:孙自浩胡瑜
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1