神经网络架构搜索方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34035647 阅读:17 留言:0更新日期:2022-07-06 12:13
本申请提供了一种神经网络架构搜索方法、装置、电子设备及存储介质,涉及神经网络架构搜索技术领域。该方法包括构建超网络,超网络包括多个单元,每个单元均为包含多个节点的有向无环图;构建各单元的架构熵正则项,架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;通过梯度下降算法优化各单元中的架构参数;基于各单元中优化后的架构参数以及超网络的各单元中每条边上的候选操作,构建神经网络架构。本申请提供的方法、装置、电子设备及存储介质可避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降。络性能下降。络性能下降。

【技术实现步骤摘要】
神经网络架构搜索方法、装置、电子设备及存储介质


[0001]本申请涉及神经网络架构搜索
,尤其涉及一种神经网络架构搜索方法、装置、电子设备及存储介质。

技术介绍

[0002]神经架构搜索(Neural architecture search,NAS)作为一种重要的自动设计神经架构的方法,在深度学习领域迈出了重要的一步。早期的NAS算法通过强化学习和进化算法直接在离散的架构空间中搜索。这些算法需要大量的计算资源,因为独立地从头开始训练每一个候选架构是一个计算资源密集型任务。为降低搜索成本,在此基础上,可微分架构搜索(Differentiable Architecture Search,DARTS)进一步构建了架构的连续混合超网,将神经架构搜索问题松弛为学习可微的体系结构参数。
[0003]DARTS算法虽然具有较高的计算效率,但由于其稳定性和泛化性较差而受到诟病,大量研究人员发现并总结了两个导致DARTS稳定性和泛化性差的问题:(1)马太效应;(2)离散差异。同时,提出并证明了许多改进是有效的,包括逐步剪枝、搜索前预训练、候选操作分组、提前停止、限制跳过连接的数量等。然而,由于这两个问题解决的方案是不一致的,即架构参数公平训练(马太效应的解决方案)和高度自信选择(离散差异的解决方案)两者是相矛盾的,前者要求架构参数熵(即复杂程度)尽可能大,后者要求架构参数熵尽可能小,因此现有技术中的改进方案只能够间接弥补,而并不能有效改善由于搜索初期马太效应导致对网络参数的不公平学习和搜索后期离散差异导致离散化,进而导致神经网络性能下降。
[0004]因此,如何提供一种有效的方案,以避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降,已成为现有技术中一亟待解决的难题。

技术实现思路

[0005]第一方面,本申请实施例提供了一种神经网络架构搜索方法,包括:
[0006]构建用于神经网络架构搜索的超网络,所述超网络包括多个单元,所述多个单元中的每个单元均为包含多个节点的有向无环图;
[0007]构建各单元的架构熵正则项,所述架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;
[0008]基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;
[0009]通过梯度下降算法优化各单元中的架构参数;
[0010]基于各单元中优化后的架构参数以及所述超网络的各单元中每条边上的候选操作,构建神经网络架构。
[0011]在一个可能的设计中,所述多个单元包括第一单元和第二单元,所述第一单元的输出尺寸为所述第二单元的输出尺寸的一半,所述第一单元输出的通道数为所述第二单元输出的通道数的两倍。
[0012]在一个可能的设计中,任一单元的架构熵正则项为其中H(α
(i,j)
)表示所述任一单元中边(i,j)上的架构参数的信息熵,N表示所述任一单元中所有边的数量。
[0013]在一个可能的设计中,任一单元中的架构参数的损失函数为其中ω*(α)=argmin
ω
L
train
(ω,α),λ表示正则项系数,α表示所述任一单元中所有边架构参数的集合,ω表示超网络中的神经网络参数,ω*(α)表示在α不变的情况下最优的ω,L
val
()和L
train
()均表示损失函数。
[0014]在一个可能的设计中,梯度下降算法的梯度为其中ξ为0或1,表示求梯度的算子。
[0015]在一个可能的设计中,所述候选操作包括深度可分离卷积操作、扩展可分离卷积操作、最大池化操作、平均池化操作以及恒等运算操作中的至少一种。
[0016]第二方面,本申请实施例提供了一种神经网络架构搜索装置,包括:
[0017]第一建立模块,用于构建用于神经网络架构搜索的超网络,所述超网络包括多个单元,所述多个单元中的每个单元均为包含多个节点的有向无环图;
[0018]第二建立模块,用于构建各单元的架构熵正则项,所述架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;
[0019]第三建立模块,用于基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;
[0020]优化模块,用于通过梯度下降算法优化各单元中的架构参数;
[0021]第四建立模块,用于基于各单元中优化后的架构参数以及所述超网络的各单元中每条边上的候选操作,构建神经网络架构。
[0022]在一个可能的设计中,所述多个单元包括第一单元和第二单元,所述第一单元的输出尺寸为所述第二单元的输出尺寸的一半,所述第一单元输出的通道数为所述第二单元输出的通道数的两倍。
[0023]第三方面,本申请实施例提供了一种电子设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如上述任意一项所述的神经网络架构搜索方法。
[0024]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如上述任意一项所述的神经网络架构搜索方法。
[0025]本申请一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0026]通过构建用于神经网络架构搜索的超网络,构建超网络中各单元的架构熵正则项,基于各单元的架构熵正则项建立各单元中的架构参数的损失函数,并通过梯度下降算法优化各单元中的架构参数,然后基于各单元中优化后的架构参数以及超网络的各单元中每条边上的候选操作,构建神经网络架构。在此过程中由于引入架构熵正则项,基于构熵正则项建立各单元中的架构参数的损失函数,并通过梯度下降算法优化各单元中的架构参数,在神经网络搜索过程中可通过正则项系数的不同设置实现不同的效果,即当正则项系
数小于零时,可按照架构熵增大方向学习架构参数,由于候选操作的架构参数是均匀随机初始化的,因此很难增加,通常保持不变或缓慢下降,此时所有的候选操作都被公平对待,可有效缓解搜索前期的马太效应,当正则项系数大于零时,可按照架构熵减小的方向学习架构参数,这加快了候选操作的主导表达,提高了搜索效率,在搜索结束时,每条边的架构权重(操作强度)将更接近one

hot向量,从而使得离散差异较小,如此通过在不同搜索期间调整正则项系数即可防止在搜索初期出现过强的优势表达,同时促进搜索后期的优势表达,从而避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降,可以很容易地适应于不同的可微分NAS算法,而不需要额外的时间和内存成本,搜索的神经网络架构具有更高的准确性和更好的鲁棒性。
附图说明
[0027]此处所说明的附图用来提供对本文件的进一步理解,构成本文件的一部分,本文件的示意性实施例及其说明用于解释本文件,并不构成对本文件的不当限定。在附图中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络架构搜索方法,其特征在于,包括:构建用于神经网络架构搜索的超网络,所述超网络包括多个单元,所述多个单元中的每个单元均为包含多个节点的有向无环图;构建各单元的架构熵正则项,所述架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;通过梯度下降算法优化各单元中的架构参数;基于各单元中优化后的架构参数以及所述超网络的各单元中每条边上的候选操作,构建神经网络架构。2.根据权利要求1所述的方法,其特征在于,所述多个单元包括第一单元和第二单元,所述第一单元的输出尺寸为所述第二单元的输出尺寸的一半,所述第一单元输出的通道数为所述第二单元输出的通道数的两倍。3.根据权利要求1所述的方法,其特征在于,任一单元的架构熵正则项为其中H(α
(i,j)
)表示所述任一单元中边(i,j)上的架构参数的信息熵,N表示所述任一单元中所有边的数量。4.根据权利要求3所述的方法,其特征在于,任一单元中的架构参数的损失函数为其中ω*(α)=argmin
ω
L
train
(ω,α),λ表示正则项系数,α表示所述任一单元中所有边架构参数的集合,ω表示超网络中的神经网络参数,ω*(α)表示在α不变的情况下最优的ω,L
val
()和L
train
()均表示损失函数。5.根据权利要求4所述的方法,其特征在于,梯度下降算法的梯度为其中ξ为0...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:北京中科明彦科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1