神经网络架构搜索方法、装置、电子设备及存储介质制造方法及图纸

技术编号：34035647 阅读：17 留言：0更新日期：2022-07-06 12:13

本申请提供了一种神经网络架构搜索方法、装置、电子设备及存储介质，涉及神经网络架构搜索技术领域。该方法包括构建超网络，超网络包括多个单元，每个单元均为包含多个节点的有向无环图；构建各单元的架构熵正则项，架构熵为单元中所有边的架构权重的信息熵平均值，边的架构权重为边上所有候选操作的操作强度的集合；基于各单元的架构熵正则项，建立各单元中的架构参数的损失函数；通过梯度下降算法优化各单元中的架构参数；基于各单元中优化后的架构参数以及超网络的各单元中每条边上的候选操作，构建神经网络架构。本申请提供的方法、装置、电子设备及存储介质可避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降。络性能下降。络性能下降。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络架构搜索方法、装置、电子设备及存储介质

[0001]本申请涉及神经网络架构搜索
，尤其涉及一种神经网络架构搜索方法、装置、电子设备及存储介质。

技术介绍

[0002]神经架构搜索(Neural architecture search，NAS)作为一种重要的自动设计神经架构的方法，在深度学习领域迈出了重要的一步。早期的NAS算法通过强化学习和进化算法直接在离散的架构空间中搜索。这些算法需要大量的计算资源，因为独立地从头开始训练每一个候选架构是一个计算资源密集型任务。为降低搜索成本，在此基础上，可微分架构搜索(Differentiable Architecture Search，DARTS)进一步构建了架构的连续混合超网，将神经架构搜索问题松弛为学习可微的体系结构参数。
[0003]DARTS算法虽然具有较高的计算效率，但由于其稳定性和泛化性较差而受到诟病，大量研究人员发现并总结了两个导致DARTS稳定性和泛化性差的问题：(1)马太效应；(2)离散差异。同时，提出并证明了许多改进是有效的，包括逐步剪枝、搜索前预训练、候选操作分组、提前停止、限制跳过连接的数量等。然而，由于这两个问题解决的方案是不一致的，即架构参数公平训练(马太效应的解决方案)和高度自信选择(离散差异的解决方案)两者是相矛盾的，前者要求架构参数熵(即复杂程度)尽可能大，后者要求架构参数熵尽可能小，因此现有技术中的改进方案只能够间接弥补，而并不能有效改善由于搜索初期马太效应导致对网络参数的不公平学习和搜索后期离散差异导致离散化，进而导致...

【技术保护点】

【技术特征摘要】
1.一种神经网络架构搜索方法，其特征在于，包括：构建用于神经网络架构搜索的超网络，所述超网络包括多个单元，所述多个单元中的每个单元均为包含多个节点的有向无环图；构建各单元的架构熵正则项，所述架构熵为单元中所有边的架构权重的信息熵平均值，边的架构权重为边上所有候选操作的操作强度的集合；基于各单元的架构熵正则项，建立各单元中的架构参数的损失函数；通过梯度下降算法优化各单元中的架构参数；基于各单元中优化后的架构参数以及所述超网络的各单元中每条边上的候选操作，构建神经网络架构。2.根据权利要求1所述的方法，其特征在于，所述多个单元包括第一单元和第二单元，所述第一单元的输出尺寸为所述第二单元的输出尺寸的一半，所述第一单元输出的通道数为所述第二单元输出的通道数的两倍。3.根据权利要求1所述的方法，其特征在于，任一单元的架构熵正则项为其中H(α
(i,j)
)表示所述任一单元中边(i,j)上的架构参数的信息熵，N表示所述任一单元中所有边的数量。4.根据权利要求3所述的方法，其特征在于，任一单元中的架构参数的损失函数为其中ω*(α)＝argmin
ω
L
train
(ω,α)，λ表示正则项系数，α表示所述任一单元中所有边架构参数的集合，ω表示超网络中的神经网络参数，ω*(α)表示在α不变的情况下最优的ω，L
val
()和L
train
()均表示损失函数。5.根据权利要求4所述的方法，其特征在于，梯度下降算法的梯度为其中ξ为0...

【专利技术属性】
技术研发人员：ꢀ七四专利代理机构，
申请(专利权)人：北京中科明彦科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人