一种搜索卷积神经网络的方法技术

技术编号:24411850 阅读:42 留言:0更新日期:2020-06-06 09:34
本发明专利技术提供一种搜索卷积神经网络的方法,包括:构建初始卷积神经网络并训练至收敛,其中所述初始卷积神经网络包括一个或多个进化模块、全局平均池化层、全连接层;以训练后的初始卷积神经网络为基础进行多次迭代突变以得到多个突变卷积神经网络,其中,单次突变是从预设的突变方式中随机选择一种突变方式对当前卷积神经网络中的所有进化模块的结构同时进行突变后对整个卷积神经网络进行训练至收敛得到一个新的突变卷积神经网络,每次突变得到一个突变卷积神经网络;从步多个突变卷积神经网络中选择适应度最大的突变卷积神经网络作为搜索结果。采用本发明专利技术可以根据已有网络结构和参数方面的经验,有方向性地改变神经网络结构,并减少训练消耗。

A method of searching convolution neural network

【技术实现步骤摘要】
一种搜索卷积神经网络的方法
本专利技术涉及计算机深度学习领域,具体地说,涉及神经网络结构设计优化方法中的神经网络结构搜索领域,更具体地说,涉及一种快速搜索卷积神经网络的方法。
技术介绍
卷积神经网络通过模仿人脑机制的神经结构提取特征,在计算机视觉、目标检测等领域具有突出的性能。为了提高图像分类的准确性,研究人员先后提出了包含多个有效模块的人工设计的神经结构,如ResNet、DenseNet、PyramidNet等。为了设计出适用于各种数据集的神经结构,越来越多的研究人员对实现神经结构的自动搜索进行深入研究。研究人员对特定数据集进行神经结构搜索时,将数据集划分为训练集与验证集,将搜索出的每个神经结构在训练集训练后,在验证集上验证其效果,通过迭代该过程,逐步探索更优神经结构。许多神经结构搜索算法性能优异,但计算量大。例如,使用进化算法需要450个GPU共7天(或使用800个GPU进行28天的强化学习,才能对CIFAR-10数据集获得一个先进的架构。最新的一些算法提出了加快搜索过程,但无论是基于演化算法、强化学习、贝叶斯优化等在离散搜索空间完成搜索或基于梯度下降方法在连续域搜索,都基本无方向性,都是盲目随机地对搜索空间进行探索,在没有信息指导的情况下训练每一个中间架构的计算开销都很大。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种新的可以快速搜索卷积神经网络的方法。本专利技术提供一种搜索卷积神经网络的方法,包括如下步骤:S1、训练初始卷积神经网络至收敛,其中所述初始卷积神经网络包括一个或多个进化模块;优选的所述初始卷积神经网络包括全局平均池化层以及全连接层,所述初始卷积神经网络在进化模块与全平均池化层之间包括一个或两个最大池化层、一个或多个丢弃块层;其中,最大池化层的步长为2,丢弃块层的保持率为0.75;在包含两个最大池化层时,靠前的最大池化层的块尺寸为7,靠后的最大池化层的块尺寸为5。S2、以经步骤S1训练后的初始卷积神经网络为基础进行多次迭代突变以得到多个突变卷积神经网络,其中,每次突变是从预设的突变方式中随机选择一种突变方式对当前卷积神经网络中的所有进化模块的结构同时进行突变,并对其进行训练至收敛得到一个新的突变卷积神经网络;在本专利技术的一些实施例中,所述每一个进化模块包括一个或多个卷积层,所述每一个卷积层包含多个滤波器,对每个进化模块的结构进行突变是随机选择进化模块中的一个卷积层采用一种突变方式对其结构进行突变。在本专利技术的一些实施例中,所述步骤S2包括:S21、以经步骤S1训练后的初始卷积神经网络为基础进行多次迭代突变以得到预设初始规模的多个突变卷积神经网络组成初始种群;其中,第一次突变是从预设的突变方式中随机选择一种突变方式对初始卷积神经网络的所有进化模块的结构同时进行突变后对整个卷积神经网络进行训练至收敛得到一个突变卷积神经网络,后面的每次迭代突变是从预设的突变方式中随机选择一种突变方式对上一次突变后的卷积神经网络中的所有进化模块的结构同时进行突变后对整个卷积神经网络进行训练至收敛得到新的突变卷积神经网络;S22、从初始种群中采用锦标赛选择方法选择一个突变卷积神经网络进行单次突变获得一个新的突变卷积神经网络并放回初始种群,重复多次,直至初始种群的规模达到预设的一代规模形成突变卷积神经网络的一代种群;S23、从一代种群中采用锦标赛选择方法选择一个突变卷积神经网络进行单次突变获得新的突变卷积神经网络并放回当前种群同时随机淘汰当前种群中最老或适应度最低的突变卷积神经网络,重复多次,直到种群中的突变卷积神经网络的最高适应度不再变化或资源耗尽。S3、从步骤S2的多个突变卷积神经网络中选择适应度最大的突变卷积神经网络作为搜索结果。优选的,所述预设初始规模对应的初始种群的卷积神经网络数量为10~15,所述预设的一代规模对应的卷积神经网络数量为18~23。优选的,预设的突变方式包括以下方式中的一种或多种:拓宽:将待突变卷积层的滤波器进行随机复制,并将复制的滤波器添加到待突变卷积层中实现待突变卷积层的拓宽;拆分:将待突变卷积层的滤波器进行等分,拆分为滤波器数量相同的两个新卷积层实现待突变卷积层的拆分,并对两个新卷积层的输出参数进行连接操作后;加深:在待突变卷积层后直接添加一个与待突变卷积层滤波器数量相同的新卷积层;;添加短路连接:在待突变卷积层后直接添加一个与待突变卷积层滤波器数量相同的且参数为0的新卷积层,并对该新卷积层的输出与待突变卷积层的输出进行叠加操作;添加密集连接:在卷积神经网络中待突变卷积层后直接添加一个与待突变卷积层滤波器数量相同的且参数为0的新卷积层,并对该新卷积层的输出与待突变卷积层的输出进行连接操作。S4、对搜索出的具有最大适应度的卷积神经网络进行后训练至收敛。S5、基于后训练得到的卷积神经网络更新搜索结果。其中,将卷积神经网络训练至收敛是指对卷积神经网络进行多次训练,直到在某次训练后与该次训练前相比,其适应度的变化范围小于等于预设阈值,判定该卷积神经网络已训练至收敛。优选的,单次突变中对卷积神经网络采用功能保持的方法对其进行突变,以本次突变前的卷积神经网络为教师网络进行功能保持的迁移学习得到学生网络通过训练至收敛为突变后的卷积神经网络。与现有技术相比,本专利技术适用于分类数据集上任何初始卷积神经网络的结构搜索,本专利技术的搜索方法可以迅速完成适合测试问题的神经结构搜索过程。与其他方式相比,本专利技术可以根据已有网络结构和参数方面的经验,有方向性地改变神经网络结构,并减少训练消耗。本专利技术既实现了神经结构高效进化,更好地加速了搜索过程,同时消耗更少的计算代价。通过本专利技术最终搜索到的神经结构相较传统方法得到的结构在测试集上的准确率更高,参数量更少。附图说明以下参照附图对本专利技术实施例作进一步说明,其中:图1为根据本专利技术实施例的初始卷积神经网络的结构示意图;图2为根据本专利技术实施例的待突变的卷积神经网络部分结构示意图;图3为根据本专利技术实施例的对图2所示示例进行拓宽突变后的神经网络部分结构示意图;图4为根据本专利技术实施例的对图2所示示例进行拆分突变后的神经网络部分结构示意图;图5为根据本专利技术实施例的对图2所示示例进行加深突变后的神经网络部分结构示意图;图6为根据本专利技术实施例的对图2所示示例进行添加短路连接突变后的神经网络部分结构示意图;图7为根据本专利技术实施例的对图2所示示例进行添加密集连接突变后的神经网络部分结构示意图;图8为根据本专利技术实施例的采用本专利技术方法在CIFAR-10数据集上搜索卷积神经网络的演化过程中种群变化示意图;图9为根据本专利技术实施例的采用本专利技术方法在CIFAR-10数据集上搜索卷积神经网络的演化过程随时间变化示意图。具体实施方式为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本专利技术进一步详细说明。应本文档来自技高网...

【技术保护点】
1.一种搜索卷积神经网络的方法,其特征在于,包括:/nS1、训练初始卷积神经网络至收敛,其中所述初始卷积神经网络包括一个或多个进化模块;/nS2、以经步骤S1训练后的初始卷积神经网络为基础进行多次迭代突变以得到多个突变卷积神经网络,其中,每次突变是从预设的突变方式中随机选择一种突变方式对当前卷积神经网络中的所有进化模块的结构同时进行突变,并对其进行训练至收敛得到一个新的突变卷积神经网络;/nS3、从步骤S2的多个突变卷积神经网络中选择适应度最大的突变卷积神经网络作为搜索结果。/n

【技术特征摘要】
20190905 CN 2019108351390;20190905 CN 2019108351401.一种搜索卷积神经网络的方法,其特征在于,包括:
S1、训练初始卷积神经网络至收敛,其中所述初始卷积神经网络包括一个或多个进化模块;
S2、以经步骤S1训练后的初始卷积神经网络为基础进行多次迭代突变以得到多个突变卷积神经网络,其中,每次突变是从预设的突变方式中随机选择一种突变方式对当前卷积神经网络中的所有进化模块的结构同时进行突变,并对其进行训练至收敛得到一个新的突变卷积神经网络;
S3、从步骤S2的多个突变卷积神经网络中选择适应度最大的突变卷积神经网络作为搜索结果。


2.根据权利要求1所述的一种搜索卷积神经网络的方法,其特征在于,所述每一个进化模块包括一个或多个卷积层,所述每一个卷积层包含多个滤波器,对每个进化模块的结构进行突变是随机选择进化模块中的一个卷积层采用一种突变方式对其结构进行突变。


3.根据权利要求2所述的一种搜索卷积神经网络的方法,其特征在于,所述初始卷积神经网络包括全局平均池化层以及全连接层,
所述初始卷积神经网络在进化模块与全平均池化层之间包括一个或两个最大池化层、一个或多个丢弃块层;其中,
最大池化层的步长为2,丢弃块层的保持率为0.75;
在两个最大池化层中,靠前的最大池化层的块尺寸为7,靠后的最大池化层的块尺寸为5。


4.根据权利要求3所述的一种搜索卷积神经网络的方法,其特征在于,所述步骤S2中以经步骤S1训练后的初始卷积神经网络为基础进行多次迭代突变以得到多个突变卷积神经网络包括:
S21、以经步骤S1训练后的初始卷积神经网络为基础进行多次迭代突变以得到预设初始规模的多个突变卷积神经网络组成初始种群;其中,第一次突变是从预设的突变方式中随机选择一种突变方式对初始卷积神经网络的所有进化模块的结构同时进行突变后对整个卷积神经网络进行训练至收敛得到一个突变卷积神经网络,后面的每次迭代突变是从预设的突变方式中随机选择一种突变方式对上一次突变后的卷积神经网络中的所有进化模块的结构同时进行突变后对整个卷积神经网络进行训练至收敛得到新的突变卷积神经网络;
S22、从初始种群中采用锦标赛选择方法选择一个突变卷积神经网络进行单次突变获得一个新的突变卷积神经网络并放回初始种群,重复多次,直至初始种群的规模达到预设的一代规模形成突变卷积神...

【专利技术属性】
技术研发人员:朱徽徐勇军安竹林许开强刁博宇
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1