当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于变异器的神经网络架构搜索方法和系统技术方案

技术编号:38129121 阅读:11 留言:0更新日期:2023-07-08 09:35
一种基于变异器的神经网络架构搜索方法。包括:用户定义超级网络搜索空间,实例化超级网络;获取实例化超级网络的搜索策略的分支选择,使用突变器保存策略选择结果;利用突变器对超级网络算法的逻辑计算图进行转换;训练超级网络,并根据反馈信息调整搜索策略。本发明专利技术利用变异器抽象和控制流优化,实现计算加速和显存占用优化。该技术通过分析和优化现有网络计算图逻辑,对原有计算逻辑进行优化,以减少冗余算子执行开销并且提升设备显存资源利用率,从而实现多网络整体推理训练的优化。从而实现多网络整体推理训练的优化。从而实现多网络整体推理训练的优化。

【技术实现步骤摘要】
一种基于变异器的神经网络架构搜索方法和系统


[0001]本专利技术属于人工智能
,具体而言,涉及一种基于变异器的神经网络架构搜索方法和系统,是一种突变器抽象以及基于突变器的神经网络架构搜索算法训练加速和多模型训练优化的技术。

技术介绍

[0002]人工智能,特别是深度学习已经在图像识别、自然语言理解、语音处理等领域取得重大的突破,然而为某个特定任务设计优秀的深度学习模型通常是不直观、繁琐且低效的。通常的流程类似实验科学,研究人员先依据经验设计一个基本模型,训练并在测试集测试效果,更改基本模型的模型结构,接着训练测试效果,反复迭代这个过程,直到模型取得理想效果。一次训练是耗时的,训练的次数来自于指数级的超级网络空间,因此这样的方式耗费大量的计算资源与时间。
[0003]自动深度学习致力于优化这个过程。其中一些神经网络架构搜索算法(Nas)在算法层面优化了上述过程,参见Pham H,Guan M,Zoph B,et al.Efficient neural architecture search via parameters sharing[C]//International conference on machine learning.PMLR,2018:4095

4104.。该文通过进化算法、强化学习、贝叶斯优化方法、架构微分等搜索策略方法。然而这些方法都需要构建一个强大的超级网络(supernet),超级网络包含了搜索空间所有可能的子网络结构,每一次网络训练都要申请不需要的显存、占用不需要的计算逻辑,耗费大量的存储资源与计算资源。

技术实现思路

[0004]本专利技术要解决现有技术的上述技术问题,提供一种基于变异器的神经网络架构搜索方法和系统。
[0005]本专利技术通过一种突变器抽象以及基于突变器的自动深度学习训练加速和多模型训练优化的技术,以解决自动深度学习超级网络过大,存在冗余显存与冗余计算的问题,提升神经网络架构搜索算法的效率。
[0006]本专利技术提供了一种基于突变器抽象的神经网络架构搜索方法,包括如下步骤:
[0007]S1,用户定义超级网络搜索空间,包括网络结构配置参数,实例化超级网络。
[0008]包括如下步骤:
[0009]S11,前端接收用户定义的超级网络的配置参数,包括层数,卷积类型,池化类型、搜索策略等层数可以指定整个网络所有的层数,也可以指定每个block的层数,以及block的个数,超级网络由相同结构的block堆叠而成。卷积类型可以指定conv1X1,conv3X3,conv7X7等。池化类型可以指定最大化池化、平均池化。搜索策略可以指定进化算法、强化学习、贝叶斯优化方法、架构微分等方法。这些参数构成超级网络的搜索空间。
[0010]S12,根据网络配置参数构建多分支的超级网络,通过堆叠所有支路的各层,实例化超级网络。超级网络是许多神经网络结构搜索算法的通用概念,其包含了所有候选神经
网络结构,使用超级网络的优势在于:一方面工程师可以很直观了解Nas算法的整体架构、搜索空间、可视化各候选神经网络,其次可以方便各个候选神经网络进行权重共享。
[0011]S2,获取实例化超级网络的搜索策略的分支选择,使用突变器保存策略选择结果。包括如下步骤:
[0012]S21,使用搜索策略获取分支选择,对于不同的搜索策略有不同的获取方法,例如对于遗传算法,获取方法来自于亲代的遗传信息。搜索策略可以指定进化算法、强化学习、贝叶斯优化方法、架构微分等方法。策略选择算法可以有效地对搜索空间进行剪枝,有效地提升算法搜索效率。
[0013]S22,将选择结果存于突变器,突变器保存超级网络计算图与子网计算图的分支选择。突变器是一种特殊的网络层Layer,每个突变器包括了若干个候选算子,例如conv3X3,conv5X5,每个子网络结构从中选择一个算子,每个网络包含多个突变器,从而构成神经网络架构搜索的搜索空间。
[0014]S3,利用突变器对超级网络的逻辑计算图进行转换。包括如下步骤:
[0015]S31,利用开源深度学习框架的源码或者接口获取超级网络的逻辑计算图。各个深度学习框架都会解析前端网络结构代码,生成逻辑计算图,例如oneflow的tf.Graph接口用于生成计算图,torch利用torch.jit接口生成计算图,oneflow也存在类似的接口。计算图作为神经网络结构的逻辑表征,是由所有算子作为结点,张量作为连边组成的有向无环图,包含算子的输入信息和输出信息,以及算子的属性等。
[0016]S32,利用突变器的分支选取结果对超级网络计算图进行冗余分支删除。删除方法可以使用有向图遍历删除算法。冗余分支包括未被选择的算子,利用突变器对候选算子进行选择,去除未被选择的算子,达到控制流的优化,所生成的子计算图跟传统深度学习网络计算图相同。
[0017]S4,训练超级网络,并根据反馈信息调整搜索策略。包括如下步骤:
[0018]S41,加载数据集,切分为训练集、验证集、测试集,在训练集训练模型,在验证集使用早停机制,在测试集测试准确率。训练集、验证集、测试集的比例是8:1:1,使用训练集训练,当验证集的损失函数不在下降时,停止训练并在测试集上测试准确率
[0019]S42,将准确率与模型结构作为输入给到搜索策略,作为反馈信息,接着执行S2,不断循环迭代直到获取最优的训练结果。最后,由深度学习框架依据计算图构建执行任务图,保存模型用于推理。对于不同的搜索策略,反馈信息的输入方式不同,例如对于强化学习搜索策略,反馈信息是以奖励信号(准确率提升有奖励)结合策略梯度方法输入的;对于遗传算法,反馈信息是将准确率提高的子代加入种群中,作为下一次迭代的亲代;对于贝叶斯算法,网络结构信息与准确率分别作为贝叶斯模型的输入与输出;对于架构微分算法,反馈信息是反向传播中的梯度,通过梯度下降方法优化网络架构参数。
[0020]本专利技术还提供提供一种基于变异器的神经网络架构搜索系统,包括:
[0021]超级网络实例化模块,用户定义模型搜索空间,实例化超级网络;
[0022]策略选择结果保存模块,获取实例化超级网络的搜索策略的分支选择,使用突变器保存策略选择结果;
[0023]逻辑计算图转换模块,利用突变器对超级网络算法的逻辑计算图进行转换;
[0024]超级网络训练模块,训练超级网络,并根据反馈信息调整搜索策略。
[0025]本专利技术还包括一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本专利技术的一种基于变异器的神经网络架构搜索方法。
[0026]本专利技术的一种基于变异器的神经网络架构搜索方法,包括:多深度神经网络模型的结构定义方式,逻辑计算图;对逻辑计算图变换的抽象突变器;突变器中的算子选择和计算图变换;以及基于深度学习框架oneflow的神经网络架构搜索算法加速系统。本专利技术公开的神经网络架构搜索算法加速技术利用变异器抽象和控制流优化,实现计算加本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于变异器的神经网络架构搜索方法,其特征在于,包括如下步骤:S1,用户定义超级网络搜索空间,实例化超级网络;S2,获取实例化超级网络的搜索策略的分支选择,使用突变器保存策略选择结果;S3,利用突变器对超级网络算法的逻辑计算图进行转换;S4,训练超级网络,并根据反馈信息调整搜索策略。2.如权利要求1所述的一种基于变异器的神经网络架构搜索方法,其特征在于:步骤S1具体包括:S11,用户定义超级网络的网络结构配置参数,用于构成搜索空间,包括层数,卷积类型,池化类型;S12,根据网络配置参数构建多分支的超级网络,通过堆叠所有支路的各层,实例化超级网络。3.如权利要求1所述的一种基于变异器的神经网络架构搜索方法,其特征在于:步骤S2具体包括:S21,使用搜索策略获取分支选择,对于不同的搜索策略有不同的获取方法;S22,将选择结果存于突变器,突变器保存超级网络计算图与子网计算图的分支选择。4.如权利要求1所述的一种基于变异器的神经网络架构搜索方法,其特征在于:步骤S3具体包括:S31,利用开源深度学习框架的源码或者接口获取超级网络的逻辑计算图;S32,利用突变器的分支选取结果对超级网络计算图进行冗余分支删除,删除算法即有向无环图遍历删除算法。5.如权利要求1所述的一种基于变异器的神经网络架构搜索方法,其特征在于:步骤S4具体包括:S41,加载数据集,切分为训练集、验证集、测试集,在训练集训练超级网络,在验证集使用早停机制,在测试集测试准确率;S42,将准确率与模型结构作为输入给到搜索策略,作为反馈信息,搜索策略获取这些输入后会微调自己的策略参数,从而做出更好的分支选择;接着执行步骤S2,不断循环迭代直到获取最优的训练结果;对于不...

【专利技术属性】
技术研发人员:傅家庆杨非杜承垚单海军
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1