一种基于变异器的神经网络架构搜索方法和系统技术方案

技术编号：38129121 阅读：11 留言：0更新日期：2023-07-08 09:35

一种基于变异器的神经网络架构搜索方法。包括：用户定义超级网络搜索空间，实例化超级网络；获取实例化超级网络的搜索策略的分支选择，使用突变器保存策略选择结果；利用突变器对超级网络算法的逻辑计算图进行转换；训练超级网络，并根据反馈信息调整搜索策略。本发明专利技术利用变异器抽象和控制流优化，实现计算加速和显存占用优化。该技术通过分析和优化现有网络计算图逻辑，对原有计算逻辑进行优化，以减少冗余算子执行开销并且提升设备显存资源利用率，从而实现多网络整体推理训练的优化。从而实现多网络整体推理训练的优化。从而实现多网络整体推理训练的优化。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于变异器的神经网络架构搜索方法和系统

[0001]本专利技术属于人工智能
，具体而言，涉及一种基于变异器的神经网络架构搜索方法和系统，是一种突变器抽象以及基于突变器的神经网络架构搜索算法训练加速和多模型训练优化的技术。

技术介绍

[0002]人工智能，特别是深度学习已经在图像识别、自然语言理解、语音处理等领域取得重大的突破，然而为某个特定任务设计优秀的深度学习模型通常是不直观、繁琐且低效的。通常的流程类似实验科学，研究人员先依据经验设计一个基本模型，训练并在测试集测试效果，更改基本模型的模型结构，接着训练测试效果，反复迭代这个过程，直到模型取得理想效果。一次训练是耗时的，训练的次数来自于指数级的超级网络空间，因此这样的方式耗费大量的计算资源与时间。
[0003]自动深度学习致力于优化这个过程。其中一些神经网络架构搜索算法(Nas)在算法层面优化了上述过程，参见Pham H,Guan M,Zoph B,et al.Efficient neural architecture search via parameters sharing[C]//International conference on machine learning.PMLR,2018:4095
‑
4104.。该文通过进化算法、强化学习、贝叶斯优化方法、架构微分等搜索策略方法。然而这些方法都需要构建一个强大的超级网络(supernet)，超级网络包含了搜索空间所有可能的子网络结构，每一次网络训练都要申请不需要的显存、占用...

【技术保护点】

【技术特征摘要】
1.一种基于变异器的神经网络架构搜索方法，其特征在于，包括如下步骤：S1，用户定义超级网络搜索空间，实例化超级网络；S2，获取实例化超级网络的搜索策略的分支选择，使用突变器保存策略选择结果；S3，利用突变器对超级网络算法的逻辑计算图进行转换；S4，训练超级网络，并根据反馈信息调整搜索策略。2.如权利要求1所述的一种基于变异器的神经网络架构搜索方法，其特征在于：步骤S1具体包括：S11，用户定义超级网络的网络结构配置参数，用于构成搜索空间，包括层数，卷积类型，池化类型；S12，根据网络配置参数构建多分支的超级网络，通过堆叠所有支路的各层，实例化超级网络。3.如权利要求1所述的一种基于变异器的神经网络架构搜索方法，其特征在于：步骤S2具体包括：S21，使用搜索策略获取分支选择，对于不同的搜索策略有不同的获取方法；S22，将选择结果存于突变器，突变器保存超级网络计算图与子网计算图的分支选择。4.如权利要求1所述的一种基于变异器的神经网络架构搜索方法，其特征在于：步骤S3具体包括：S31，利用开源深度学习框架的源码或者接口获取超级网络的逻辑计算图；S32，利用突变器的分支选取结果对超级网络计算图进行冗余分支删除，删除算法即有向无环图遍历删除算法。5.如权利要求1所述的一种基于变异器的神经网络架构搜索方法，其特征在于：步骤S4具体包括：S41，加载数据集，切分为训练集、验证集、测试集，在训练集训练超级网络，在验证集使用早停机制，在测试集测试准确率；S42，将准确率与模型结构作为输入给到搜索策略，作为反馈信息，搜索策略获取这些输入后会微调自己的策略参数，从而做出更好的分支选择；接着执行步骤S2，不断循环迭代直到获取最优的训练结果；对于不...

【专利技术属性】
技术研发人员：傅家庆，杨非，杜承垚，单海军，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人