【技术实现步骤摘要】
一种基于变异器的神经网络架构搜索方法和系统
[0001]本专利技术属于人工智能
,具体而言,涉及一种基于变异器的神经网络架构搜索方法和系统,是一种突变器抽象以及基于突变器的神经网络架构搜索算法训练加速和多模型训练优化的技术。
技术介绍
[0002]人工智能,特别是深度学习已经在图像识别、自然语言理解、语音处理等领域取得重大的突破,然而为某个特定任务设计优秀的深度学习模型通常是不直观、繁琐且低效的。通常的流程类似实验科学,研究人员先依据经验设计一个基本模型,训练并在测试集测试效果,更改基本模型的模型结构,接着训练测试效果,反复迭代这个过程,直到模型取得理想效果。一次训练是耗时的,训练的次数来自于指数级的超级网络空间,因此这样的方式耗费大量的计算资源与时间。
[0003]自动深度学习致力于优化这个过程。其中一些神经网络架构搜索算法(Nas)在算法层面优化了上述过程,参见Pham H,Guan M,Zoph B,et al.Efficient neural architecture search via parame ...
【技术保护点】
【技术特征摘要】
1.一种基于变异器的神经网络架构搜索方法,其特征在于,包括如下步骤:S1,用户定义超级网络搜索空间,实例化超级网络;S2,获取实例化超级网络的搜索策略的分支选择,使用突变器保存策略选择结果;S3,利用突变器对超级网络算法的逻辑计算图进行转换;S4,训练超级网络,并根据反馈信息调整搜索策略。2.如权利要求1所述的一种基于变异器的神经网络架构搜索方法,其特征在于:步骤S1具体包括:S11,用户定义超级网络的网络结构配置参数,用于构成搜索空间,包括层数,卷积类型,池化类型;S12,根据网络配置参数构建多分支的超级网络,通过堆叠所有支路的各层,实例化超级网络。3.如权利要求1所述的一种基于变异器的神经网络架构搜索方法,其特征在于:步骤S2具体包括:S21,使用搜索策略获取分支选择,对于不同的搜索策略有不同的获取方法;S22,将选择结果存于突变器,突变器保存超级网络计算图与子网计算图的分支选择。4.如权利要求1所述的一种基于变异器的神经网络架构搜索方法,其特征在于:步骤S3具体包括:S31,利用开源深度学习框架的源码或者接口获取超级网络的逻辑计算图;S32,利用突变器的分支选取结果对超级网络计算图进行冗余分支删除,删除算法即有向无环图遍历删除算法。5.如权利要求1所述的一种基于变异器的神经网络架构搜索方法,其特征在于:步骤S4具体包括:S41,加载数据集,切分为训练集、验证集、测试集,在训练集训练超级网络,在验证集使用早停机制,在测试集测试准确率;S42,将准确率与模型结构作为输入给到搜索策略,作为反馈信息,搜索策略获取这些输入后会微调自己的策略参数,从而做出更好的分支选择;接着执行步骤S2,不断循环迭代直到获取最优的训练结果;对于不...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。