基于神经框架搜索的模型训练方法、装置以及终端制造方法及图纸

技术编号:22056908 阅读:50 留言:0更新日期:2019-09-07 15:50
本发明专利技术实施例提出一种基于神经框架搜索的模型训练方法、装置以及终端,方法包括:根据网络生成模型生成多个子网络超参数集合;根据多个子网络超参数集合生成多个子网络模型,并对多个子网络模型分别进行验证,得到多个子网络模型对应的多个准确率;获取先验网络模型的先验网络超参数集合;将多个子网络超参数集合和先验网络超参数集合分别输入至判别器中,得到第一期望值;将第一期望值和多个准确率输入至网络生成模型中,更新网络生成模型的参数,以生成新的网络生成模型。通过利用先验网络超参数对控制器进行网络参数的更新,对控制器生成子网络模型的过程进行指导。达到有效减少涉及最优的子网络模型的时间,提高子网络模型的生成效率。

Model Training Method, Device and Terminal Based on Neural Framework Search

【技术实现步骤摘要】
基于神经框架搜索的模型训练方法、装置以及终端
本专利技术涉及机器学习
,尤其涉及一种基于神经框架搜索的模型训练方法、装置以及终端。
技术介绍
深度学习模型在很多任务上都取得了不错的效果,但调参对于深度模型来说是一项非常苦难的事情,众多的超参数和网络结构参数会产生爆炸性的组合,因此,最近几年神经网络的架构搜索和超参数优化成为一个研究热点。其中,计算机自动设计网络的技术通常叫做神经框架搜索(NeuralArchitectureSearch,NAS)。神经框架搜索的目标是通过自动设计网络结构,替代人工设计的各种网络结构,减少人们在设计最优网络模型上时间的消耗。超参数就是机器学习模型里面的框架参数,通常是手工设定的,经过不断试错来调整。超参数优化问题是自动机器学习的核心焦点,而NAS又是超参数优化中的子问题。当前,神经框架搜索的主要架构分为两部分控制器(Controller)和子网络(ChildNetwork)。其中,Controller通常为循环神经网络(RNN)模型。在RNN模型中,可以是每五个输出组成一层神经网络,即ChildNetwork。而上一步的输出是下一步的输入,这样保证了RNN是基于前面N-1层所有的参数信息来预测第N层的参数。当前技术的奖励机制主要来自于ChildNetwork的验证结果,没有利用其他外部信息,所以生成子网络模型的效率低,无法提供个性化需求。
技术实现思路
本专利技术实施例提供一种基于神经框架搜索的模型训练方法、装置以及终端,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种基于神经框架搜索的模型训练方法,包括:根据网络生成模型生成多个子网络超参数集合;根据所述多个子网络超参数集合生成多个子网络模型,并对所述多个子网络模型分别进行验证,得到所述多个子网络模型对应的多个准确率;获取先验网络模型的先验网络超参数集合;将所述多个子网络超参数集合和所述先验网络超参数集合分别输入至判别器中,得到第一期望值;将所述第一期望值和所述多个准确率输入至所述网络生成模型中,更新所述网络生成模型的参数,以生成新的网络生成模型。在一种实施方式中,根据所述多个子网络超参数集合生成多个子网络模型,并对所述多个子网络模型分别进行验证,得到所述多个子网络模型对应的多个准确率,包括:根据第一子网络超参数集合生成第一子网络模型;将训练集输入至所述第一子网络模型中,训练得到所述第一子网络模型的第一模型参数;将测试集输入至具有所述第一模型参数的第一子网络模型中,得到第一准确率;重复执行上述步骤,直至得到多个准确率。在一种实施方式中,将所述子网络超参数集合和所述先验网络超参数集合分别输入至判别器中,得到第一期望值,包括:将所述子网络超参数集合输入至所述判别器中,输出第二期望值;将所述先验网络超参数集合输入至所述判别器中,得到第三期望值;将所述第二期望值和所述第三期望值之和作为所述第一期望值。在一种实施方式中,还包括:从所述多个准确率中选择最大准确率,得到所述最大准确率对应的子网络模型;将所述最大准确率对应的子网络模型替换所述先验网络模型;所述最大准确率对应的子网络模型的超参数集合和剩余的子网络超参数集合分别输入至所述判别器中,得到第四期望值;将所述第四期望值和所述多个准确率输入至所述网络生成模型中,更新所述网络生成模型的参数,以生成新的网络生成模型。第二方面,本专利技术实施例提供了一种基于神经框架搜索的模型训练装置,包括:子网络超参数集合生成模块,用于根据网络生成模型生成多个子网络超参数集合;准确率计算模块,用于根据所述多个子网络超参数集合生成多个子网络模型,并对所述多个子网络模型分别进行验证,得到所述多个子网络模型对应的多个准确率;先验网络超参数模块,用于获取先验网络模型的先验网络超参数集合;第一期望值计算模块,用于将所述多个子网络超参数集合和所述先验网络超参数集合分别输入至判别器中,得到第一期望值;第一网络生成模型更新模块,用于将所述第一期望值和所述多个准确率输入至所述网络生成模型中,更新所述网络生成模型的参数,以生成新的网络生成模型。在一种实施方式中,所述准确率计算模块包括:第一子网络模型生成单元,用于根据第一子网络超参数集合生成第一子网络模型;第一模型参数生成单元,用于将训练集输入至所述第一子网络模型中,训练得到所述第一子网络模型的第一模型参数;准确率计算单元,用于将测试集输入至具有所述第一模型参数的第一子网络模型中,得到第一准确率,重复执行上述步骤,直至得到多个准确率。在一种实施方式中,所述第一期望值计算模块包括:第二期望值计算单元,用于将所述子网络超参数集合输入至所述判别器中,输出第二期望值;第三期望值计算单元,用于将所述先验网络超参数集合输入至所述判别器中,得到第三期望值;第一期望值计算单元,用于将所述第二期望值和所述第三期望值之和作为所述第一期望值。在一种实施方式中,还包括:最大准确率确认模块,用于从所述多个准确率中选择最大准确率,得到所述最大准确率对应的子网络模型;网络模型替换模块,用于将所述最大准确率对应的子网络模型替换所述先验网络模型;第四期望值计算模块,用于所述最大准确率对应的子网络模型的超参数集合和剩余的子网络超参数集合分别输入至所述判别器中,得到第四期望值;第二网络生成模块更新模块,用于将所述第四期望值和所述多个准确率输入至所述网络生成模型中,更新所述网络生成模型的参数,以生成新的网络生成模型。第三方面,本专利技术实施例提供了一种基于神经框架搜索的模型训练终端,所述基于神经框架搜索的模型训练终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述基于神经框架搜索的模型训练终端的结构中包括处理器和存储器,所述存储器用于存储支持所述基于神经框架搜索的模型训练终端执行上述基于神经框架搜索的模型训练方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述基于神经框架搜索的模型训练终端还可以包括通信接口,用于与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储基于神经框架搜索的模型训练终端所用的计算机软件指令,其包括用于执行上述基于神经框架搜索的模型训练方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:通过利用先验网络超参数对控制器进行网络参数的更新,对控制器生成子网络模型的过程进行指导。达到有效减少涉及最优的子网络模型的时间,提高子网络模型的生成效率。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1示出根据本专利技术实施例的一种基于神经框架搜索的模型训练方法的流程图。图2示出根据本专利技术实施例的一种基于神经框架搜索的模型训练方法的示意图。图3示出根据本专利技术实施例的子网络模型的示意图。图4示本文档来自技高网...

【技术保护点】
1.一种基于神经框架搜索的模型训练方法,其特征在于,包括:根据网络生成模型生成多个子网络超参数集合;根据所述多个子网络超参数集合生成多个子网络模型,并对所述多个子网络模型分别进行验证,得到所述多个子网络模型对应的多个准确率;获取先验网络模型的先验网络超参数集合;将所述多个子网络超参数集合和所述先验网络超参数集合分别输入至判别器中,得到第一期望值;将所述第一期望值和所述多个准确率输入至所述网络生成模型中,更新所述网络生成模型的参数,以生成新的网络生成模型。

【技术特征摘要】
1.一种基于神经框架搜索的模型训练方法,其特征在于,包括:根据网络生成模型生成多个子网络超参数集合;根据所述多个子网络超参数集合生成多个子网络模型,并对所述多个子网络模型分别进行验证,得到所述多个子网络模型对应的多个准确率;获取先验网络模型的先验网络超参数集合;将所述多个子网络超参数集合和所述先验网络超参数集合分别输入至判别器中,得到第一期望值;将所述第一期望值和所述多个准确率输入至所述网络生成模型中,更新所述网络生成模型的参数,以生成新的网络生成模型。2.根据权利要求1所述的方法,其特征在于,根据所述多个子网络超参数集合生成多个子网络模型,并对所述多个子网络模型分别进行验证,得到所述多个子网络模型对应的多个准确率,包括:根据第一子网络超参数集合生成第一子网络模型;将训练集输入至所述第一子网络模型中,训练得到所述第一子网络模型的第一模型参数;将测试集输入至具有所述第一模型参数的第一子网络模型中,得到第一准确率;重复执行上述步骤,直至得到多个准确率。3.根据权利要求1所述的方法,其特征在于,将所述子网络超参数集合和所述先验网络超参数集合分别输入至判别器中,得到第一期望值,包括:将所述子网络超参数集合输入至所述判别器中,输出第二期望值;将所述先验网络超参数集合输入至所述判别器中,得到第三期望值;将所述第二期望值和所述第三期望值之和作为所述第一期望值。4.根据权利要求1所述的方法,其特征在于,还包括:从所述多个准确率中选择最大准确率,得到所述最大准确率对应的子网络模型;将所述最大准确率对应的子网络模型替换所述先验网络模型;所述最大准确率对应的子网络模型的超参数集合和剩余的子网络超参数集合分别输入至所述判别器中,得到第四期望值;将所述第四期望值和所述多个准确率输入至所述网络生成模型中,更新所述网络生成模型的参数,以生成新的网络生成模型。5.一种基于神经框架搜索的模型训练装置,其特征在于,包括:子网络超参数集合生成模块,用于根据网络生成模型生成多个子网络超参数集合;准确率计算模块,用于根据所述多个子网络超参数集合生成多个子网络模型,并对所述多个子网络模型分别进行验证,得到所述多个子网络模型对应的多个准确率;...

【专利技术属性】
技术研发人员:高参何伯磊肖欣延
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1