基于神经框架搜索的模型训练方法、装置以及终端制造方法及图纸

技术编号：22056908 阅读：50 留言：0更新日期：2019-09-07 15:50

本发明专利技术实施例提出一种基于神经框架搜索的模型训练方法、装置以及终端，方法包括：根据网络生成模型生成多个子网络超参数集合；根据多个子网络超参数集合生成多个子网络模型，并对多个子网络模型分别进行验证，得到多个子网络模型对应的多个准确率；获取先验网络模型的先验网络超参数集合；将多个子网络超参数集合和先验网络超参数集合分别输入至判别器中，得到第一期望值；将第一期望值和多个准确率输入至网络生成模型中，更新网络生成模型的参数，以生成新的网络生成模型。通过利用先验网络超参数对控制器进行网络参数的更新，对控制器生成子网络模型的过程进行指导。达到有效减少涉及最优的子网络模型的时间，提高子网络模型的生成效率。

Model Training Method, Device and Terminal Based on Neural Framework Search

全部详细技术资料下载

【技术实现步骤摘要】
基于神经框架搜索的模型训练方法、装置以及终端
本专利技术涉及机器学习
，尤其涉及一种基于神经框架搜索的模型训练方法、装置以及终端。
技术介绍
深度学习模型在很多任务上都取得了不错的效果，但调参对于深度模型来说是一项非常苦难的事情，众多的超参数和网络结构参数会产生爆炸性的组合，因此，最近几年神经网络的架构搜索和超参数优化成为一个研究热点。其中，计算机自动设计网络的技术通常叫做神经框架搜索(NeuralArchitectureSearch，NAS)。神经框架搜索的目标是通过自动设计网络结构，替代人工设计的各种网络结构，减少人们在设计最优网络模型上时间的消耗。超参数就是机器学习模型里面的框架参数，通常是手工设定的，经过不断试错来调整。超参数优化问题是自动机器学习的核心焦点，而NAS又是超参数优化中的子问题。当前，神经框架搜索的主要架构分为两部分控制器(Controller)和子网络(ChildNetwork)。其中，Controller通常为循环神经网络(RNN)模型。在RNN模型中，可以是每五个输出组成一层神经网络，即ChildNetwork。而上一步的输出是下一步的输入，这样保证了RNN是基于前面N-1层所有的参数信息来预测第N层的参数。当前技术的奖励机制主要来自于ChildNetwork的验证结果，没有利用其他外部信息，所以生成子网络模型的效率低，无法提供个性化需求。
技术实现思路
本专利技术实施例提供一种基于神经框架搜索的模型训练方法、装置以及终端，以解决现有技术中的一个或多个技术问题。第一方面，本专利技术实施例提供了一种基于神经框架搜索的模型训练方法...

【技术保护点】
1.一种基于神经框架搜索的模型训练方法，其特征在于，包括：根据网络生成模型生成多个子网络超参数集合；根据所述多个子网络超参数集合生成多个子网络模型，并对所述多个子网络模型分别进行验证，得到所述多个子网络模型对应的多个准确率；获取先验网络模型的先验网络超参数集合；将所述多个子网络超参数集合和所述先验网络超参数集合分别输入至判别器中，得到第一期望值；将所述第一期望值和所述多个准确率输入至所述网络生成模型中，更新所述网络生成模型的参数，以生成新的网络生成模型。

【技术特征摘要】
1.一种基于神经框架搜索的模型训练方法，其特征在于，包括：根据网络生成模型生成多个子网络超参数集合；根据所述多个子网络超参数集合生成多个子网络模型，并对所述多个子网络模型分别进行验证，得到所述多个子网络模型对应的多个准确率；获取先验网络模型的先验网络超参数集合；将所述多个子网络超参数集合和所述先验网络超参数集合分别输入至判别器中，得到第一期望值；将所述第一期望值和所述多个准确率输入至所述网络生成模型中，更新所述网络生成模型的参数，以生成新的网络生成模型。2.根据权利要求1所述的方法，其特征在于，根据所述多个子网络超参数集合生成多个子网络模型，并对所述多个子网络模型分别进行验证，得到所述多个子网络模型对应的多个准确率，包括：根据第一子网络超参数集合生成第一子网络模型；将训练集输入至所述第一子网络模型中，训练得到所述第一子网络模型的第一模型参数；将测试集输入至具有所述第一模型参数的第一子网络模型中，得到第一准确率；重复执行上述步骤，直至得到多个准确率。3.根据权利要求1所述的方法，其特征在于，将所述子网络超参数集合和所述先验网络超参数集合分别输入至判别器中，得到第一期望值，包括：将所述子网络超参数集合输入至所述判别器中，输出第二期望值；将所述先验网络超参数集合输入至所述判别器中，得到第三期望值；将所述第二期望值和所述第三期望值之和作为所述第一期望值。4.根据权利要求1所述的方法，其特征在于，还包括：从所述多个准确率中选择最大准确率，得到所述最大准确率对应的子网络模型；将所述最大准确率对应的子网络模型替换所述先验网络模型；所述最大准确率对应的子网络模型的超参数集合和剩余的子网络超参数集合分别输入至所述判别器中，得到第四期望值；将所述第四期望值和所述多个准确率输入至所述网络生成模型中，更新所述网络生成模型的参数，以生成新的网络生成模型。5.一种基于神经框架搜索的模型训练装置，其特征在于，包括：子网络超参数集合生成模块，用于根据网络生成模型生成多个子网络超参数集合；准确率计算模块，用于根据所述多个子网络超参数集合生成多个子网络模型，并对所述多个子网络模型分别进行验证，得到所述多个子网络模型对应的多个准确率；...

【专利技术属性】
技术研发人员：高参，何伯磊，肖欣延，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人