用于卷积神经网络的神经架构搜索制造技术

技术编号：22598828 阅读：37 留言：0更新日期：2019-11-20 13:02

包括被编码在计算机存储介质上的计算机程序、用于确定神经网络架构的方法、系统以及装置。该方法中的一个包括使用具有控制器参数的控制器神经网络并根据控制器参数的当前值生成一批输出序列。该方法包括，对于该批中的每个输出序列：生成子卷积神经网络(CNN)的实例，其中该子卷积神经网络的实例包括具有由输出序列限定的架构的第一卷积单元的多个实例；训练子CNN的实例以执行图像处理任务；以及评估子CNN的经训练的实例在任务上的性能，以确定子CNN的经训练的实例的性能度量；并且使用子CNN的经训练的实例的性能度量来调节控制器神经网络的控制器参数的当前值。

Neural architecture search for convolutional neural networks

It includes the computer program encoded on the computer storage medium, the method, system and device for determining the neural network architecture. One of the methods includes using a controller neural network with controller parameters and generating a batch of output sequences based on the current values of the controller parameters. The method includes: for each output sequence in the batch: generating an example of a sub convolution neural network (CNN), wherein the example of the sub convolution neural network includes multiple instances of the first convolution unit with a structure defined by the output sequence; training the instance of the sub CNN to perform image processing tasks; and evaluating the performance of the trained instance of the sub CNN on the task to determine the sub cn N's performance measurement of the trained instances, and uses the performance measurement of the trained instances of sub CNN to adjust the current value of the controller parameters of the controller neural network.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于卷积神经网络的神经架构搜索相关申请的交叉引用本申请要求于2017年7月21日提交的美国临时申请序列号62/535,806的优先权。在先申请的公开内容被认为是本申请的一部分，并且通过引用并入本申请的公开内容中。
技术介绍
本说明书涉及确定用于卷积神经网络的架构。神经网络是采用一层或多层非线性单元层以预测所接收的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即下一个隐藏层或输出层)的输入。网络的每一层根据相应的一组参数的当前值从所接收的输入中生成输出。一些神经网络是递归神经网络。递归神经网络是接收输入序列并从该输入序列生成输出序列的神经网络。具体地，递归神经网络可以在当前时间步长处计算输出时使用来自先前时间步长的网络的一些或全部内部状态。递归神经网络的示例是包括一个或多个LSTM记忆块的长短期(LSTM)神经网络。每个LSTM记忆块可以包括一个或多个单元，该一个或多个单元各自包括输入门、遗忘门和输出门，这些门允许单元存储该单元的先前状态，例如，用于生成电流激活或被提供给LSTM神经网络的其他组件。
技术实现思路
本说明书描述了在一个或多个位置中的一个或多个计算机上被实施为计算机程序的系统，该系统通过确定用于在整个网络架构中重复的卷积单元的架构来确定用于卷积神经网络的网络架构。本说明书中描述的主题可以在具体实施例中实施，以便实现以下优点中一个或多个。通过预测一个或多个类型的卷积单元的架构，并且然后对卷积神经网络中出现的这种...

【技术保护点】
1.一种方法，包括：/n使用具有多个控制器参数的控制器神经网络并根据所述控制器参数的当前值生成一批输出序列，/n所述批中的每个输出序列限定被配置成接收单元输入并生成单元输出的第一卷积单元的架构，以及/n所述第一卷积单元包括预定数量的操作块的序列，每个操作块接收一个或多个相应输入隐藏状态并生成相应输出隐藏状态；/n对于所述批中的每个输出序列：/n生成子卷积神经网络的实例，所述子卷积神经网络的实例包括具有由所述输出序列限定的架构的第一卷积单元的多个实例；/n训练所述子卷积神经网络的实例，以执行图像处理任务；以及/n评估所述子卷积神经网络的经训练的实例在所述图像处理任务上的性能，以确定所述子卷积神经网络的经训练的实例的性能度量；以及/n使用所述子卷积神经网络的经训练的实例的性能度量来调节所述控制器神经网络的控制器参数的当前值。/n

【技术特征摘要】
【国外来华专利技术】20170721 US 62/535,8061.一种方法，包括：
使用具有多个控制器参数的控制器神经网络并根据所述控制器参数的当前值生成一批输出序列，
所述批中的每个输出序列限定被配置成接收单元输入并生成单元输出的第一卷积单元的架构，以及
所述第一卷积单元包括预定数量的操作块的序列，每个操作块接收一个或多个相应输入隐藏状态并生成相应输出隐藏状态；
对于所述批中的每个输出序列：
生成子卷积神经网络的实例，所述子卷积神经网络的实例包括具有由所述输出序列限定的架构的第一卷积单元的多个实例；
训练所述子卷积神经网络的实例，以执行图像处理任务；以及
评估所述子卷积神经网络的经训练的实例在所述图像处理任务上的性能，以确定所述子卷积神经网络的经训练的实例的性能度量；以及
使用所述子卷积神经网络的经训练的实例的性能度量来调节所述控制器神经网络的控制器参数的当前值。

2.根据权利要求1所述的方法，其中，在所述训练之后，所述子卷积神经网络的经训练的实例中的所述第一卷积单元的不同实例具有不同的参数值。

3.根据权利要求1或2中任一项所述的方法，其中，所述第一卷积单元中的每个操作块被配置成：
将第一操作应用于第一输入隐藏状态，以生成第一输出；
将第二操作应用于第二输入隐藏状态，以生成第二输出；以及
将组合操作应用于所述第一输出和第二输出，以生成输出隐藏状态。

4.根据权利要求3所述的方法，其中，对于所述操作块中的每一个，所述批中的每个输出序列限定：
从以下中的一个或多个中选择的所述操作块的第一输入隐藏状态的源：(i)由所述子卷积神经网络的一个或多个其他组件生成的输出、(ii)输入图像、或者(iii)在所述第一卷积单元内的操作块的序列中的先前操作块的输出隐藏状态；
从以下中的一个或多个中选择的所述操作块的第二输入隐藏状态的源：(i)由卷积单元的序列中的一个或多个先前卷积单元生成的输出，(ii)所述输入图像，或者(iii)在所述卷积单元内的操作块的序列中的先前操作块的输出隐藏状态；
从预定的一组卷积神经网络操作中选择的所述第一操作的操作类型；以及
从所述预定的一组卷积神经网络操作中选择的所述第二操作的操作类型。

5.根据权利要求4所述的方法，其中，对于所述第一卷积单元的每个操作块，所述批中的每个输出序列进一步限定：
从预定的一组组合操作中选择组合操作的操作类型。

6.根据权利要求4或5中任一项所述的方法，其中，所述第一卷积单元进一步被配置成：通过组合未被选择为对所述第一卷积单元中的任何块的输入的所述第一卷积单元中的块的输出隐藏状态，生成所述单元输出。

7.根据权利要求1至6中任一项所述的方法，其中，使用所述子卷积神经网络的经训练的实例的性能度量来调节所述控制器神经网络的控制器参数的当前值包括：
使用机器学习训练技术训练所述控制器神经网络以生成使得所述子卷积神经网络具有增加的性能度量的输出序列。

8.根据权利要求7所述的方法，其中，所述训练技术是策略梯度技术。

9.根据权利要求7或8所述的方法，其中，所述训练技术是强化技术。

10.根据权利要求7所述的方法，其中，所述训练技术是近端策略优化(PPO)技术。

11.根据权利要求7至10中任一项所述的方法，进一步包括：
使用具有增加的性能度量的所述子卷积神经网络中的至少一个子卷积神经网络来执行所述图像处理任务。

12.根据权利要求1至10中任一项所述的方法，其中...

【专利技术属性】
技术研发人员：V瓦萨德万，B佐夫，J施伦斯，QV勒，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人