The present invention provides a method, system and device for processing input using a neural network system including a batch normalization layer, which includes a computer program encoded on a computer storage medium. A method includes the method of each training sample: receiving the batch of the corresponding output according to the first layer; the first layer output to calculate the multiple batches of normalized statistics; using the normalized statistics were normalized to each component of the output of the first layer, with each training example generation the batch of the corresponding output by the normalized layer; from the corresponding batch of normalized layer output by the output generated by the normalized layer of each training sample in the training sample; and provide the batch output as the normalized layer to the second layer of the neural network input.
【技术实现步骤摘要】
【国外来华专利技术】批次归一化层
本说明书涉及通过神经网络层处理输入以生成输出。
技术介绍
神经网络是采用一个或者多个非线性单元层来针对接收到的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或者多个隐藏层。每个隐藏层的输出被用作网络中的下一层的输入,即,下一隐藏层或者输出层。网络中的每一层根据相应参数集的当前值从接收到的输入生成输出。
技术实现思路
一般而言,本说明书所描述的主题的一个创新方面可以体现为神经网络系统,该神经网络系统由一个或者多个计算机实施,该神经网络系统包括:批次归一化层,该批次归一化层在第一神经网络层与第二神经网络层之间,其中,第一神经网络层生成具有多个分量的第一层输出,其中,批次归一化层被配置为,在基于训练示例批次对所述神经网络系统进行训练期间:接收批次中的每个训练示例的相应的第一层输出;根据第一层输出计算批次的多个归一化统计量;使用归一化统计量对每个第一层输出的每个分量进行归一化,以生成批次中的每个训练示例的相应的经归一化的层输出;从经归一化的层输出生成训练示例中的每个训练示例的相应的批次归一化层输出;以及提供批次归一化层输出作为对第二神经网络层的输入。对于待配置为执行特定操作或者动作的一个或者多个计算机的系统而言,意味着系统具有安装在其上的在操作时使系统执行操作或者动作的软件、固件、硬件、或者其组合。对于待配置为执行特定操作或者动作的一种或者多种计算机程序而言,意味着该一种或者多种程序包括指令,该指令在由数据处理装置执行时使该装置执行操作或者动作。本说明书中描述的主题的具体实施例可以实施为实现以下优点中的一个或者多个。与不包括任何批次归 ...
【技术保护点】
一种神经网络系统,所述神经网络系统由一个或者多个计算机实施,所述神经网络系统包括:批次归一化层,所述批次归一化层在第一神经网络层与第二神经网络层之间,其中,所述第一神经网络层生成具有多个分量的第一层输出,以及其中,所述批次归一化层被配置为,在基于训练示例批次对所述神经网络系统进行训练期间:接收所述批次中的每个训练示例的相应的第一层输出;根据所述第一层输出计算所述批次的多个归一化统计量;使用所述归一化统计量对每个第一层输出的每个分量进行归一化,以生成所述批次中的每个训练示例的相应的经归一化的层输出;从经归一化的层输出生成所述训练示例中的每个训练示例的相应的批次归一化层输出;以及提供所述批次归一化层输出作为对所述第二神经网络层的输入。
【技术特征摘要】
【国外来华专利技术】2015.01.28 US 62/108,9841.一种神经网络系统,所述神经网络系统由一个或者多个计算机实施,所述神经网络系统包括:批次归一化层,所述批次归一化层在第一神经网络层与第二神经网络层之间,其中,所述第一神经网络层生成具有多个分量的第一层输出,以及其中,所述批次归一化层被配置为,在基于训练示例批次对所述神经网络系统进行训练期间:接收所述批次中的每个训练示例的相应的第一层输出;根据所述第一层输出计算所述批次的多个归一化统计量;使用所述归一化统计量对每个第一层输出的每个分量进行归一化,以生成所述批次中的每个训练示例的相应的经归一化的层输出;从经归一化的层输出生成所述训练示例中的每个训练示例的相应的批次归一化层输出;以及提供所述批次归一化层输出作为对所述第二神经网络层的输入。2.根据权利要求1所述的神经网络系统,其中,所述第一层输出的所述多个分量进行索引通过维度进行索引,以及其中,计算所述第一层输出的多个归一化统计量包括:针对所述维度中的每个维度,计算所述第一层输出的所述分量在所述维度中的平均值;以及针对所述维度中的每个维度,计算所述第一层输出的所述分量在所述维度中的标准偏差。3.根据权利要求2所述的神经网络系统,其中,对每个层输出的每个分量进行归一化包括:使用针对与所述分量对应的所述维度所计算的平均值和所计算的标准偏差,对所述分量进行归一化。4.根据权利要求2或者3中任一项所述的神经网络系统,其中,从经归一化的层输出生成所述训练示例中的每个训练示例的所述相应的批次归一化层输出包括:针对每个维度,根据所述维度的参数集的当前值,对所述维度中的所述训练示例的经归一化的层输出的所述分量进行转换。5.根据权利要求4所述的神经网络系统,其中,所述批次归一化层被配置为,在已经对所述神经网络系统进行了训练以确定针对所述维度中的每个维度的所述参数的训练值之后:接收由所述第一神经网络层针对新的神经网络输入而生成的新的第一层输出;使用针对所述维度的预先计算的平均值和标准偏差统计量,对所述新的第一层输出的每个分量进行归一化来生成新的经归一化的层输出;通过针对每个维度根据所述维度的所述参数集的训练值对所述维度中的所述训练示例的所述新的经归一化的层输出的所述分量进行转换,来生成新的批次归一化层输出;以及提供所述批次归一化层输出作为对所述第二神经网络层的新的层输入。6.根据权利要求5所述的神经网络系统,其中,针对所述维度的所述预先计算的平均值和标准偏差统计量根据在对所述神经网络系统进行训练期间由所述第一神经网络层生成的第一层输出计算。7.根据权利要求5所述的神经网络系统,其中,针对所述维度的所述预先计算的平均值和标准偏差统计量根据在已经对所述神经网络进行了训练之后由所述第一神经网络层生成的新的第一层输出计算。8.根据权利要求7所述的神经网络系统,其中,在已经对所述神经网络系统进行了训练之后由所述神经网络系统处理的新的神经网络输入是与用于对所述神经网络系统进行训练的所述训练示例的类型不同的输入。9.根据权利要求1所述的神经网络系统,其中,所述第一神经网络层是卷积层,其中,所述第一层输出的所述多个分量通过特征索引和空间位置索引进行索引,以及其中,计算所述第一层输出的多个归一化统计量包括:针对特征索引和空间位置索引的每个组合,计算具有所述特征索引和空间位置索引的所述第一层输出的所述分量的平均值;针对每个特征索引,计算包括所述特征索引的组合的平均值的平均数;针对特征索引和空间位置索引的每个组合,计算具有所述特征索引和空间位置索引的所述第一层输出的所述分量的方差;以及针对每个特征索引,计算包括所述特征索引的组合的所述方差的平均数。10.根据权利要求9所述的神经...
【专利技术属性】
技术研发人员:谢尔盖·约费,科琳娜·科尔特斯,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。