当前位置: 首页 > 专利查询>谷歌公司专利>正文

批次归一化层制造技术

技术编号:16432685 阅读:152 留言:0更新日期:2017-10-22 10:02
本发明专利技术提供了使用包括批次归一化层的神经网络系统来处理输入的方法、系统和装置,其包括编码在计算机存储介质上的计算机程序。所述方法中的一种方法包括:接收所述批次中的每个训练示例的相应的第一层输出;根据所述第一层输出计算所述批次的多个归一化统计量;使用所述归一化统计量对每个第一层输出的每个分量进行归一化,以生成所述批次中的每个训练示例的相应的经归一化的层输出;从经归一化的层输出生成所述训练示例中的每个训练示例的相应的批次归一化层输出;以及提供所述批次归一化层输出作为对所述第二神经网络层的输入。

Batch normalization layer

The present invention provides a method, system and device for processing input using a neural network system including a batch normalization layer, which includes a computer program encoded on a computer storage medium. A method includes the method of each training sample: receiving the batch of the corresponding output according to the first layer; the first layer output to calculate the multiple batches of normalized statistics; using the normalized statistics were normalized to each component of the output of the first layer, with each training example generation the batch of the corresponding output by the normalized layer; from the corresponding batch of normalized layer output by the output generated by the normalized layer of each training sample in the training sample; and provide the batch output as the normalized layer to the second layer of the neural network input.

【技术实现步骤摘要】
【国外来华专利技术】批次归一化层
本说明书涉及通过神经网络层处理输入以生成输出。
技术介绍
神经网络是采用一个或者多个非线性单元层来针对接收到的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或者多个隐藏层。每个隐藏层的输出被用作网络中的下一层的输入,即,下一隐藏层或者输出层。网络中的每一层根据相应参数集的当前值从接收到的输入生成输出。
技术实现思路
一般而言,本说明书所描述的主题的一个创新方面可以体现为神经网络系统,该神经网络系统由一个或者多个计算机实施,该神经网络系统包括:批次归一化层,该批次归一化层在第一神经网络层与第二神经网络层之间,其中,第一神经网络层生成具有多个分量的第一层输出,其中,批次归一化层被配置为,在基于训练示例批次对所述神经网络系统进行训练期间:接收批次中的每个训练示例的相应的第一层输出;根据第一层输出计算批次的多个归一化统计量;使用归一化统计量对每个第一层输出的每个分量进行归一化,以生成批次中的每个训练示例的相应的经归一化的层输出;从经归一化的层输出生成训练示例中的每个训练示例的相应的批次归一化层输出;以及提供批次归一化层输出作为对第二神经网络层的输入。对于待配置为执行特定操作或者动作的一个或者多个计算机的系统而言,意味着系统具有安装在其上的在操作时使系统执行操作或者动作的软件、固件、硬件、或者其组合。对于待配置为执行特定操作或者动作的一种或者多种计算机程序而言,意味着该一种或者多种程序包括指令,该指令在由数据处理装置执行时使该装置执行操作或者动作。本说明书中描述的主题的具体实施例可以实施为实现以下优点中的一个或者多个。与不包括任何批次归一化层的相同的神经网络相比较,可以更加快速地对包括一个或者多个批次归一化层的神经网络系统进行训练。例如,通过将一个或者多个批次归一化层包括在神经网络系统中,可以减轻由在训练期间改变的给定层的输入的分布造成的问题。这可以允许在训练期间有效地使用更高的学习速率并且可以减少如何初始化参数对训练过程的影响。另外,在训练期间,批次归一化层可以充当正则化矩阵并且可以减少对待在训练期间采用的其它正则化技术(例如,丢弃)的需要。一旦被训练,包括一个归一化层的神经网络系统就可以生成神经网络输出,该神经网络输出即便不会比相同的神经网络系统所生成的神经网络输出更精确,也会与其一样精确。在附图和以下描述中陈述了本说明书中的主题的一个或者多个实施例的细节。本主题的其它特征、方面和优点将通过说明书、附图和权利要求书变得显而易见。附图说明图1示出了示例神经网络系统。图2是在对神经网络系统进行训练期间使用批次归一化层来处理输入的示例过程的流程图。图3是在已经对神经网络系统进行了训练之后使用批次归一化来处理输入的示例过程的流程图。在各个附图中,相同的参考数字和标志指示相同的元素。具体实施方式本说明书描述了包括批次归一化层的神经网络系统,该神经网络系统被实施为在一个或者多个位置处的一个或者多个计算机上的计算机程序。图1示出了示例神经网络系统100。该神经网络系统100是被实施为在一个或者多个位置处的一个或者多个计算机上的计算机程序的系统的示例,其中,可以实施下面所描述的系统、组件和技术。神经网络系统100包括多个神经网络层,这些神经网络层排列成序列:从序列中的最低层到序列中的最高层依次排列。神经网络系统通过处理经过序列中的每一层的神经网络输入,来通过神经网络输入生成神经网络输出。神经网络系统100可以被配置为接收任何种类的数字数据输入,并且基于该输入生成任何种类的分数或者分类输出。例如,如果对神经网络系统100的输入是图像或者已经从图像提取到的特征,则由神经网络系统100针对给定图像生成的输出可以是对象类别集中的每个类别的分数,其中,每个分数表示图像包含属于该类别的对象的图像的估计似然率。作为另一示例,如果对神经网络系统100的输入是互联网资源(例如,网页)、文档、或者文档的部分、或者从互联网资源、文档、或者文档的部分提取到的特征,则由神经网络系统100针对给定互联网资源、文档、或者文档的部分生成的输出可以是话题集中的每一个话题的分数,其中,每个分数表示互联网资源、文档、或者文档的部分与该话题有关的估计似然率。作为另一示例,如果对神经网络系统100的输入是特定广告的闪现场境的特征,则由神经网络系统100生成的输出可以是表示将点击该特定广告的估计似然率的分数。作为另一示例,如果对神经网络系统100的输入是对用户的个性化推荐的特征,例如,表征推荐的场境的特征,例如,表征用户之前所采取的动作的特征,则由神经网络系统100生成的输出可以是内容项集中的每个内容项的分数,其中,每个分数表示用户将积极响应被推荐内容项的估计似然率。作为另一示例,如果对神经网络系统100的输入是一种语言的文本,则由神经网络系统100生成的输出可以是另一种语言的文本段集中的每个文本段的分数,其中,每个分数表示其它语言的文本段是输入文本变成其它语言的一种合适的翻译的估计似然率。作为另一示例,如果对神经网络系统100的输入是口语话语、口语话语序列、或者从前两者中的一个推导出的特征,则由神经网络系统100生成的输出可以是文本段集中的每个文本段的分数,每个分数表示文本段是话语或者话语序列的正确转录的估计似然率。作为另一示例,神经网络系统100可以是自动完成系统的部分或者文本处理系统的部分。作为另一示例,神经网络系统100可以是增强式学习系统的部分并且可以生成用于选择待由与环境交互的代理执行的动作的输出。具体地,神经网络的层中的每个层被配置为接收输入并且从所述输入生成输出,并且神经网络层共同处理由神经网络系统100接收到的神经网络输入以生成每个接收到的神经网络输入的相应的神经网络输出。序列中的神经网络层中的一些或者全部根据神经网络层的参数集的当前值从输入生成输出。例如,一些层可以将接收到的输入与当前参数值的矩阵相乘,作为从接收到的输入生成输出的部分。神经网络系统100还包括批次归一化层108,该批次归一化层108在神经网络层序列中的神经网络层A104与神经网络层B112之间。批次归一化层108被配置为:在对神经网络系统100进行训练期间,对从神经网络层A104接收到的输入执行操作集,并且,在已经对神经网络系统100进行了训练之后,对从神经网络层A104接收到的输入执行另一操作集。具体地,可以基于多个训练示例批次对神经网络系统100进行训练,以确定神经网络层的参数的训练值。训练示例批次是多个训练示例集。例如,在训练期间,神经网络系统100可以处理训练示例批次102并且生成批次102中的每个训练示例的相应的神经网络输出。然后,使用神经网络输出来调整序列中的神经网络层的参数的值,例如,通过传统的梯度下降和反向传播神经网络训练技术。在基于给定的训练示例批次对神经网络系统100进行训练期间,批次归一化层108被配置为接收由神经网络层A104针对批次中的训练示例而生成的层A输出106,对层A输出106进行处理以生成批次中的每个训练示例的相应的批次归一化层输出110,然后提供批次归一化层输出110作为对神经网络层B112的输入。层A输出106包括由神经网络层A104针对批次中的每个训练示例而生成的相应的输出。同样,批次归一化层输出本文档来自技高网...
批次归一化层

【技术保护点】
一种神经网络系统,所述神经网络系统由一个或者多个计算机实施,所述神经网络系统包括:批次归一化层,所述批次归一化层在第一神经网络层与第二神经网络层之间,其中,所述第一神经网络层生成具有多个分量的第一层输出,以及其中,所述批次归一化层被配置为,在基于训练示例批次对所述神经网络系统进行训练期间:接收所述批次中的每个训练示例的相应的第一层输出;根据所述第一层输出计算所述批次的多个归一化统计量;使用所述归一化统计量对每个第一层输出的每个分量进行归一化,以生成所述批次中的每个训练示例的相应的经归一化的层输出;从经归一化的层输出生成所述训练示例中的每个训练示例的相应的批次归一化层输出;以及提供所述批次归一化层输出作为对所述第二神经网络层的输入。

【技术特征摘要】
【国外来华专利技术】2015.01.28 US 62/108,9841.一种神经网络系统,所述神经网络系统由一个或者多个计算机实施,所述神经网络系统包括:批次归一化层,所述批次归一化层在第一神经网络层与第二神经网络层之间,其中,所述第一神经网络层生成具有多个分量的第一层输出,以及其中,所述批次归一化层被配置为,在基于训练示例批次对所述神经网络系统进行训练期间:接收所述批次中的每个训练示例的相应的第一层输出;根据所述第一层输出计算所述批次的多个归一化统计量;使用所述归一化统计量对每个第一层输出的每个分量进行归一化,以生成所述批次中的每个训练示例的相应的经归一化的层输出;从经归一化的层输出生成所述训练示例中的每个训练示例的相应的批次归一化层输出;以及提供所述批次归一化层输出作为对所述第二神经网络层的输入。2.根据权利要求1所述的神经网络系统,其中,所述第一层输出的所述多个分量进行索引通过维度进行索引,以及其中,计算所述第一层输出的多个归一化统计量包括:针对所述维度中的每个维度,计算所述第一层输出的所述分量在所述维度中的平均值;以及针对所述维度中的每个维度,计算所述第一层输出的所述分量在所述维度中的标准偏差。3.根据权利要求2所述的神经网络系统,其中,对每个层输出的每个分量进行归一化包括:使用针对与所述分量对应的所述维度所计算的平均值和所计算的标准偏差,对所述分量进行归一化。4.根据权利要求2或者3中任一项所述的神经网络系统,其中,从经归一化的层输出生成所述训练示例中的每个训练示例的所述相应的批次归一化层输出包括:针对每个维度,根据所述维度的参数集的当前值,对所述维度中的所述训练示例的经归一化的层输出的所述分量进行转换。5.根据权利要求4所述的神经网络系统,其中,所述批次归一化层被配置为,在已经对所述神经网络系统进行了训练以确定针对所述维度中的每个维度的所述参数的训练值之后:接收由所述第一神经网络层针对新的神经网络输入而生成的新的第一层输出;使用针对所述维度的预先计算的平均值和标准偏差统计量,对所述新的第一层输出的每个分量进行归一化来生成新的经归一化的层输出;通过针对每个维度根据所述维度的所述参数集的训练值对所述维度中的所述训练示例的所述新的经归一化的层输出的所述分量进行转换,来生成新的批次归一化层输出;以及提供所述批次归一化层输出作为对所述第二神经网络层的新的层输入。6.根据权利要求5所述的神经网络系统,其中,针对所述维度的所述预先计算的平均值和标准偏差统计量根据在对所述神经网络系统进行训练期间由所述第一神经网络层生成的第一层输出计算。7.根据权利要求5所述的神经网络系统,其中,针对所述维度的所述预先计算的平均值和标准偏差统计量根据在已经对所述神经网络进行了训练之后由所述第一神经网络层生成的新的第一层输出计算。8.根据权利要求7所述的神经网络系统,其中,在已经对所述神经网络系统进行了训练之后由所述神经网络系统处理的新的神经网络输入是与用于对所述神经网络系统进行训练的所述训练示例的类型不同的输入。9.根据权利要求1所述的神经网络系统,其中,所述第一神经网络层是卷积层,其中,所述第一层输出的所述多个分量通过特征索引和空间位置索引进行索引,以及其中,计算所述第一层输出的多个归一化统计量包括:针对特征索引和空间位置索引的每个组合,计算具有所述特征索引和空间位置索引的所述第一层输出的所述分量的平均值;针对每个特征索引,计算包括所述特征索引的组合的平均值的平均数;针对特征索引和空间位置索引的每个组合,计算具有所述特征索引和空间位置索引的所述第一层输出的所述分量的方差;以及针对每个特征索引,计算包括所述特征索引的组合的所述方差的平均数。10.根据权利要求9所述的神经...

【专利技术属性】
技术研发人员:谢尔盖·约费科琳娜·科尔特斯
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1