深度卷积神经网络中的归一化制造技术

技术编号:36841440 阅读:8 留言:0更新日期:2023-03-15 15:41
本文描述了一种用于机器学习的设备(900),所述设备(900)包括一个或多个处理器(901),所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层,所述归一化层用于在所述设备在对一批训练样本进行训练时执行以下操作:针对所述批次的多个训练样本接收(1001)所述神经网络第一层的多个输出,每个输出包括第一维度和第二维度上不同索引的多个数据值,所述第一维度表示通道维度;根据与所述输出相关的所述第一维度和所述第二维度上的所述索引,将所述输出分成(1002)多个组;为每个组形成(1003)归一化输出;提供(1004)所述归一化输出作为所述神经网络第二层的输入。这可以训练具有良好性能的深度卷积神经网络,所述深度卷积神经网络在不同批量大小时稳定运行并且可推广到多个视觉任务。这也可以加快所述训练并提高所述训练的性能。可以加快所述训练并提高所述训练的性能。可以加快所述训练并提高所述训练的性能。

【技术实现步骤摘要】
【国外来华专利技术】深度卷积神经网络中的归一化


[0001]本专利技术涉及深度卷积神经网络中训练样本的处理,例如在图像分类等视觉任务中。

技术介绍

[0002]深度卷积神经网络(Deep Convolutional Neural Network,DCNN)是一种广泛应用于图像分类、目标检测和语义分割等视觉任务的方法。DCNN通常包括卷积层、归一化层和激活层。归一化层对于提高性能和加快训练过程非常重要。
[0003]然而,DCNN的训练通常困难而又费时。先前训练方法的性能也是有限的。
[0004]Sergey Ioffe和Christian Szegedy在国际机器学习大会上所发表文章“批量归一化:通过减少内部协变量偏移来加速深度网络训练”(第448至456页,2015年)中描述的批量归一化(Batch Normalization,BN)使用与特征图的批量、高度和宽度维度一起计算的平均值和方差对特征图进行归一化处理,然后重新缩放和重新平移归一化的特征图以保持DCNN的表征能力。基于BN,人们提出了许多其它任务的归一化方法来计算不同维度上的平均值和方差统计数据。例如,Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey E Hinton在NIPS深度学习论文集锦中所发表文章“层归一化”(2016年)中描述的层归一化(Layer Normalization,LN)其被提议用于计算递归神经网络(Recurrent Neural Network,RNN)的通道、高度和宽度维度上的统计数据。Tim Salimans和Durk P Kingma在神经信息处理系统进展大会上所发表文章“权重归一化:用于加速深度神经网络训练的简单的重新参数化”(第901至909页,2016年)中描述的权重归一化(Weight Normalization,WN)被提议用于对监督图像识别、生成模型和深度强化学习的权重向量进行参数化。Mengye Ren、Renjie Liao、Raquel Urtasun、Fabian H Sinz和Richard S Zemel在国际学习表征会议上所发表文章“对均一化元素进行归一化:比较和扩展网络归一化方案”(2016年)中描述的分离归一化包括将BN和LN(作为特例),其被提议用于图像分类、语言建模和超分辨率。Dmitry Ulyanov、Andrea Vedaldi和Victor Lempitsky在arXiv预印本arXiv:1607.08022(2016年)中所发表文章“实例归一化:快速风格化缺失的成分”中描述的实例归一化(Instance Normalization,IN)被提议用于快速风格化,其中,统计数据根据高度和宽度维度计算。不同于从数据中计算统计数据,Devansh Arpit、Yingbo Zhou、Bhargava Kota和Venu Govindaraju在国际机器学习大会上所发表文章“归一化传播:用于消除深层网络中内部协变量偏移的参数化技术”(第1168至1176页,2016年)中描述的归一化传播独立于各层中的分布来估计数据。Yuxin Wu和Kaiming He在欧洲计算机视觉国际会议(European Conference on Computer Vision,ECCV)论文集中所发表文章“组归一化”(第3至19页,2018年)中描述的组归一化将通道分成多个组并计算每个分组通道的统计数据、高度和宽度维度,以显示批量大小的稳定性。Boyi Li、Felix Wu、Kilian QWeinberger和Serge Belongie在神经信息处理系统进展大会上所发表文章“位置归一化”(第1620至1632页,2019年)中描述的位置归一化(Positional Normalization,PN)被提议用于计算生成式网
络的通道维度上的统计数据。
[0005]BN、IN、LN、GN和PN共享相同的四个步骤:将中间特征图划分为多个特征组;计算每个特征组的平均值和方差;使用计算得出的每个特征组的平均值和方差对相应的特征组进行归一化处理;针对中间特征图的每个通道使用额外两个可训练参数,以恢复DCNN表征能力。BN、IN、LN、GN和PN的主要区别在于特征组的划分。
[0006]在这些归一化方法中,BN通常可以在批量较大时实现较好的性能。然而,在批量较小时,它的性能可能会下降。对于不同的批量大小,GN的稳定性更高,而在批量较大时,GN的性能略逊于BN。其它归一化方法(包括IN、LN和PN)在特定任务中性能良好,但与BN相比通常不能推广到多个视觉任务,且在批量较大时性能不佳。
[0007]需要开发一种克服这些问题的归一化方法。

技术实现思路

[0008]根据一方面,本专利技术提供了用于机器学习的设备,所述设备包括一个或多个处理器,所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层,所述归一化层用于在所述设备在对一批训练样本进行训练时执行以下操作:针对所述批次的多个训练样本接收所述神经网络第一层的多个输出,每个输出包括第一维度和第二维度上不同索引的多个数据值,所述第一维度表示通道维度;根据与所述输出相关的所述第一维度和所述第二维度上的所述索引,将所述输出分成多个组;为每个组形成归一化输出;提供所述归一化输出作为所述神经网络第二层的输入。
[0009]这可能使得能够训练具有良好性能的DCNN,所述DCNN在不同批量大小时稳定运行并且可推广到多个视觉任务。这也可以加快并提高DCNN训练的性能。
[0010]所述第二维度表示一个或多个空间维度,例如图像的特征图的高度和宽度。这可以提供一种对空间扩展样本执行机器学习的有效方式。
[0011]所述为每个组形成归一化输出的步骤可以包括:计算所述组中所述输出的聚合统计参数。此类参数方便地用于辅助后续神经网络层的训练。
[0012]所述为每个组形成归一化输出的步骤可以包括:计算所述组中所述输出的平均值和方差。这些量中的一个或两个可能有助于训练后续神经网络层。
[0013]所述对所述输出进行分组的步骤可以包括:将每个输出仅分配给所述组中的单个组。通过这种方式,在后续神经网络层的训练中,每个输出可能不会被过度表征。
[0014]所述对所述输出进行分组的步骤可以包括:将与所述第一维度上的共同指标和所述第二维度上的共同指标相关的所有输出分配到同一组。因此,这些组可以包括通过具有共同指标而相关的输出。
[0015]所述对所述输出进行分组的步骤可以包括:将与公共批次相关的输出分配到不同的组。在统计数据计算中包含所述批量维度可以进一步提高归一化的性能和普适性。
[0016]所述对所述输出进行分组的步骤可以包括:根据与输出相关的所述第一维度上的所述指标,将输出分配到不同的组。这可能使得从所述组导出的聚合值能够提供有关具有该指标的输出的信息。
[0017]所述对所述输出进行分组的步骤可以包括:根据与输出相关的所述第二维度上的
所述指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于机器学习的设备(900),其特征在于,所述设备包括一个或多个处理器(901),所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层,所述归一化层用于在所述设备在对一批训练样本进行训练时执行以下操作:针对所述批次的多个训练样本接收(1001)所述神经网络第一层的多个输出,每个输出包括第一维度和第二维度上不同索引的多个数据值,所述第一维度表示通道维度;根据与所述输出相关的所述第一维度和所述第二维度上的所述索引,将所述输出分成(1002)多个组;为每个组形成(1003)归一化输出;提供(1004)所述归一化输出作为所述神经网络第二层的输入。2.根据权利要求1所述的设备(900),其特征在于,所述第二维度表示一个或多个空间维度。3.根据权利要求2所述的设备(900),其特征在于,所述为每个组形成归一化输出的步骤包括:计算所述组中所述输出的聚合统计参数。4.根据权利要求2或3所述的设备(900),其特征在于,所述为每个组形成归一化输出的步骤包括:计算所述组中所述输出的平均值和方差。5.根据上述任一权利要求所述的设备(900),其特征在于,所述对所述输出进行分组的步骤包括:将每个输出仅分配给所述组中的单个组。6.根据上述任一权利要求所述的设备(900),其特征在于,所述对所述输出进行分组的步骤包括:将与所述第一维度上的共同指标和所述第二维度上的共同指标相关的所有输出分配到同一组。7.根据上述任一权利要求所述的设备(900),其特征在于,所述对所述输出进行分组的步骤包括:将与公共批次相关的输出分配到不同的组。8.根据上述任一权利要求所述的设备(900...

【专利技术属性】
技术研发人员:周晓云孙嘉城叶南洋兰旭罗琪竣佩德罗
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1