深度卷积神经网络中的归一化制造技术

技术编号：36841440 阅读：8 留言：0更新日期：2023-03-15 15:41

本文描述了一种用于机器学习的设备(900)，所述设备(900)包括一个或多个处理器(901)，所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层，所述归一化层用于在所述设备在对一批训练样本进行训练时执行以下操作：针对所述批次的多个训练样本接收(1001)所述神经网络第一层的多个输出，每个输出包括第一维度和第二维度上不同索引的多个数据值，所述第一维度表示通道维度；根据与所述输出相关的所述第一维度和所述第二维度上的所述索引，将所述输出分成(1002)多个组；为每个组形成(1003)归一化输出；提供(1004)所述归一化输出作为所述神经网络第二层的输入。这可以训练具有良好性能的深度卷积神经网络，所述深度卷积神经网络在不同批量大小时稳定运行并且可推广到多个视觉任务。这也可以加快所述训练并提高所述训练的性能。可以加快所述训练并提高所述训练的性能。可以加快所述训练并提高所述训练的性能。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】深度卷积神经网络中的归一化

[0001]本专利技术涉及深度卷积神经网络中训练样本的处理，例如在图像分类等视觉任务中。

技术介绍

[0002]深度卷积神经网络(Deep Convolutional Neural Network，DCNN)是一种广泛应用于图像分类、目标检测和语义分割等视觉任务的方法。DCNN通常包括卷积层、归一化层和激活层。归一化层对于提高性能和加快训练过程非常重要。
[0003]然而，DCNN的训练通常困难而又费时。先前训练方法的性能也是有限的。
[0004]Sergey Ioffe和Christian Szegedy在国际机器学习大会上所发表文章“批量归一化：通过减少内部协变量偏移来加速深度网络训练”(第448至456页，2015年)中描述的批量归一化(Batch Normalization，BN)使用与特征图的批量、高度和宽度维度一起计算的平均值和方差对特征图进行归一化处理，然后重新缩放和重新平移归一化的特征图以保持DCNN的表征能力。基于BN，人们提出了许多其它任务的归一化方法来计算不同维度上的平均值和方差统计数据。例如，Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey E Hinton在NIPS深度学习论文集锦中所发表文章“层归一化”(2016年)中描述的层归一化(Layer Normalization，LN)其被提议用于计算递归神经网络(Recurrent Neural Network，RNN)的通道、高度和宽度维度上的统计数据。Tim Salim...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于机器学习的设备(900)，其特征在于，所述设备包括一个或多个处理器(901)，所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层，所述归一化层用于在所述设备在对一批训练样本进行训练时执行以下操作：针对所述批次的多个训练样本接收(1001)所述神经网络第一层的多个输出，每个输出包括第一维度和第二维度上不同索引的多个数据值，所述第一维度表示通道维度；根据与所述输出相关的所述第一维度和所述第二维度上的所述索引，将所述输出分成(1002)多个组；为每个组形成(1003)归一化输出；提供(1004)所述归一化输出作为所述神经网络第二层的输入。2.根据权利要求1所述的设备(900)，其特征在于，所述第二维度表示一个或多个空间维度。3.根据权利要求2所述的设备(900)，其特征在于，所述为每个组形成归一化输出的步骤包括：计算所述组中所述输出的聚合统计参数。4.根据权利要求2或3所述的设备(900)，其特征在于，所述为每个组形成归一化输出的步骤包括：计算所述组中所述输出的平均值和方差。5.根据上述任一权利要求所述的设备(900)，其特征在于，所述对所述输出进行分组的步骤包括：将每个输出仅分配给所述组中的单个组。6.根据上述任一权利要求所述的设备(900)，其特征在于，所述对所述输出进行分组的步骤包括：将与所述第一维度上的共同指标和所述第二维度上的共同指标相关的所有输出分配到同一组。7.根据上述任一权利要求所述的设备(900)，其特征在于，所述对所述输出进行分组的步骤包括：将与公共批次相关的输出分配到不同的组。8.根据上述任一权利要求所述的设备(900...

【专利技术属性】
技术研发人员：周晓云，孙嘉城，叶南洋，兰旭，罗琪竣，佩德罗，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人