一种神经网络批分组响应的BGRN归一化方法技术

技术编号:30367297 阅读:20 留言:0更新日期:2021-10-16 17:39
本发明专利技术涉及深度学习,具体涉及一种神经网络批分组响应的BGRN归一化方法,对mini

【技术实现步骤摘要】
一种神经网络批分组响应的BGRN归一化方法


[0001]本专利技术涉及深度学习,具体涉及一种神经网络批分组响应的BGRN归一化方法。

技术介绍

[0002]随着近年来计算机视觉和自然语言处理等技术的发展,神经网络需要处理的数据越来越趋于大型化和异构化。为了获得数据不同抽象层次的特征表示,网络层数达到几百层,导致网络训练花费的时间越来越长,训练过程中易陷入局部极小值,训练准确率有待提升,并且还会出现梯度消失和爆炸等问题。
[0003]在深层网络训练的过程中,中间协变量迁移(Internal covariate shift)指的是神经网络使用梯度下降法进行训练的过程中,网络中每一层输入向量服从的概率分布不断发生改变。这会使得梯度下降训练过程对连接边权值矩阵和偏置向量的初始值比较敏感,初始值一旦选择不好,梯度下降过程易陷入局部极小值,训练过程需降低学习率,收敛速度变慢。
[0004]自2015年提出批量归一化(Batchnormalization,BN),把BN作为神经网络的一部分,基于BN层归一化思想和BN存在的问题,出现了一系列神经网络层归一化技术的改进,如层归一化(Layer Normalization,LN)、实例归一化(Instance Normalization,IN)、分组归一化(Group Normalization,GN)、自适配归一化(Switchable Normalization,SN)。
[0005]BN在训练阶段和推理阶段的计算过程不同,推理阶段所使用的均值和方差采用估算值,会影响神经网络预测效果。由于小批量mini

batch数据的分布可能与整体训练样本偏差很大,因此BN对于批次大小比较敏感,对于数据分布差异较大的训练集与测试集,推理效果会很差或不适用。此外,BN在归一化时是针对每个批次所有样本的,会造成样本独特细节的丢失。
[0006]相比BN而言,LN在训练阶段和推理阶段均使用单个样本计算所有通道的均值和方差,有效解决了推理阶段对mini

batch批次大小敏感的问题。但是,LN仅考虑单个样本的所有通道,会忽略不同通道间的差异和样本总体的数据分布,会降低模型的表达能力。
[0007]IN计算归一化时没有考虑批样本量和各通道之间的联系,更适合对单个像素有更高要求的训练风格迁移任务场景。
[0008]GN将特征图通道分成几个组,再对组内特征归一化处理。当GN分组数为1时,GN就等同于LN;当分组为总通道数时GN就等同于IN。GN解决了IN和LN通道间的差异问题,但忽略了样本总体的数据分布。
[0009]SN需要在IN的通道维度、LN的层维度、BN的mini

batch维度分别进行均值和方差的重复计算,增加了归一化计算复杂度和训练参数。SN使用BatchAverage方法解决BN推理阶段的均值、方差计算,SN训练后再从训练集中随机抽取若干个批量的样本,计算各SN层BN的均值、方差,作为SN推理阶段使用,这种随机抽样估计样本总体均值、方差的方法存在抽样误差。

技术实现思路

[0010](一)解决的技术问题
[0011]针对现有技术所存在的上述缺点,本专利技术提供了一种神经网络批分组响应的BGRN归一化方法,能够有效克服现有技术所存在的神经网络收敛缓慢、对mini

batch批次大小依赖程度较高的缺陷。
[0012](二)技术方案
[0013]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0014]一种神经网络批分组响应的BGRN归一化方法,包括以下步骤:
[0015]S1、对mini

batch批次、通道间和通道内三个维度构成的数据立方体进行归一化处理,使用可训练的神经网络模型参数对归一化数据进行线性变换;
[0016]S2、基于网络层样本数和通道尺寸自适应选择不同通道叠加区间的邻近参数τ,通过邻近参数τ控制通道区间范围;
[0017]S3、在邻近通道叠加响应增强处理和小样本多通道并行计算策略,对邻近通道叠加数据分布计算均值和方差;
[0018]S4、利用邻近通道叠加数据分布的均值和方差进行训练和推理,神经网络模型参数通过梯度下降法学习。
[0019]优选地,S2中基于网络层样本数和通道尺寸自适应选择不同通道叠加区间的邻近参数τ,通过邻近参数τ控制通道区间范围,包括:
[0020]邻近参数τ的取值与样本大小以及归一化层的输入数据维度相关,函数映射关系为f(
·
);f(
·
)控制抽样的小样本数据分布区域能够维持稳定的大小,降低与整体训练样本数据分布的偏差,提高模型的表达能力。
[0021]优选地,S3中在邻近通道叠加响应增强处理和小样本多通道并行计算策略,对邻近通道叠加数据分布计算均值和方差,包括:
[0022]对mini

batch批次样本相同通道进行归一化处理,并对邻近通道叠加数据分布计算均值和方差,小批量样本的多通道并行计算减少对mini

batch批次大小的依赖。
[0023]优选地,S4中利用邻近通道叠加数据分布的均值和方差进行训练和推理,包括:
[0024]在训练阶段和推理阶段均从小批量mini

batch数据对某个隐藏层网络的输入数据进行归一化处理,训练阶段和推理阶段过程一致。
[0025]优选地,S4中神经网络模型参数通过梯度下降法学习,包括:
[0026]计算损失函数对神经网络模型参数的偏导数,通过链式法则逐一对每个神经网络模型参数求偏导数,在神经网络训练中使用反向传播算法计算梯度。
[0027](三)有益效果
[0028]与现有技术相比,本专利技术所提供的一种神经网络批分组响应的BGRN归一化方法,具有以下有益效果:
[0029]1)借鉴生物学对区域神经元的活动创建竞争机制来抑制相邻神经元的原理,通过mini

batch批次、通道间和通道内三个维度构成的数据立方体进行归一化算法设计,使用可训练神经网络模型参数γ、β对归一化数据进行线性变换,提高模型的泛化能力和训练速度;
[0030]2、通过自适应的邻近参数τ控制通道区间范围大小,对邻近通道叠加数据分布计
算均值和方差,基于网络层样本数和通道尺寸建立函数映射在BGRN层中计算邻近参数τ,减少人为对模型训练过程的干预,训练和推理均使用小批量mini

batch数据的均值和方差,且邻近参数τ可控,不依赖mini

batch批次、通道数量和图像尺寸的大小,BGRN均能进行较好的归一化,具有鲁棒性;
[0031]3、神经网络各隐藏层使用叠加的邻近通道区域计算的均值和方差,有助于提高模型的泛化能力,这种通道选择策略要优于IN的单通道、LN的全通道归一化,并且BGRN可以直接应用到各种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络批分组响应的BGRN归一化方法,其特征在于:包括以下步骤:S1、对mini

batch批次、通道间和通道内三个维度构成的数据立方体进行归一化处理,使用可训练的神经网络模型参数对归一化数据进行线性变换;S2、基于网络层样本数和通道尺寸自适应选择不同通道叠加区间的邻近参数τ,通过邻近参数τ控制通道区间范围;S3、在邻近通道叠加响应增强处理和小样本多通道并行计算策略,对邻近通道叠加数据分布计算均值和方差;S4、利用邻近通道叠加数据分布的均值和方差进行训练和推理,神经网络模型参数通过梯度下降法学习。2.根据权利要求1所述的神经网络批分组响应的BGRN归一化方法,其特征在于:S2中基于网络层样本数和通道尺寸自适应选择不同通道叠加区间的邻近参数τ,通过邻近参数τ控制通道区间范围,包括:邻近参数τ的取值与样本大小以及归一化层的输入数据维度相关,函数映射关系为f(
·
);f(
·
)控制抽样的小样本数据分布区域能够维持稳定的大小,降低与整体训练样本数据分布的偏差,提高模型的表...

【专利技术属性】
技术研发人员:彭成东杨诺王勇陈仁明
申请(专利权)人:合肥云诊信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1