当前位置: 首页 > 专利查询>浙江大学专利>正文

基于卷积神经网络预训练模型的卷积核激活值正则化方法和系统技术方案

技术编号:39039208 阅读:23 留言:0更新日期:2023-10-10 11:52
基于卷积神经网络预训练模型的卷积核激活值正则化方法和系统,其方法包括:1)预训练卷积神经网络模型;2)计算卷积核产生的激活值的重要程度;3)正则化处理卷积核产生的激活值,产生新的激活值,使用新的激活值代替原先的激活值;4)基于正则化处理之后的卷积神经网络模型对图像进行分类。本发明专利技术找到卷积神经网络预训练模型中每个卷积核产生的激活值的重要程度,基于激活值的重要程度对卷积核激活值进行正则化处理。根据分类结果计算损失函数,利用损失函数对卷积神经网络的参数进行更新,提升预训练卷积神经网络的图像分类性能。提升预训练卷积神经网络的图像分类性能。提升预训练卷积神经网络的图像分类性能。

【技术实现步骤摘要】
基于卷积神经网络预训练模型的卷积核激活值正则化方法和系统


[0001]本专利技术属于模型优化领域,具体涉及卷积神经网络预训练模型的卷积核激活值正则化方法和系统。

技术介绍

[0002]卷积神经网络(Convolutional Neural Network,CNN)是一类包含卷积计算并且含有深层次结构的深度神经网络。卷积神经网络隐含层中的卷积层与池化层交替连接,这些隐含层构成了卷积神经网络的核心模块,高层一般由全连接层构成。卷积神经网络目前在图片分类、相似图搜索、医学图像等领域都有着广泛的应用。
[0003]然而,尽管卷积神经网络具有强大图像数据处理能力,但在研究人员看来,它仍然有很大的优化空间,如设计不同的网络结构、设计不同的损失函数、使用设计更为复杂的优化器等。
[0004]近年来,卷积核激活值正则化方法的进展主要集中在模型量化、模型剪枝、模型蒸馏、网络结构设计、损失函数设计等方面,对预训练卷积神经网络模型的卷积核激活值进行正则处理的技术方向仍处于空白阶段。
[0005]模型量化通过将模型参数的精度降低到较低的位数,可以显著减少计算和存储资源的使用,而对模型性能的影响相对较小;模型剪枝通过去除不必要的连接和节点来减小模型的规模,从而降低资源需求;模型蒸馏通过将大型模型的知识转移给小型模型,以提高小型模型的性能。此外,通过网络结构设计可以使得模型在手机等低算力设备上进行模型的推理过程;针对数据的分布情况可以设计针对性的损失函数,使得模型可以更好地收敛。虽然这些技术对模型进行了一定程度的优化,但是并没有从卷积核激活值的角度出发,也并没有考虑到卷积核激活值对图像分类等下游任务的影响。

技术实现思路

[0006]本专利技术要克服现有技术的上述缺点,提供基于卷积神经网络预训练模型的卷积核激活值正则化方法和系统。
[0007]本专利技术从卷积神经网络模型卷积核产生的激活值的重要程度出发,设计了一种基于卷积神经网络预训练模型的卷积核激活值正则化方法。该方法的核心思想是分析卷积神经网络预训练模型中卷积核产生激活值的重要程度,并通过其重要程度对激活值进行进一步的正则化处理,得到新的激活值,并使用新的激活值代替原先的激活值,从而提升卷积神经网络预训练模型的性能。
[0008]基于卷积神经网络预训练模型的卷积核激活值正则化方法,包括以下步骤:
[0009]S1.预训练卷积神经网络模型。
[0010]给定任意的卷积神经网络模型(如AlexNet或ResNet),使用交叉熵损失函数在某个图像分类数据集(如CIFAR10或CIFAR100)上训练至模型收敛,得到一个预训练权重;该权
重将作为下面步骤中模型的初始化。
[0011]S2.计算卷积核产生的激活值的重要程度。
[0012]S2.1使用预训练权重初始化卷积神经网络模型。
[0013]使用和步骤S1中相同的卷积神经网络,并使用步骤S1中得到的预训练权重初始化卷积神经网络模型;
[0014]S2.2获取卷积核激活值对应分布的均值和方差。
[0015]在卷积神经网络中,通过卷积核和批归一化层之后的卷积核激活值呈高斯分布。对于卷积神经网络第l层卷积层上的卷积核k,其激活值对应的高斯分布的均值设为μ
k
,标准差设为σ
k
,这两个参数值在第l层卷积层之后的批归一化层的模型参数中直接获取;
[0016]S2.3计算卷积核产生激活值的重要程度。
[0017]对于单张图像,该图像在第l层卷积层的卷积核k上产生的激活值设为a
k
;如果激活值a
k
越靠近对应卷积核k的均值μ
k
,这个激活值需要给予较大的权重;如果激活值a
k
越远离卷积核k的均值μ
k
,则该激活值需要给予较小的权重;根据该形式下的卷积核激活值重要程度的定义,可以使用高斯函数积分的变体计算激活值的重要程度:如果激活值小于等于均值,则取高斯函数在激活值位置的积分;如果激活值大于均值,则取激活值关于均值对称位置的积分;公式化表述如下:
[0018]对于单张图像在卷积核k上产生的激活值a
k
,如果a
k
≤μ
k
,则权重值w
k
的计算公式如下:
[0019][0020]其中,μ
k
为卷积核k的均值,σ
k
为卷积核k的方差,exp代表以自然常数e为底的指数函数,π代表圆周率;上述表达式可以使用误差函数简化:
[0021][0022]其中,a
k
代表卷积核k产生的激活值,μ
k
为卷积核k的均值,σ
k
为卷积核k的方差,erf代表误差函数;
[0023]对于单张图像在卷积核k产生的激活值a
k
,如果a
k
>μ
k
,权重值w
k
为激活值a
k
关于均值μ
k
对称位置的高斯函数积分,计算公式如下:
[0024][0025]综上所述,单张图像在卷积核k上产生的激活值的重要程度如下:
[0026][0027]S3.正则化处理卷积核产生的激活值,产生新的激活值,使用新的激活值代替原先
的激活值。
[0028]单张图像在第l层卷积层的卷积核k上产生的激活值为a
k
,对其正则化处理之后的新激活值为w
k
*a
k
,并使用新激活值代替原先的激活值,其中w
k
是通过公式(4)计算得到的激活值a
k
的重要程度。之后使用交叉熵损失函数,并通过反向传播算法更新模型参数,从而提升模型的性能。
[0029]本专利技术的创新点是:从预训练的卷积神经网络模型权重中直接提取卷积核激活值对应分布的均值和方差,不需要给原始的卷积神经网络模型添加其他的模块,不增加模型的参数量;激活值的权重通过高斯函数对应的积分进行计算。
[0030]本专利技术的工作原理是:当卷积核产生的激活值越靠近卷积核对应分布的均值,则说明该激活值是一个处于合理范围的值,并且其重要程度较高;如果激活值越远离卷积核对应分布的均值,则说明该激活值是一个异常值,其重要程度较低。通过计算激活值的重要程度,可以对激活值进行正则化处理,使用正则化处理之后的激活值代替原先的激活值,使得卷积神经网络更加关注有关特征,并过滤无关特征。
[0031]本专利技术的优点是:本方法不需要为卷积神经网络模型添加额外的模块,不会增加模型的参数量;经过本方法处理之后的新激活值能够更加关注和图像分类任务有关的特征,同时抑制无关特征。
附图说明
[0032]图1是本专利技术方法的流程图。
具体实施方式
[0033]下面结合附图说明本专利技术的技术方案。
[0034]本实施例提供应用本专利技术的基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于卷积神经网络预训练模型的卷积核激活值正则化方法,包括以下步骤:S1.预训练卷积神经网络模型;给定任意的卷积神经网络模型,使用交叉熵损失函数在某个图像分类数据集上训练至模型收敛,得到一个预训练权重;该权重将作为下面步骤中模型的初始化;S2.计算卷积核产生的激活值的重要程度;S2.1使用预训练权重初始化卷积神经网络模型;使用和步骤S1中相同的卷积神经网络,并使用步骤S1中得到的预训练权重初始化卷积神经网络模型;S2.2获取卷积核激活值对应分布的均值和方差;对于卷积神经网络的第l层卷积层上的卷积核k,其激活值对应的高斯分布的均值为μ
k
,标准差为σ
k
,这两个参数值在第l层卷积层之后的批归一化层的模型参数中直接获取;S2.3计算卷积核产生激活值的重要程度;对于单张图像,该图像在第l层卷积层的卷积核k上产生的激活值设为a
k
;如果激活值a
k
越靠近对应卷积核k的均值μ
k
,这个激活值需要给予较大的权重;如果激活值a
k
越远离卷积核k的均值μ
k
,则该激活值需要给予较小的权重;根据该形式下的卷积核激活值重要程度的定义,可以使用高斯函数积分的变体计算激活值的重要程度:如果激活值小于等于均值,则取高斯函数在激活值位置的积分;如果激活值大于均值,则取激活值关于均值对称位置的积分;公式化表述如下:对于单张图像在卷积核k上产生的激活值a
k
,如果a
k
≤μ
k
,则权重值w
k
的计算公式如下:其中,μ
k<...

【专利技术属性】
技术研发人员:宋明黎徐文祥陈琳贾志杰冯尊磊
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1