基于分组注意力机制的自适应剪枝模型压缩算法制造技术

技术编号：32510693 阅读：49 留言：0更新日期：2022-03-02 10:54

本发明专利技术属于网络压缩技术领域，具体涉及基于分组注意力机制的自适应剪枝模型压缩算法，包括基于注意力机制的通道剪枝方法和基于强化学习的模型相关剪枝策略，通过设置分组注意力剪枝模块，不仅实现了卷积核评价的功能，而且也完成了剪枝任务，分组注意力模块可以为每个卷积核生成一个重要性分值，与传统注意力模块的区别在于可以体现出前一层剪枝对后面层剪枝的影响，可以针对输入数据的不同，选择不同的参数参与前后向的运算，模型的容量不会减少，造成的精度损失会大幅降低，为不同数据自适应评估每个卷积核的重要性，将分数低的卷积核忽略，不参与运算，可以有效地提高模型推理速度。速度。速度。

全部详细技术资料下载

【技术实现步骤摘要】
of the IEEE International Conference on Computer Vision(ICCV).2017:1389
‑
1397.)提出了基于Lasso 回归和最小重构误差的剪枝算法来衡量滤波器的重要程度，在模型大小与预测精度之间取得了很好的平衡，但是采用这种方法时，范数的标准差太小，导致大部分滤波器具有相同的重要性，无法确定该移除哪个滤波器，Lin等人 (出处：LIN S,JI R,YAN C,et al.Towards optimal structured CNN pruning via generativeadversarial learning[C]//Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition(CVPR).2019: 2790
‑
2799.)引入放缩因子来指示滤波器的重要性，他们借鉴了生成式对抗网络(Generative Adversarial Networks，简称GAN)的思路，将生...

【技术保护点】

【技术特征摘要】
1.基于分组注意力机制的自适应剪枝模型压缩算法，其特征在于，包括基于注意力机制的通道剪枝方法和基于强化学习的模型相关剪枝策略，基于注意力机制的通道剪枝方法具体过程为：第一步：卷积核重要性评估；第二步：剪枝；第三步：重训练；自适应剪枝算法处理流程分为两个方面：给定一个训练好的CNN模型，一方面利用分组注意力机制模块完成目标层的通道剪枝，另一方面利用强化学习算法结合模型剪枝效果进行跨层的剪枝位置决策；具体过程为：(1)数据集Cifar
‑
100数据集对剪枝算法进行评价，ImageNet用于对剪枝后网络的泛化性进行评价，以验证剪枝模型对数据集的敏感程度，这两个数据集全部来自于官方版本，下载后包括训练集和测试集两部分，训练集用于对重构后的剪枝模型进行训练，训练完毕后在测试集测试分类准确度，在对数据集的处理方面，首先对训练集和测试集的样本做归一化预处理，进一步，为了丰富训练样本，对Cifar
‑
100和Imagenet数据集做数据增强处理，增强手段包括：随机翻转和随机裁剪；(2)模型结构用于做自适应剪枝实验的模型结构包括VGG19全卷积网络和ResNet56残差模型，这两个模型的结构比较有代表性，分别代表了全卷积神经网络与带残差连接的神经网络，也是目前卷积神经网络中广泛应用的模型结构；(3)对比实验Filter pruning：利用L1范数评估每层每个卷积核的重要性，L1范数较大的卷积核被认为重要，反之认为不重要，在评估完成后，按照逐层剪枝或者贪心的全局剪枝方式对模型进行剪枝，每层剪枝比例的设定，通过敏感度实验测试，敏感度较高的网络层剪枝率设置高值，敏感度较高的网络层剪枝率设置低值；Network slimming：通过Batch Norm层中的gamma系数建模通道的重要性，并在损失函数中增加针对gamma系数的L1正则约束，使得模型自动稀疏化，通过这种方式，在训练完成后，模型中的很多gamma系数值被固定在零，作者设置一个全局阈值，将模型中gamma系数最贴近零的阈值对应的卷积核和通道连接去除，该网络瘦身方法能重复多次，对模型进行多次压缩；Channel Pruning：通过交替两个优化步骤实现卷积核维度的剪枝，在第一个步骤，利用Lasso回归挑选出待剪枝的特征通道，对通道进行剪枝，则意味着对其对应的卷积核剪枝，在第二个步骤，对卷积核参数进行优化，最小化剪枝后与剪枝前的输出差值，交替这两个步骤，并逐层剪枝，最终得到轻量化模型；Soft Pruning：一种软剪枝的思路，在每一轮对基线模型训练的过程中，用L2范数评估卷积核的重要性，并将低重要性的卷积核置零，在下一轮参数更新后卷积核的参数会发生调整，然后再一次利用L2范数评估每个卷积核的重要性，重新置零部分卷积核，直到训练完成，将最终零权值的卷积核和对应连接从模型中去除，该论文预先设定每层剪枝比例，按照
比例置零每层的卷积核参数，该方法具有一定的容错性，当部分卷积核被置零后，在下一轮重新调整参数值；(4)实现细节自适应剪枝算法的实验代码利用Python3实现，深度学习框架基于PyTorch，并使用一张NVIDIA TITAN X显卡，配备cuda8.0处理器，下面以VGG19为例分析重构结构的方法，其它预训练模型的剪枝方法类似，首先对SAC的Actor和Critic初始化，第一轮剪枝按默认参数逐层剪枝，然后根据剪枝模型的准确率误差更新模型参数，依次循环，直至模型推理速度收敛到预期目标，在VGG19中一共包含了16个卷积层，需在15个卷积层部署GAP结构，由于VGG模型结构每一个卷积层的卷积核数较多，将通道压缩率阈值设为50％，根据不同模型的特点选择不同通道压缩率；在重构模型的微调过程中，以0.1的学习率进行训练，重构模型最多轮次设为200轮，最终推理速度设为基准模型推理速度的5倍，使用随机梯度下降算法作为优化器，更新重构模型的参数，获得更好的分类结果和加强注意力机制的权重生成。2.根据权利要求1所述的基于分组注意力机制的自适应剪枝模型压缩算法，其特征在于，注意力机制时通常会用Softmax激活函数对关系系数α进行归一化，激活函数Softmax满足下式：其中α
v
表示第v个关系系数变量，N代表关系变量的个数，GAP模块的输入有2个来源，依次为第L
‑
1层剪枝后的卷积核与第L层待剪枝的卷积核，输出第L层剪枝后的卷积核，定义第L层特征图为X
L
∈R
C
×
W
×
H
，C、W和H分别为特征图X
L
的通道数、宽度和高度，为了计算通道间的关系系数，首先用全局平均池化降低特征图X
L
的维度，获得仅保留特征通道维度的特征Z
L
∈R
C
，如下式：其中，X
L
(h,w)为特征图X
L
在高度h和宽度w处的通道向量；通过矩阵乘法计算第L
‑
1层特征图的关系系数α
L
‑1∈R
C
‑1：α
L
‑1＝A
L
‑1·
Z
L
为计算第L
‑
1层特征关系系数的可学习参数，C
L
‑1和C
L
分别为第L
‑
1层和第L层的特征通道数；为避免在计算注意力机制时不同语义特征间的抑制作用，采用了特征关系系数分组激活的方法，增强同类语义特征在不同通道之间的差异，由于训练中卷积核的重要性动态变化，因此引入掩码进行动态剪枝，分组激活并完成特征图剪枝的公式如式所示：其中，为L
‑
1层的第i组关系系数，为L
‑
1层的第i组特征图，为L
‑
1层的剪枝后的特征图，本研究设定K为4；注意力模块的计算流程如下：(1)将第L层特征图X
L
‑1和关系系数α
L...

【专利技术属性】
技术研发人员：吴英，杨志，翟渊，向毅，
申请(专利权)人：重庆科技学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人