一种基于注意力区域选择的深度模型压缩方法技术

技术编号:33088145 阅读:11 留言:0更新日期:2022-04-15 10:56
本发明专利技术公开了一种基于注意力区域选择的深度模型压缩方法,属于计算机视觉技术领域,学生网络通过学习教师网络中选中区域的信息,提高了目标检测的能力,减少了模型大小。本发明专利技术利用区域选择和注意机制相结合的简单蒸馏方法进行目标检测,在全面分析的基础上,引入了本发明专利技术的方法,首先根据预测框选择蒸馏区域,然后提取该区域的注意图进行蒸馏。使用Faster R

【技术实现步骤摘要】
一种基于注意力区域选择的深度模型压缩方法


[0001]本专利技术属于计算机视觉
,尤其涉及一种基于注意力区域选择的深度模型压缩方法。

技术介绍

[0002]作为计算机视觉领域的基础和热门话题之一,目标检测已经引起了广泛的关注和讨论。最近的研究提出了许多基于深度学习的方法来处理目标检测的任务,这些方法往往依赖于复杂的骨干网络的运算,这可以极大地提高模型的性能,同时占用大量的内存和花费大量的计算时间。
[0003]先进的模型加速方法,如手动设计轻量级神经网络,包含剪枝的模型压缩技术和量化,以及网络架构搜索(NAS)都有减少模型大小和加快推理速度的效果。
[0004]知识提炼(Knowledge Distillation,简称KD)是模型压缩中常用的有效方法,它通过训练紧凑的学生模型来模仿大型教师模型的能力,从而获得卓越的泛化能力。目前KD的主要研究工作多应用于分类任务,较少用于目标检测任务,因为目标检测不是简单地将一张图片归入相应的类别,而是要找出物体的位置并对找到的物体进行分类。虽然已经提出了基于对数的知识、基于特征的知识和基于关系的知识等,但KD在目标检测方面的应用还远未完善,因为它需要一些额外的操作和设计。

技术实现思路

[0005]本专利技术提供了一种基于注意力区域选择的深度模型压缩方法,降低了模型的参数量,加快模型的推理速度,降低了模型所需存储空间,减少计算资源消耗。
[0006]为实现以上目的,本专利技术采用以下技术方案:
[0007]一种基于注意力区域选择的深度模型压缩方法,包括以下步骤:
[0008]步骤1:提取教师网络和学生网络的指定层的输出作为待计算特征图;
[0009]步骤2:应用注意力函数计算所述特征图的注意力图;
[0010]步骤3:应用区域选择算法计算出选择的区域;
[0011]步骤4:学生网络和教师网络同时提取选中的区域的注意力图;
[0012]步骤5:学生网络通过学习该区域的信息得到教师网络的能力。
[0013]以上所述步骤中,步骤2中所述注意力函数为:
[0014][0015][0016]定义一个卷积层,与该层相关的激活张量为其中F为相关层的激活函数,其输入的维度为(H,W,C),H和W表示特征图的宽度和高度,C表示通道的数量,输出为一张注意力图,大小为H
×
W,A
i
=A(i;:;:)为Matlab表示法,表示张量A的第i个通道,A
i
的维度
为H
×
W,表示输入为激活张量A,上标p表示为p次方,下标sum表示求和;
[0017]步骤3具体包括以下步骤:
[0018]步骤3.1:得到预测框和真值框的IOU值
[0019]IOU(Intersection over Union)表示存在对象的预测区域和真值区域之间的相似性,对于每一个预测框,计算其与每一个真值框的IOU值并添加到IOUs中;
[0020]步骤3.2:取IOUs中最大的IOU,maxIou,并设置fai值为0.5
[0021]maxIou

MAX(IOUs)
[0022]其中,MAX表示取最大值
[0023]步骤3.3:过滤掉IOU值小于threshold=maxIou
×
fai的预测框;
[0024]步骤3.4:对选取的所有IOU值大于阈值threshold的预测框进行或操作,得到最终的掩码mask,也就是选定的区域;
[0025]mask为一个由0,1组成的矩阵,维度为片
×
W;
[0026]或操作表示按位或的操作,只要是预测框包含到的位置都置为1;
[0027]步骤4中提取选中的区域的注意力图:
[0028]Mask(mask,t)=mask点乘
[0029]Mask(mask,s)=mask点乘
[0030]其中,t,s分别表示教师网络和学生网络卷积层的激活张量,Mask(mask,t)和Mask(mask,s)分别为教师网络和学生网络选定区域的注意力图;
[0031]步骤5具体包括以下步骤:
[0032]步骤5.1:学生网络的区域选择损失函数:
[0033][0034][0035]mask是区域选择的掩码,N
p
是选择区域的点的数量,f
adap
是适应函数,i和j表示二维特征图上的第i行第j列,学生网络和教师网络的输出维度可能不一样,需要添加适应层,将两个网络的输出拉伸到一样大小;
[0036]步骤5.2整体的损失函数
[0037]Loss=L
gt
+λL
RAT
[0038]L
gt
是指原始目标检测损失,λ是RAT损失权重系数,用于平衡L
gt
和L
RAT
之间的权重。
[0039]步骤5.3:学生网络通过最小化整体损失函数学习到教师网络的信息;
[0040]进一步的,训练网络并最小化整体损失函数,迭代训练至损失收敛。
[0041]有益效果:本专利技术提供了一种基于注意力区域选择的深度模型压缩方法,利用区域选择和注意机制相结合的简单蒸馏方法进行目标检测,在全面分析的基础上,引入了本专利技术的方法,首先根据预测框选择蒸馏区域,然后提取该区域的注意图进行蒸馏,在几个目标检测数据集和不同的检测框架上的实验结果验证了本专利技术方法的有效性,分析并证明了在蒸馏过程中应用区域选择和注意机制的重要作用;而且本专利技术容易实现,可以应用于单阶段和双阶段检测框架,具有普适性。本专利技术使用Faster R

CNN模型在Pascal VOC基准上
评估了我们的方法,与教师相比,本专利技术提高了检测效果,减少了模型大小。
附图说明
[0042]图1是本专利技术实施例中的整体流程图;
[0043]图2是本专利技术实施例中步骤2的结果图;
[0044]图3是本专利技术实施例中步骤3的结果图;
[0045]图4是本专利技术实施例中步骤4的结果图。
具体实施方式
[0046]下面结合附图和具体实施例对本专利技术进行详细说明:
[0047]如图1所示,一种基于注意力区域选择的深度模型压缩方法,包括以下步骤:
[0048]步骤1.1提取指定网络层
[0049]提取教师网络和学生网络的指定层的输出t,s作为待计算特征图;
[0050]进一步的,教师网络为基于ResNet152

FPN的Faster R

CNN,学生网络为基于ResNet34

FPN的Faster R

CNN,选择用于蒸馏的层为FPN的最高层;
[0051]步骤2.1规定注意力函数
[0052][0053][0054]其中特征F本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力区域选择的深度模型压缩方法,其特征在于,包括以下步骤:步骤1:提取教师网络和学生网络的指定层的输出作为待计算特征图;步骤2:应用注意力函数计算所述特征图的注意力图;步骤3:应用区域选择算法计算出选择的区域;步骤4:学生网络和教师网络同时提取选中的区域的注意力图;步骤5:学生网络通过学习该区域的信息得到教师网络的能力。2.根据权利要求1所述的基于注意力区域选择的深度模型压缩方法,其特征在于,步骤1中所述教师网络为基于ResNet152

FPN的Faster R

CNN,所述学生网络为基于ResNet34

FPN的Faster R

CNN。3.根据权利要求2所述的基于注意力区域选择的深度模型压缩方法,其特征在于,选择用于蒸馏的层为FPN的最高层。4.根据权利要求1所述的基于注意力区域选择的深度模型压缩方法,其特征在于,步骤2中所述注意力函数为:2中所述注意力函数为:定义一个卷积层,与该层相关的激活张量为其中F为相关层的激活函数,其输入的维度为(H,W,C),H,W表示特征图的宽度和高度,C表示通道的数量,输出为一张注意力图,大小为H
×
W,A
i
=A(i;:;:)为Matlab表示法,表示张量A的第i个通道,A
i
的维度为H
×
W,表示输入为激活张量A,上标p表示为p次方,下标sum表示求和。5.根据权利要求1所述的基于注意力区域选择的深度模型压缩方法,其特征在于,步骤3具体包括以下步骤:步骤3.1:得到预测框和真值框的IOU值,对于每一个预测框,计算其与每一个真值框的IOU值并添加到IOUs中;步骤3.2:取IOUs中最大的IOU,maxIou,并设置fai值为0.5;maxIou

MAX(IOUs)步骤3.3:过滤掉IOU值小于threshold=ma...

【专利技术属性】
技术研发人员:刘宁钟张佳钰
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1