基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及系统技术方案

技术编号:37119697 阅读:18 留言:0更新日期:2023-04-01 05:14
本发明专利技术公开了基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及系统,属于计算机视觉技术领域,包括以下步骤:(1)获取鸟类数据集;(2)基于注意力引导实现数据增强,并训练教师模型;(3)基于解耦知识蒸馏压缩鸟类分类模型,实现教师模型和学生模型同时数据增强;(4)基于目标定位再识别的思想,预测阶段将目标图像输入最终的轻量级分类模型,获得最终鸟类细粒度分类结果。本发明专利技术应用于鸟类细粒度分类中,基于注意力引导实现数据增强,弥补了鸟类数据集不充足的问题;基于解耦知识蒸馏实现了鸟类分类模型的高效压缩,并在此基础上实现教师模型和学生模型同时数据增强的方法,再次提升学生模型的预测精度,获得高准确率的轻量级鸟类分类模型。分类模型。分类模型。

【技术实现步骤摘要】
基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及系统


[0001]本专利技术涉及计算机视觉
,尤其涉及知识蒸馏和鸟类细粒度图像分类技术,具体涉及一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及系统。

技术介绍

[0002]鸟类对于维持生态系统平衡至关重要,其群落组成和种类分布成为检测大自然环境变化的重要指标。环境学家经常利用鸟类对环境变化的敏感来监测生态系统,且大多数生态应用都依赖于鸟类,例如环境污染检测、生物多样性检测、气候变化检测和濒危鸟类救援等。近年来,对鸟类的识别主要包括专家识别、雷达识别和声音识别。专家识别虽然保证了识别的精确度,但人力、时间成本较高;雷达识别通过自动识别降低了人工成本,但并不能保证较高的精准度;声音识别精准度较高但容易受到识别区域和周围噪音的影响。目前图像采集技术已经日趋成熟,深度学习技术也在不断发展,鸟类图像分类模型的研究实现了自动化监测,不仅在保证监测准确度的前提下降低了人力成本,并且为生态环境监测领域提供强有力的技术支撑。
[0003]鸟类识别属于细粒度分类,是对鸟类的子类进行分类,即精确到“种”的识别。由于同一类别的鸟类通常呈现不同的姿势和视角,不同类别之间存在细微差别,这使分类任务极具挑战,仅依靠当前先进的粗粒度卷积神经网络(CNN),如VGG、ResNet和Inception很难获得准确的分类结果。细粒度图像分类的关键步骤是提取目标中更具鉴别性的局部精细特征。在早期研究中,通常依赖于目标位置或属性的注释来关注图像的局部特征,属于强监督方法。这类方法在进行模型训练时,不仅需要图像的类别标签,还需要额外的目标重要区域标注。强监督方法虽然识别效果更加准确,但识别效率低,且前期对图像标注开销大。基于弱监督的细粒度图像分类方法成为了近几年基于深度学习的研究趋势。近年来,循环注意卷积网络模型RA

CNN和精细特征提取模型NTS

Net被提出。其中,RA

CNN模型是依靠循环预测一个注意区域的位置并提取相应的特征;而后者则将特征金字塔网络FPN引入细粒度分类任务,使模型对目标的三个区域进行定位。以上方法均对目标部分区域进行定位,限制了模型对目标区域全部精细特征的学习。
[0004]知识蒸馏最早提出是通过最小化教师和学生logit之间的差异来传递知识,是一种新兴的压缩模型的方法。但目前的logit蒸馏直接使用KL散度函数计算教师和学生logit之间的差异大小,由于KL散度函数高度耦合,抑制了非目标类之间的差异对总差异值的贡献,极大的限制了logit蒸馏效果。
[0005]综上,开发高准确率的轻量级鸟类分类模型,实现自动化鸟类监测,具有重要的研究价值。

技术实现思路

[0006]针对现有方法的不足之处,本专利技术提供一种基于注意力和解耦知识蒸馏的鸟类细粒度分类的方法及系统。该方法提出一种基于注意力引导的数据增强方法,利用图像注意
力图获取目标和局部区域图像,提高训练的数据集质量,并在此基础上实现了基于区域定位再识别的细粒度分类方法;基于解耦知识蒸馏技术,实现了鸟类分类模型的高效压缩,训练出既能满足预测精度也能嵌入移动端使用的学生模型。除此之外,在知识蒸馏过程中本方法还实现了教师模型和学生模型同时实现数据增强的方法,在知识蒸馏的基础上再次提升学生模型的预测精度,最终得以快速获得鸟类细粒度分类。
[0007]为了达到上述技术目的,本专利技术采用的技术方案为:
[0008]一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法,包括:
[0009]步骤1根据预设方式获取鸟类数据集;
[0010]步骤2将步骤1中获取的数据集输入教师模型,使用DenseNet121深度卷积网络作为特征提取器,基于注意力引导实现数据增强,获得目标图像和局部区域图像,输入教师模型并将损失值最小的教师模型作为训练好的教师模型;
[0011]步骤3将步骤1中获得的数据集和步骤2教师模型输出的目标图像和局部区域图像输入学生模型,所述学生模型采用轻量级的卷积网络ShuffleNetV2作为特征提取器,基于解耦logit蒸馏,实现鸟类细粒度分类模型压缩,实现教师模型和学生模型同时数据增强的方法;
[0012]步骤4基于目标定位再识别的思想,预测阶段将目标图像输入最终的轻量级分类模型,获得最终鸟类细粒度分类结果。
[0013]进一步的,步骤2采用的注意力引导增强数据的方法,包括两种,一种是裁剪目标图像进行增强,一种是裁剪局部区域图像数据增强。
[0014]步骤2.1.1通过通道叠加原图特征图得到原图注意力图A,注意力图A的计算公式为:
[0015][0016]式中使用F∈R
C
×
H
×
W
表示卷积神经网络模型的最后一个卷积层输出的具有C个信道和空间大小为H
×
W的特征图集,f
i
是特征图集的第i个特征图,A为所有特征图每个通道对应位置相加得到的通道为1、大小为H
×
W的注意力图。
[0017]步骤2.1.2根据步骤2.1.1中得到的原图注意力图中能直观观察到关键部分的所在区域,下一步需要计算目标像素值大小的阈值阈值的计算公式为:
[0018][0019]步骤2.1.3根据步骤2.1.2中得到的阈值判断注意力图A每个像素点是否是目标的一部分,使用该方式定位到目标的全部区域生成大小为H
×
W的目标位置掩膜,掩膜计算公式为:
[0020][0021]根据上式得到掩膜图,受图像背景和噪音的影响,该图中存在多个连通面积,取最大连通面积的最小边界框作为目标的定位框,对应至原图中作为目标图像,并缩放至合适
大小。
[0022]步骤2.1.4进行局部区域图像的裁剪,利用卷积输出特征图的特性,计算目标图像的注意力图A2:
[0023][0024]该式中f为目标图像生成的特征图。
[0025]步骤2.1.5根据步骤2.1.4中获得的多个目标重要区域,使用滑动窗口的方式框选出多个目标重要局部区域,计算窗口所有像素点的注意力值的平均值,窗口注意力平均值计算公式为:
[0026][0027]式中,H
w
和W
w
为窗口的高度和宽度,A
w
为注意力图中窗口区域。其中,的大小与区域的信息量成正比,越大,代表这部分区域的信息量越大。把窗口对应至目标图像中,裁剪出局部区域图像,实现了数据增强。
[0028]进一步的,步骤2中教师模型的训练使用交叉熵损失函数计算预测损失,具体分为以下三步:
[0029]步骤2.2.1使用原始图像对模型进行训练,原始图像经过特征提取器得到原始图像特征图,原始图像特征图经过全局池化输入全连接层(fc),计算原始图像预测损失L
ram

[0030]步骤2.2.2基于原始图像特征图,实现裁剪目标图像数据增强方法得到目标图像,目标图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法,其特征在于,包括以下步骤:(1)根据预设方式获取鸟类数据集;(2)将步骤(1)中获取的数据集输入教师模型,使用DenseNet121深度卷积网络作为特征提取器,基于注意力引导实现数据增强,获得目标图像和局部区域图像,输入教师模型并将损失值最小的教师模型作为训练好的教师模型;(3)将步骤(1)中获得的数据集和步骤(2)教师模型输出的目标图像和局部区域图像输入学生模型,所述学生模型采用轻量级的卷积网络ShuffleNetV2作为特征提取器,基于解耦知识蒸馏,实现鸟类细粒度分类模型压缩,实现教师模型和学生模型同时数据增强的方法;(4)基于目标定位再识别的思想,预测阶段将目标图像输入最终的轻量级分类模型,获得最终鸟类细粒度分类结果。2.根据权利要求1所述的一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法,其特征在于,所述步骤(2)中注意力引导的数据增强方法,具体包括:(2.1.1)通过提取原图特征图中的目标位置信息生成注意力图A,注意力图A的计算公式为:(2.1.2)将注意力图A中像素值较高的区域作为目标区域,通过计算计算目标像素值大小的阈值阈值的计算公式为:(2.1.3)使用阈值判断注意力图A中每个像素点是否为目标的一部分,并生成H
×
W的目标位置掩膜,掩膜计算公式如下:在掩膜图中使用最大连通面积的最小边界作为目标图像;(2.1.4)通过目标图像的特征图,计算目标图像的注意力图A2,注意力图A2计算公式如下:该式中f为目标图像生成的特征图;(2.1.5)使用滑动窗口的方式在注意力图A2框选目标重要区域,计算窗口中所有像素低点的平均值,窗口注意力平均值计算公式如下:
式中,H
w
和W
w
为窗口的高度和宽度,A
w
为注意力图中窗口区域。其中,的大小与区域的信息量成正比,越大,代表这部分区域的信息量越大。把窗口对应至目标图像中,裁剪出局部区域图像,实现了数据增强。3.根据权利要求1所述的一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法,其特征在于,所述步骤(2)中教师模型的训练具体包括:(2.2.1)使用原始图像经过DenseNet121特征提取,得到原始图像特征图,原始图像特征图经过全局池化输入全连接层(fc),计算原始图像预测损失L
raw
;(2.2.2)基于原始图像特征图实现数据增强得到目标图像,并将目标图像放缩至合适大小输入教师模型,得到目标图像特征图和目标图像预测损失L
object
。(2.2.3)基于目标图像进行裁剪并通过滑动窗口的方式获得多个局部区域图像,并输入模型,计算局部区域图像预测损失L
parts
;以上预测损失计算公式如下:L
raw


log(P
r
(c))L
object


log(P
o
(c))其中,c是图像的真实标签,Pr是原始图像输出类别概率,Po是目标图像输出类别概率,Pp(n)是局部区域图像输出类别概率,其中n是局部区域图像的数量。总的损失值为三个损失值相加,总损失计算方法为:L
total
=L
raw
+L
object
+L
parts
4.根据权利要求1所述的一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法,其特征在于,所述步骤(3)中学生模型的训练中,将图像分别输入教师模型和学生模型,对学生模型的预测输出分别使用交叉熵损失计算预测损失...

【专利技术属性】
技术研发人员:陈志泊杨锋张颖王康陈伊鑫
申请(专利权)人:北京林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1