【技术实现步骤摘要】
基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及系统
[0001]本专利技术涉及计算机视觉
,尤其涉及知识蒸馏和鸟类细粒度图像分类技术,具体涉及一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及系统。
技术介绍
[0002]鸟类对于维持生态系统平衡至关重要,其群落组成和种类分布成为检测大自然环境变化的重要指标。环境学家经常利用鸟类对环境变化的敏感来监测生态系统,且大多数生态应用都依赖于鸟类,例如环境污染检测、生物多样性检测、气候变化检测和濒危鸟类救援等。近年来,对鸟类的识别主要包括专家识别、雷达识别和声音识别。专家识别虽然保证了识别的精确度,但人力、时间成本较高;雷达识别通过自动识别降低了人工成本,但并不能保证较高的精准度;声音识别精准度较高但容易受到识别区域和周围噪音的影响。目前图像采集技术已经日趋成熟,深度学习技术也在不断发展,鸟类图像分类模型的研究实现了自动化监测,不仅在保证监测准确度的前提下降低了人力成本,并且为生态环境监测领域提供强有力的技术支撑。
[0003]鸟类识别属于细粒度分类,是对鸟类的子类进行分类,即精确到“种”的识别。由于同一类别的鸟类通常呈现不同的姿势和视角,不同类别之间存在细微差别,这使分类任务极具挑战,仅依靠当前先进的粗粒度卷积神经网络(CNN),如VGG、ResNet和Inception很难获得准确的分类结果。细粒度图像分类的关键步骤是提取目标中更具鉴别性的局部精细特征。在早期研究中,通常依赖于目标位置或属性的注释来关注图像的局部特征,属于强监督方法。这类方法在进行模型训练时 ...
【技术保护点】
【技术特征摘要】
1.一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法,其特征在于,包括以下步骤:(1)根据预设方式获取鸟类数据集;(2)将步骤(1)中获取的数据集输入教师模型,使用DenseNet121深度卷积网络作为特征提取器,基于注意力引导实现数据增强,获得目标图像和局部区域图像,输入教师模型并将损失值最小的教师模型作为训练好的教师模型;(3)将步骤(1)中获得的数据集和步骤(2)教师模型输出的目标图像和局部区域图像输入学生模型,所述学生模型采用轻量级的卷积网络ShuffleNetV2作为特征提取器,基于解耦知识蒸馏,实现鸟类细粒度分类模型压缩,实现教师模型和学生模型同时数据增强的方法;(4)基于目标定位再识别的思想,预测阶段将目标图像输入最终的轻量级分类模型,获得最终鸟类细粒度分类结果。2.根据权利要求1所述的一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法,其特征在于,所述步骤(2)中注意力引导的数据增强方法,具体包括:(2.1.1)通过提取原图特征图中的目标位置信息生成注意力图A,注意力图A的计算公式为:(2.1.2)将注意力图A中像素值较高的区域作为目标区域,通过计算计算目标像素值大小的阈值阈值的计算公式为:(2.1.3)使用阈值判断注意力图A中每个像素点是否为目标的一部分,并生成H
×
W的目标位置掩膜,掩膜计算公式如下:在掩膜图中使用最大连通面积的最小边界作为目标图像;(2.1.4)通过目标图像的特征图,计算目标图像的注意力图A2,注意力图A2计算公式如下:该式中f为目标图像生成的特征图;(2.1.5)使用滑动窗口的方式在注意力图A2框选目标重要区域,计算窗口中所有像素低点的平均值,窗口注意力平均值计算公式如下:
式中,H
w
和W
w
为窗口的高度和宽度,A
w
为注意力图中窗口区域。其中,的大小与区域的信息量成正比,越大,代表这部分区域的信息量越大。把窗口对应至目标图像中,裁剪出局部区域图像,实现了数据增强。3.根据权利要求1所述的一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法,其特征在于,所述步骤(2)中教师模型的训练具体包括:(2.2.1)使用原始图像经过DenseNet121特征提取,得到原始图像特征图,原始图像特征图经过全局池化输入全连接层(fc),计算原始图像预测损失L
raw
;(2.2.2)基于原始图像特征图实现数据增强得到目标图像,并将目标图像放缩至合适大小输入教师模型,得到目标图像特征图和目标图像预测损失L
object
。(2.2.3)基于目标图像进行裁剪并通过滑动窗口的方式获得多个局部区域图像,并输入模型,计算局部区域图像预测损失L
parts
;以上预测损失计算公式如下:L
raw
=
‑
log(P
r
(c))L
object
=
‑
log(P
o
(c))其中,c是图像的真实标签,Pr是原始图像输出类别概率,Po是目标图像输出类别概率,Pp(n)是局部区域图像输出类别概率,其中n是局部区域图像的数量。总的损失值为三个损失值相加,总损失计算方法为:L
total
=L
raw
+L
object
+L
parts
4.根据权利要求1所述的一种基于注意力和解耦知识蒸馏的鸟类细粒度分类方法,其特征在于,所述步骤(3)中学生模型的训练中,将图像分别输入教师模型和学生模型,对学生模型的预测输出分别使用交叉熵损失计算预测损失...
【专利技术属性】
技术研发人员:陈志泊,杨锋,张颖,王康,陈伊鑫,
申请(专利权)人:北京林业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。