当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于协调注意力深度神经网络的菊头蝠识别方法技术

技术编号:34510525 阅读:14 留言:0更新日期:2022-08-13 20:56
本发明专利技术公开了一种基于协调注意力深度神经网络的菊头蝠识别方法,涉及动物学图像识别技术领域。获取菊头蝠正脸及侧脸图像作为数据集;将数据集划分为训练集和测试集;对训练数据集图像进行预处理及数据增强;构建EfficientNet

【技术实现步骤摘要】
一种基于协调注意力深度神经网络的菊头蝠识别方法


[0001]本专利技术涉及动物学图像识别
,具体为一种基于协调注意力深度 神经网络的菊头蝠识别方法。

技术介绍

[0002]通过人工标注关键特征信息的强监督学习方法可以使传统的图像分类模 型在细粒度图像分类任务中达到不错的识别精度,但是需要动物学专家对大 量的图像数据进行人工标注,消耗大量的时间成本,难以实现。
[0003]随着计算机视觉领域的发展,人们发现视觉注意力机制是人类视觉所特 有的大脑信号处理机制。人类视觉可以通过快速扫描全局图像,获得需要重 点关注的目标区域,因此注意力机制便出现了,以SENet和CBAM为例的注意 力机制在一定程度上代替了人工标注关键特征信息的工作。然而,SENet只考 虑编码通道间信息,而忽略了位置信息的重要性;虽然后来出现的CBAM尝试 通过减少输入张量的通道维数,然后利用卷积计算空间注意,来获取位置信 息,但是卷积计算只能获取局部位置信息,无法建立起全局依赖关系。而称 为协调注意力的Coordinate Attention模块正解决了这一问题。
[0004]利用EfficientNet

B0的高精度与高速率,并结合Coordinate Attention 机制,可以很好地胜任细粒度图像分类任务中的菊头蝠识别任务。该方法可 以为其他动物不同物种间的分类和模型改进思路提供参考。
[0005][0006]
技术实现思路

[0007](一)解决的技术问题
[0008]针对现有技术的不足,本专利技术提供了一种基于协调注意力深度神经网络 的菊头蝠识别方法,具备较高的识别精度等优点,解决了目前菊头蝠识别分 类技术中的空白的问题。
[0009](二)技术方案
[0010]为实现上述目前菊头蝠识别分类技术中的空白的目的,本专利技术提供如下 技术方案:一种基于协调注意力深度神经网络的菊头蝠识别方法,其特征在 于,包括以下步骤:
[0011]S1、获取数据集
[0012]获取菊头蝠正脸及侧脸图像作为数据集,所述数据集为动物学专家小组 在云南、江西等全国各地山区拍摄的高清图像,并经过翼手目动物学专家进 行严密的分类所得。
[0013]S2、归纳数据集图像
[0014]按3:1的比例将数据集随机划分为训练集和测试集,最终训练集图像的 数量为694张,每个菊头蝠类别约有85张图像,对训练集图像进行数据增强, 包括但不限于随机旋转、裁剪、翻转,改变透明度、亮度,随机删除。
[0015]S3、建立模型
[0016]图像分类模型基于EfficientNet

B0进行改进,模型包括Stage1到 Stage9共18个阶段,其中Stage1为一个3
×
3的卷积操作;将 EfficientNet

B0的核心模块移动翻转瓶颈卷积模块MBConv中的 Squeeze

and

Excitation(挤压与激励)模块替换为协调注意力模块 Coordinate Attention,称为CA层,因此Stage2到Stage8均为重复堆叠的 MBConv

CA模块,所述MBConv

CA模块包括卷积层、CA层(CoordinateAttention模块)和Dropout层,卷积层中不同的卷积核决定了Stage2到 Stage8可以是一个或多个堆叠的相同或不同的MBConv

CA模块,堆叠结构基 于EfficientNet

B0,不进行更改;Stage9为一个1
×
1的卷积操作、池化层 和全连接层,通过Softmax函数得到图像所属类别的概率。
[0017]S4、图像训练
[0018]对EfficientNet

CA图像分类模型进行预训练,具体采用ImageNet上的 动物数据集对EfficientNet

CA进行训练,得到预训练模型,并将预训练模 型的全连接层输出类别更改为8类,再将训练集图像输入经预训练后的 EfficientNet

CA图像分类模型进行学习训练,利用反向传播迭代更新图像分 类模型各层权重。
[0019]S5、图像分类
[0020]将测试集图像输入到训练好的EfficientNet

CA图像分类模型,输出该 图像在某一类别的概率,概率值最大的输出节点所属的类别即为该图像的预 测类别。
[0021]优选的,所述S1、步骤中,所述图像数据集中的图像为RGB彩色图像, 包括大耳菊头蝠、大菊头蝠、马铁菊头蝠、皮氏菊头蝠、清迈菊头蝠、小菊 头蝠、中华菊头蝠和中菊头蝠8种不同的菊头蝠图像。
[0022]优选的,所述S2、步骤中,统一所有数据集图像的尺寸为224
×
224,由 于菊头蝠的主要特征信息集中在脸部,因此需要通过人工筛选方法筛选出菊 头蝠的正脸与侧脸图像。
[0023]优选的,所述S3、步骤中,所述协调注意力CA层首先对输入特征图的空 间信息进行全局编码,设输入特征图像的形状为C
×
H
×
W,使用全局池化分别 沿垂直和水平方向将输入特征图进行全局编码:
[0024][0025][0026]其中,W和H分别表示输入特征图的宽度和高度,表示在通道c特征图 的第h行对应的全局平均池化输出,表示在通道c特征图的第w列对应的全局 平均池化输出,表示在通道c特征图的第h行第i列的元素值,表示在通道 c特征图的第j行第w列的元素值;
[0027]所述全局编码可将输入特征编码成形状分别为C
×
H
×
1和C
×1×
W的两个 特征映射块,所述特征映射块分别包含垂直和水平方向上的位置信息,为保 持形状一致,方便后续计算,将形状为C
×1×
W的特征映射块进行维度转换, 转换成C
×
W
×
1的特征映射块,将两个特征映射块在H方向上进行聚合,得到 C
×
(H+W)
×
1的特征映射图,并进行1
×
1降维卷
积,其中缩放因子为r,输 出通道数为:
[0028]C

=C/mip
[0029]mip=max(8,C//r)
[0030]降维后的特征映射图的形状为C/r
×
(H+W)
×
1,称为特征映射图1,将所 得特征映射图1输入到BN层后,再将BN层所得输出输入到非线性层,得到 输出特征映射图2;
[0031]所述非线性层由下式表示:
[0032]y=x*Sigmoid(x)
[0033][0034]其中,x表示输入映射图,y表示输出映射图;
[0035本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于协调注意力深度神经网络的菊头蝠识别方法,其特征在于,包括以下步骤:S1、获取数据集获取菊头蝠正脸及侧脸图像作为数据集,所述数据集为翼手目动物学专家小组在云南、江西等全国各地山区拍摄的高清图像,并经过翼手目动物学专家进行严密的分类所得。S2、归纳数据集图像按3:1的比例将数据集随机划分为训练集和测试集,最终训练集图像的数量为694张,每个菊头蝠类别约有85张图像,对训练集图像进行数据增强,包括但不限于随机旋转、裁剪、翻转,改变透明度、亮度,随机删除。S3、建立模型图像分类模型基于EfficientNet

B0进行改进,模型包括Stage1到Stage9共18个阶段,其中Stage1为一个3
×
3的卷积操作;将EfficientNet

B0的核心模块移动翻转瓶颈卷积模块MBConv中的Squeeze

and

Excitation(挤压与激励)模块替换为协调注意力模块Coordinate Attention,称为CA层,因此Stage2到Stage8均为重复堆叠的MBConv

CA模块,所述MBConv

CA模块包括卷积层、CA层(Coordinate Attention模块)和Dropout层,卷积层中不同的卷积核决定了Stage2到Stage8可以是一个或多个堆叠的相同或不同的MBConv

CA模块,堆叠结构基于EfficientNet

B0,不进行更改;Stage9为一个1
×
1的卷积操作、池化层和全连接层,通过Softmax函数得到图像所属类别的概率。S4、图像训练对EfficientNet

CA图像分类模型进行预训练,具体采用ImageNet上的动物数据集对EfficientNet

CA进行训练,得到预训练模型,并将预训练模型的全连接层输出类别更改为8类,再将训练集图像输入经预训练后的EfficientNet

CA图像分类模型进行学习训练,利用反向传播迭代更新图像分类模型各层权重。S5、图像分类将测试集图像输入到训练好的EfficientNet

CA图像分类模型,输出该图像在某一类别的概率,概率值最大的输出节点所属的类别即为该图像的预测类别。2.根据权利要求1所述的一种基于协调注意力深度神经网络的菊头蝠识别方法,其特征在于,所述S1、步骤中,所述图像数据集中的图像为RGB彩色图像,包括大耳菊头蝠、大菊头蝠、马铁菊头蝠、皮氏菊头蝠、清迈菊头蝠、小菊头蝠、中华菊头蝠和中菊头蝠8种不同的菊头蝠图像。3.根据权利要求1所述的一种基于协调注意力深度神经网络的菊头蝠识别方法,其特征在于,所述S2、步骤中,统一所有数据集图像的尺寸为224
×
224,由于菊头蝠的主要特征信息集中在脸部,因此需要通过人工筛选方法筛选出菊头蝠的正脸与侧脸图像。4.根据权利要求1所述的一种基于协调注意力深度神经网络的菊头蝠识别方法,其特征在于,所述S3、步骤中,所述协调注意力CA层(Coordinate Attention模块)具体如下,首先对输入特征图的空间信息进行全局编码,设输入特征图像的形状为C
×

【专利技术属性】
技术研发人员:曹忠李楚宪余文华尚文利赵文静
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1