【技术实现步骤摘要】
基于注意力机制的红外单帧小目标检测方法
[0001]本专利技术属于图像处理与计算机视觉
,特别涉及一种红外单帧小目标检测方法,可用于复杂背景下红外小目标的精确检测。
技术介绍
[0002]近年来,计算机视觉技术迅速发展,在各个领域得到了广泛应用。红外小目标检测作为计算机视觉技术的重要分支,由于红外传感器具有可全天候工作、抗干扰性能强、弹载方便等独特优势,使其在精确制导、武器制造、监控预警等方面有很高的应用价值。因此,红外小目标检测技术受到了世界各国专家学者的关注,成为了近年来的研究热点之一。
[0003]目前,红外小目标检测算法的关键问题是如何在具有复杂背景的红外图像中实现目标的准确定位和分割,提高检测率并降低虚警率。其主要检测算法分为传统的红外小目标检测算法和基于深度学习的红外小目标检测算法。
[0004]传统的红外小目标检测主要依赖于传统手工设计的特征进行检测,即将红外小目标建模为从背景中弹出的异常值,主要分为基于滤波器的方法、基于局部对比度的方法和基于低秩的方法,其中:
[0005]基于滤波器的方法,是直接从滤波后的图像中通过设定阈值进行目标分割,典型的方法如Deshpande等人在Max
‑
mean and max
‑
median filters for detection of small targets[C]//Signal and Data Processing of Small Targets 1999.International So ...
【技术保护点】
【技术特征摘要】
1.一种基于注意力机制的红外单帧小目标检测方法,其特征在于,包括如下步骤:(1)从公开的红外小目标数据集中选择一组带标注的数据集,并依次进行在0.7~1.7范围内的随机放缩、随机裁剪或零填充操作,得到尺寸统一为480
×
480的训练集和测试集数据集;(2)在Pytorch框架下构建多维度注意力感知网络MDA
‑
Net:(2a)建立由一个浅层通道注意力子模块、一个深层通道注意力子模块和一个逐点注意力子模块组成的编码端解码端交互引导模块EDIG;(2b)建立由非局部注意力模块与非局部特征融合模块连接组成的虚警注意模块AFF;(2c)选用现有的三个卷积操作单元、一个最大池化操作单元、两个上采样模块、十八个残差块构成一个八层编解码结构的主干网络;(2d)将两个(2a)中构建的EDIG模块、一个(2b)中构建的AFF模块嵌入到八层编解码结构的主干网络中,组成Pytorch框架下的多维度注意力感知网络,并将IoU Loss函数作为该网络的损失函数;(3)采用训练集及其标注信息通过梯度下降法对多维度注意力感知网络进行训练,得到训练好的多维度注意力感知网络;(4)将测试集输入到训练好的多维度注意力感知网络中,输出红外小目标检测结果。2.根据权利要求1所述的方法,其特征在于:步骤(2a)中建的立编码端解码端交互引导模块EDIG,其结构关系如下:将浅层通道注意力子模块和深层通道注意力子模块分别与逐点注意力子模块的浅层输入端口和深层输入端口对应连接,且该深层通道注意力子模块和浅层通道注意力子模块的输出结果再逐像素相乘后与逐点注意力子模块输出的结果进行相加,相加后的结果即为编码端解码端交互引导EDIG模块的输出结果;所述浅层通道注意力子模块和深层通道注意力子模块结构相同,两者均包括全局平均池化层、两个全连接层、ReLU激活函数层和sigmoid函数层;每个子模块的结构为:输入端口
→
全局平均池化层
→
第一全连接层
→
ReLU激活函数层
→
第二全连接层
→
sigmoid函数层,该sigmoid函数层的输出与该子模块原始输入特征相乘后,得到该子模块的输出结果;所述逐点注意力子模块包括两个逐点卷积层、ReLU激活函数层和sigmoid函数层;该模块有浅层和深层两个输入端口、一个输出端口,其结构为:来自浅层的输入端口
→
第一逐点卷积层
→
ReLU激活函数层
→
第二逐点卷积层
→
sigmoid函数层,该sigmoid函数层的输出与该子模块来自深层的输入特征相乘,得到该子模块的输出结果。3.根据权利要求1所述的方法,其特征在于:步骤(2b)的非局部注意力模块,由三条支路并行组成,每条支路的结构为:输入端口
→
卷积层
→
Reshape层,卷积核大小均为1*1,卷积步长均为1,其中:第1条支路的输出R1(f(X))与第2条支路的输出R2(f(X))相乘,得到第一矩阵:E(X)=R1(f(X))
·
R2(f(X)),式中,f(
·
)表示卷积操作,R(
·
)表示Reshape操作;第3条支路的输出R3(f(X))与第一矩阵E(X)相乘得到第二矩阵:D(X)=R3(f(X))
·
E(X);将第二矩阵D(X)经过一次卷积核大小为1*1、卷积步长为1的卷积层得到输出特征f(D(X)),该输出特征f(D(X))与非局部注意力模块的输入X逐像素相加,得到该模块的输出结
果:Y(X)=f(D(X))+X。4.根据权利要求1所述的方法,其特征在于:步骤(2b)的非局部特征融合模块,由三条支路并行组成,其中:第1条支路的结构为:深层输入端口
→
卷积层
→
Reshape层,该卷积层的卷积核大小为1*1,卷积步长均为1;第2条和第3条支路结构相同,其依次为:浅层输入端口
→
最大池化层
→
卷积层
→
Reshape层,该卷积层的卷积核大小为1*1,卷积步长均为1,最大池化层卷积核大小为1*1;第1条支路的输出R1(f(X
h
))与第2条支路的输出R2(f(MaxPool(X
l
)))相乘,得到矩阵:E(X
hl
)=R1(f(X
h
))
·
R2(f(MaxPool(X
l
))),式中,MaxPool(
·
)表示最大池化操作;第3条支路的输出R3(f(MaxPool(X
l
)))与...
【专利技术属性】
技术研发人员:王柯俨,吴雪岩,周培诚,杨丽鋆,张铭津,刘凯,李云松,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。