【技术实现步骤摘要】
基于残差收缩注意力网络的双模态目标检测模型及方法
[0001]本专利技术涉及计算机视觉和图像处理领域,尤其涉及一种基于残差收缩注意力网络的双模态目标检测模型及方法。
技术介绍
[0002]目标检测是计算机视觉领域的基本任务之一,在视频监控、行人识别和智能驾驶领域发挥着重要的作用。传统目标检测方法通常是通过不同尺寸的滑动窗口在图片上进行平移滑动,获取不同的候选区域,根据不同区域的视觉特征由传统机器学习中的分类器进行分类判断。但是基于滑动窗口的区域选择策略由人为设计,复杂度高,难以适应不同场景目标。随着深度学习的发展,卷积神经网络通过初始化卷积核对图像进行平移计算,获取相应的特征图,在训练过程的反向传播中对卷积核进行不断调整,从而更好的提取特征图,对不同场景目标适应性强,因此卷积神经网络框架迅速成为研究目标检测算法的主流方法。
[0003]目前,常用的目标检测算法主要用单模态图像作训练数据,但仅使用单模态图像在面对复杂场景时检测效果不佳。可见光相机获取的图像通常具有较高的空间分辨率和丰富的纹理细节,符合人类的视觉感知。然 ...
【技术保护点】
【技术特征摘要】
1.一种基于残差收缩注意力网络的双模态目标检测模型,其特征在于,包括:双流特征提取网络、双模态特征融合模块和多尺度路径聚合模块;所述双流特征提取模块,包括基于CSPDarknet的并行双流特征提取网络,将对齐的红外和可见光图像作为输入数据,提取双模态图像中目标的多尺度特征,并输出相应的特征图;所述双模态特征融合模块基于残差收缩注意力网络,将提取到的双模态的多尺度特征图进行目标特征自适应软阈值化去噪增强,经过融合后,得到目标特性更为显著的融合特征;所述多尺度路径聚合模块通过级联四个不同尺度的融合特征,结合位置注意力模块,得到聚合位置信息和语义信息的多尺度特征,并送入YOLO检测模块得到预测的目标信息。2.根据权利要求1所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:所述基于CSPDarknet的并行双流特征提取网络,提取红外和可见光图像深层次特征的两条路径除输入图像不同外,其余提取部分结构一致,由四个CSPResn残差模块组成,每个CSPResn残差模块由三个的网络最小组件CBS和n个BottleNeck残差块组合而成。3.根据权利要求2所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:所述网络最小组件CBS由卷积层、批归一化BN层和SiLU激活函数顺次连接组成;每个所述BottleNeck残差块由两个CBS组件和一个Add张量相加操作组成,每个CSPResn模块根据所包含的BottleNeck残差块的数量记为CSPRes1或CSPRes3。4.根据权利要求3所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:所述双流特征提取模块对小目标进行浅层特征提取,对大尺度目标进行深层特征提取,在每个CSPResn中输出相应尺度大小的特征图,根据输入图像的类别不同,将特征图分辨率由大到小分别记为可见光图像特征V1、V2、V3、V4,红外图像特征I1、I2、I3、I4。5.根据权利要求1所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:所述双模态特征融合模块包括并行的不同模态的残差收缩注意力模块,由残差注意力、软阈值函数、通道相加操作、残差连接操作组成;不同模态的图像分别由各自路径下的残差注意力学习得到对应模态图像目标的阈值,使用不同的阈值进行软阈值化操作,自适应地去除不同模态图像的无关噪声和冗余特征,得到各自模态下聚焦目标特性的特征图,具体计算公式如下:X
O
=soft(RA(X
I
),X
I
)+X
I
其中,X
I
表示输入特征,X
O
表示输出特征,RA(
·
)表示残差注意力,soft(
·
)表示软阈值函数,其中残差注意力RA由一个全局平均池化操作、两个1
×
1卷积、RELU激活函数、Sigmoid函数、残差连接操作和通道相乘操作组成,具体计算公式如下:X'=GAP(X
I
)X
O
=Sigmoid(f1×1(RELU(f1×1(X'))))
·
X'其中,GAP(
·
)表示全局平均池化操作,f1×1(
·
)表示1
×
1卷积,RELU(
·
)表示RELU激活函数,Sigmoid(
·
)表示Sigmoid函数。6.根据权利要求5所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。