面向多模态行人检测YOLO模型的跨模态上下文注意力主干网络的构建方法技术

技术编号：37089839 阅读：53 留言：0更新日期：2023-03-29 20:04

本发明专利技术公开了一种面向多模态行人检测YOLO模型的跨模态上下文注意力主干网络的构建方法。该主干网络由四个部分组成：RGB、FIR分支网络(CSPDarknet)、跨模态上下文注意力模型(CCAM)、分支注意力模型(CBAM)与特征融合模型组成。跨模态上下文注意力模型CCAM利用下层RGB、FIR各通道的特征融合结果对上层RGB、FIR各通道的特征做空间上的权重优化，实现相邻不同尺度特征之间的上下文跨模态互补。采用本发明专利技术方法，可有效优化现有RGB

全部详细技术资料下载

【技术实现步骤摘要】
面向多模态行人检测YOLO模型的跨模态上下文注意力主干网络的构建方法

[0001]本专利技术属于深度学习目标检测领域，具体为一种面向多模态行人检测YOLO模型的跨模态上下文注意力主干网络的构建方法。
技术背景
[0002]目标检测是实现目标跟踪、识别和分类等其他任务的基础，在计算机视觉领域占据着重要地位。行人检测作为其主要分支，受到越来越多学者的关注，尤其是近年来无人驾驶行业的快速发展，检测精度的提升更是成为领域研究热点。气候和光照条件的变化会严重影响检测的准确性，如何提高检测模型在不同光照条件下的鲁棒性是一个亟待解决的问题。远红外图像穿透力强，作用距离远，且不受光照条件影响，缺点是图像模糊，空间分辨率较低，而可见光图像在这些方面可与其形成互补。因此，近年来涌现出了许多基于远红外和可见光多模态融合的目标检测算法。Xue等2021年在Infrared Physics and Technology期刊中提出MAF
‑
YOLO，对RGB、FIR分支Darknet53主干网络中三个节点的输出特征利用MAF模型进行融合。类似地，孙俊2021年在“一种基于改进YOLO模型的多模态行人检测方法”专利申请中，提出了加权特征融合层和CBAM注意力机制(MAM+CBAM)，对RGB、FIR分支Darknet53主干网络中三个节点的输出特征进行融合。
[0003]经过上述分析可知，现有行人检测的RGB
‑
FIR多模态YOLO模型均着眼于如何融合RGB、FIR分支主干网络的各尺度输出特征后的融合方

【技术保护点】

【技术特征摘要】
1.一种面向多模态行人检测YOLO模型的跨模态上下文注意力主干网络的构建方法，其特征在于：包括如下步骤：步骤1)以RGB、FIR各分支CSPDarknet网络中Resblockbady(i)节点输出的多模态特征为输入，构建跨模态上下文注意力模型CCAM，面向各分支Resblockbady(i+1)节点输出特征，按通道分配CCAM输出的空间注意力权重矩阵，通过矩阵元素相乘，获取上下文注意力优化后的Resblockbady(i+1)节点的1次优化特征；步骤2)利用CBAM注意力模型，将步骤1)获取的各分支Resblockbady(i+1)的1次优化特征再次进行通道与空间上的优化，获取各分支Resblockbady(i+1)的2次优化特征；步骤3)将步骤2)中获取各分支Resblockbady(i+1)的2次优化特征作为输入，构建特征融合模型，获取Resblockbady(i+1)节点的RGB
‑
FIR多模态融合特征；步骤4)按照步骤1)、步骤2)、步骤3)定义的结构与操作，利用跨模态上下文注意力模型连结RGB、FIR分支CSPDarknet网络，构建RGB
‑
FIR跨模态上下文注意力主干网络模型CCAM，分别在Resblockbady2、Resblockbady3、Resblockbady4节点上获取不同尺度的RGB
‑
FIR多模态融合特征。2.根据权利要求1所述的一种面向多模态行人检测YOLO模型的跨模态上下文注意力主干网络的构建方法，其特征在于：所述的步骤1)中，以RGB、FIR各分支CSPDarknet网络中Resblockbady(i)节点输出的多模态特征为输入，构建跨模态上下文注意力模型CCAM，面向各分支Resblockbady(i+1)节点输出特征，按通道分配CCAM输出的空间注意力权重矩阵，通过矩阵元素相乘，获取上下文注意力优化后的Resblockbady(i+1)节点的1次优化特征，具体步骤如下：本发明提出的跨模态上下文注意力模型(CCAM)由四个模块组成：特征通道扩展模块、通道特征融合模块、特征下采样模块、空间权重生成模块；步骤1
‑
1：利用特征通道扩展模块将RGB和FIR分支CSPDarknet网络中Resblockbady(i)节点的原始输出特征进行通道扩展，使之与Resblockbady(i+1)节点的原始输出特征通道数相同，具体方法如下：设RGB和FIR分支CSPDarknet网络中Resblockbady(i)节点的原始输出特征分别为：和其中c、h、w分别是特征通道数、特征的高和宽，构建2D卷积操作算子F
2Dconv
，分别将和的通道数扩充为原来的两倍，得到扩充后特征的通道数扩充为原来的两倍，得到扩充后特征和计算公式如下：计算公式如下：式中，代表通道扩充后的可见光RGB特征矩阵，代表通道扩充后的远红外FIR特征矩阵；步骤1
‑
2：利用通道特征融合模块将步骤1
‑
1通道扩展后的分支特征进行融合，步骤如下：步骤1
‑2‑
1：利用sigmoid激活函数F
sigmoid
，将远红外通道扩展特征按通道逐一进行
归一化，获取空间重要性权重值计算公式如下：式中，代表通道j的空间重要性权重矩阵；步骤1
‑2‑
2：利用哈达玛积运算，将FIR特征空间重要性权重值与RGB通道扩展特征按通道进行元素相乘，获取融合特征计算公式如下：式中，代表通道j的融合特征矩阵，为哈达玛积运算；步骤1
‑2‑
3：在特征下采样模块中，构建2
×
2最大池化算子F
MP
，对融合特征进行局部最大池化，使得输出特征图下降为原特征图分辨率的1/2，获取与Resblockbady(i+1)节点原始输出特征分辨率相同的特征，具体计算公式如下：式中，代表通道j的下采样后融合特征矩阵；步骤1
‑2‑
4：在空间权重生成模块中，利用sigmoid激活函数F
sigmoid
，将下采样融合特征按通道进行归一化，生成跨模态上下文融合特征空间重要性权重矩阵具体计算公式如下：式中，代表通道j的跨模态上下文融合特征空间重要性权重矩阵；步骤1
‑2‑

【专利技术属性】
技术研发人员：王晗，刘佳丽，包银鑫，施佺，
申请(专利权)人：南通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人