【技术实现步骤摘要】
一种用于复杂场景下的多模态目标检测方法
[0001]本专利技术属于计算机视觉与模式识别领域,具体涉及一种用于复杂场景下的多模态目标检测方法。
技术介绍
[0002]目标检测是计算机视觉与模式识别的主要技术之一,是智能化、信息化的重要技术手段,在遥感目标识别、自动驾驶和工业自动化领域都发挥着重要作用。然而,单一模态下的图像信息存在诸多不足,容易受限于低光照度、遮挡这些环境因素影响,导致检测结果不够稳定可靠。以可见光为例,由于其成像方法的特性,在低光照度的情况下捕获的特征缺乏足够的细节,前景和背景之间的轮廓边界模糊,导致检测方法难以准确定位和识别出目标。因此,越来越多的研究者关注多模态目标检测技术,使用多传感器获取多模态信息来提升目标检测模型的识别精度。
[0003]Hwang等在2015年的CVPR上发表一篇关于多模态的数据集,该数据集以行人检测为背景,提供可见光和红外两种模态对齐的图像,取名为Kai st,从此开启了多模态目标检测领域的大门。Zhang等学者基于此数据集提出了名为CIAN方法,在跨模态交互注意力的引导 ...
【技术保护点】
【技术特征摘要】
1.一种用于复杂场景下的多模态目标检测方法,其特征在于,包括以下步骤:(S1)、使用红外和可见光两种不同模态相机在复杂场景对检测目标主体进行拍照采集图像对,并将拍摄到的图像放入图像集A中;(S2)、使用图像配准算法对图像集A中的图像对进行配准,得到配准后的图像集B;(S3)、将图像集B中的每对图像放入标注软件进行目标类别和位置信息的标注得到图像集C,再将图像集C中任意选择图像对按照8:2划分训练图像集D和测试图像E;(S4)、基于YOLOv5框架搭建双流目标检测网络,并基于注意力机制搭建跨模态特征融合模块;(S5)、将图像集D输入到基于YOLOv5框架的双流目标检测网络中进行训练和优化,得到训练后的最优权重文件;(S6)、将训练好的权重文件载入到双流检测网络,并将图像集E放入网络进行测试,得到带有检测框和置信度的图像对。2.根据权利要求1所述的用于复杂场景下多模态目标检测方法,其特征在于,在步骤(S1)中,所述的复杂场景包括但不限于低光照度、雾霾、遮挡和伪装。3.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法,其特征在于,在步骤(S2)中,使用图像配准算法对齐错位的图像对,使跨模态图像对中的目标位置保持一致。4.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法,其特征在于,在步骤(S3)中,对配准后其中一个模态的图像集Before中的目标进行位置和类别标注。将标注后的图像集After随机分配获得训练集和测试集,最后将标签文件转化为适合YOLO训练的txt格式文件。5.根据权利要求1所述一种用于复杂场景下的多模态目标检测方法,其特征在于,在步骤(S4)中,双流检测网络的构建包括以下步骤:(S4
‑
1)、使用CSPDarkNet网络搭建两个并行的主干网络分别用于提取红外图像和可见光图像的多尺度特征信息,网络下采样通道数分别为64、128、256、512与1024。在两个并行主干网络深层次512通道数处即第四阶段后,将此层的特征沿着通道维度进行拼接以用于融合深层次的语义和特征信息,为了减少模型参数量,使用1
×
1大小的卷积运算将拼接后1024通道数再次压缩为512,并使用卷积进一步下采样,并将通道数拓展为1024;(S4
‑
2)、基于注意力机制和中间融合策略搭建跨模态特征融合模块,既保留了模态的原始特征,又可根据差异特征进行补偿,充分结合交叉模态的互补性来产生鲁棒性特征解决跨模态间的特征不平衡问题,为提升融合效率,模块被多次插入到双流主干网络的不同阶段;(S4
‑
3)、将融合跨模态差异特征的特征图以相加的方式融入到双流主干网络中,增强主干网络中的特征图,同时将增强后不同尺度的特征图进行线性叠加输入到检测层;(S4
...
【专利技术属性】
技术研发人员:秦玉文,曾祥津,吴小龑,任振波,钟丽云,邸江磊,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。