一种基于双分支多尺度特征融合的跨模态语义分割方法技术

技术编号：44208536 阅读：42 留言：0更新日期：2025-02-06 18:41

本发明专利技术提供了一种基于双分支多尺度特征融合的跨模态语义分割方法，采用Segformer作为主干网络，分别对红外图像与可见光RGB图像进行特征提取，利用本文设计的特征增强模块、有效注意力增强模块以及跨模态特征融合模块对特征进行增强和融合。首先通过特征增强模块对浅层特征进行增强，并引入坐标注意力机制加强细节特征的表达。然后利用有效注意力增强模块和跨模态特征融合模块，在行和列向量方面测量权重，对两种模态的互补特征信息进行增强，融合跨模态特征。最后，利用轻量级的All‑MLP(All Multilayer Perceptron)解码器重构图像，得到预测分割掩码。本发明专利技术能够提升在夜晚或光线变化环境下的分割精度，避免出现目标边缘轮廓不准确以及漏分割的问题，在处理复杂场景和细节方面更具优势。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多光谱语义分割领域，具体为一种基于双分支多尺度特征融合的跨模态语义分割方法。

技术介绍

1、图像语义分割是指对像素点按其属性进行分类，获得目标的大小、形状、位置等信息，从而将视觉场景分解为不同语义类别实体，实现对图像的细粒度理解和分析。目前，语义分割在多个领域都有广泛应用，如自动驾驶、地质监测、道路安全检测、军事侦察等。

2、传统的图像语义分割方法是根据图像本身的特征，通过人工预先设定的规则来划分区域，将图像中具有相似特性的像素划分为一个类别，主要包括基于阈值、基于边缘检测以及基于区域的分割方法。这类算法参数少，复杂度低，但只用到了图像表层信息，无法实现端到端的图像语义分割，面对较为复杂的图像分割任务时，在一些细节处，人工设定的分割规则不能根据图像特征自动进行调整，导致分割效果并不理想，鲁棒性差。

3、随着深度学习技术的发展，其强大的自动特征学习和数据拟合能力在图像语义分割领域表现出了更好的性能和泛化能力。基于深度学习的图像语义分割主要包括特征编码与增强、像素或区域分类及边界优化与精细处理三个步骤。...

【技术保护点】

1.一种基于双分支多尺度特征融合的跨模态语义分割方法，其特征在于，包括有如下步骤：步骤A：获取标注有真实标签的跨模态样本图像对，所述跨模态样本图像对由RGB图像和Thermal图像组成。步骤B：将RGB图像和Thermal图像分别输入至双分支的segformer结构中进行特征提取，并利用特征增强模块对第一个尺度的浅层特征图进行特征增强，增强后的特征图和其它尺度的特征图统一表示成j∈{1,2,3,4}为尺度索引，i∈{rgb,thermal}为图像模态索引。步骤C：构建有效注意力增强模块，利用通道注意力机制跨模态捕捉特征关系，生成通道权重向量，增强不同模态显著信息的表示，得到特征增强后的各...

【技术特征摘要】

1.一种基于双分支多尺度特征融合的跨模态语义分割方法，其特征在于，包括有如下步骤：步骤a：获取标注有真实标签的跨模态样本图像对，所述跨模态样本图像对由rgb图像和thermal图像组成。步骤b：将rgb图像和thermal图像分别输入至双分支的segformer结构中进行特征提取，并利用特征增强模块对第一个尺度的浅层特征图进行特征增强，增强后的特征图和其它尺度的特征图统一表示成j∈{1,2,3,4}为尺度索引，i∈{rgb,thermal}为图像模态索引。步骤c：构建有效注意力增强模块，利用通道注意力机制跨模态捕捉特征关系，生成通道权重向量，增强不同模态显著信息的表示，得到特征增强后的各尺度特征步骤d：构建跨模态特征融合模块，对各尺度特征图进行特征融合，得到各尺度的融合特征步骤e：将融合特征输入至轻量化的mlp解码器，得到语义分割结果。

2.如权利要求1所述的基于双分支多尺度特征融合的跨模态语义分割方法，其特征在于，所述步骤b包括：所述segformer是一种分层的transformer结构，包含四层transformer模块。编码器中的transformer模块首先采用重叠块嵌入模块将输入图像分解成重叠的图像块；然后通过高效自注意力层和混合前馈神经网络层捕捉全局上下文信息和局部细节信息。最后通过重叠块合并层合并成无重叠的完整特征图。将rgb图像和thermal图像分别输入至双分支的segformer编码器中，得到分辨率为原图像1/4、1/8、1/16、1/32的rgb多尺度特征和thermal多...

【专利技术属性】
技术研发人员：陈广秋，任天蓉，刘枫铭，夏炎，代宇航，
申请(专利权)人：长春理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人