基于深度学习的RGB-T多模态图像实例分割方法技术

技术编号：41130043 阅读：2 留言：0更新日期：2024-04-30 17:59

本发明专利技术公开了一种基于深度学习的RGB‑T多模态图像实例分割方法，属于图像处理技术领域，包括以下步骤：S1、处理现有图像语义分割数据集，进行预配准处理；S2、通过双分支图像特征提取网络提取可见光和热红外图像特征；S3、增强图像特征信息；S4、利用跨模态注意力机制模块进行不同模态信息的有效融合；S5、利用像素解码器生成高分辨率的逐像素嵌入；S6、利用Transformer生成掩膜嵌入，分辨不同实例；S7、利用数据集进行网络训练，优化训练网络参数；S8、进行RGB‑T多模态图像实例分割网络测试。本发明专利技术采用上述的一种基于深度学习的RGB‑T多模态图像实例分割方法，解决复杂场景下单模态图像实例分割效果差及目标尺度差异大的问题，有效提升RGB‑T实例分割精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，尤其是涉及一种基于深度学习的rgb-t多模态图像实例分割方法。

技术介绍

1、现有的基于深度学习的图像实例分割工作大多利用可见光(red-green-blue，rgb)图像实现场景内容感知，但是可见光相机对于场景光照变化的鲁棒性较差，且缺乏对烟、雾、霾、雨、雪的穿透功能。受限于其成像机理，可见光相机难以在不良光照条件以及恶劣天气情况下捕获足够有效的场景信息。同时随着图像传感器技术的不断发展与进步，不同模态(即基于不同成像机理)的图像传感器在军用以及民用领域日益普及，如热红外摄像头，偏振相机等。其中热红外摄像头能够在各种不良光照、天气条件下反映场景中温度在-20℃以上的物体的热辐射特性，进而提供精确的目标轮廓信息以及语义信息。但是，相对于rgb图像，热红外图像通常缺乏一定的颜色、纹理等细节信息。考虑到大多数复杂场景下单一模态图像难以提供完整的场景信息，导致无法获得精确的实例分割结果，而多模态图像实例分割能够联合利用不同模态图像间的互补特性，从而更为全面、准确地实现场景信息的学习与推理。因此，对于多模态图像实例分割技术的研究具有重要的现实意义。

2、目前融合可见光和红外图像的图像实例分割方法相关文献较少，大多实例分割方法都是基于单模态的深度学习方法，大体上可以分为单阶段和两阶段方法。

3、单阶段实例分割方法可以根据是否使用锚框分为基于锚框的方法与无锚框的方法。单阶段实例分割方法能够并行地执行分割和检测，可以获得良好的性能并缩短处理时间。基于锚框的方法可以通过回归前n个检测来节省更多的推

4、两阶段实例分割方法实现实例分割主要包括检测和分割两个步骤。根据检测和分割的不同顺序，可进一步分为基于检测的自上向下方法和基于分割的自下而上方法。自上而下方法通过目标检测方法预测顶层边界框，然后在每个边界框内进行分割，分割结果作为实例掩码输出。目标检测器可以确定实例在给定图像中的位置以及每个实例属于哪个类别。显然，目标检测器的性能对自上而下方法的结果有很大影响。而自下而上方法通过将每个像素映射为向量，再使用聚类方法将向量嵌入到不同的实例中。而mask2former所属的这类方法通过高质量的像素级映射结果和精心设计的聚类方法提高不同实例的边界分辨能力，较好地处理遮挡实例间的图像分割问题。

5、申请号为202310283961.7的中国专利，该专利技术针对rgb-d语义分割中存在的多尺度问题和实时问题，提出了rgb-d多模态语义分割方法。该专利技术通过交换彩色图特征和深度图特征的查询向量，设计了自注意力多模态信息交互模块，实现了跨模态信息交互；并在此基础上设计了多模态通道注意力校正模块和多模态全局特征聚合模块。在主干网络分别对彩色图和深度图进行下采样提取特征后，利用多模态通道注意力校正模块于通道维度实现特征矫正，然后利用多模态全局特征聚合模块将矫正后的特征在空间维度实现特征聚合，最后将聚合的特征输入特征金字塔解码器模块，得到最终的语义分割结果。

6、实例分割对每个像素打上实例标签并结合利用目标检测的结果，能够准确地识别出不同对象之间的边界。相比于实例分割，语义分割的结果可能会出现同一类别的不同对象之间边界不清晰的情况。

技术实现思路

1、本专利技术的目的是提供一种基于深度学习的rgb-t多模态图像实例分割方法，通过该双分支网络分别提取可见光图像与热红外图像的图像特征，使网络能够适应处理不同图像通道数的不同模态信息，利用位置注意力机制与通道注意力机制分别提取空间维度和通道维度的重要特征信息，抑制冗余信息，解决局部模糊性问题，提高实例分割网络的鲁棒性与分割精度，设计跨模态特征融合模块，充分利用了不同模态间的有效关联信息，解决不同模态间冗余信息互相干扰的问题，提高多模态实例分割网络的鲁棒性与分割精度。

2、为实现上述目的，本专利技术提供了一种基于深度学习的rgb-t多模态图像实例分割方法，包括以下步骤：

3、s1、处理现有可见光和热红外图像语义分割数据集，改为实例分割标注格式，进行预配准处理；

4、s2、通过双分支图像特征提取网络提取可见光和热红外图像特征；

5、s3、利用位置与通道注意力机制模块增强图像特征信息；

6、s4、利用跨模态注意力机制模块进行不同模态信息的有效融合；

7、s5、利用像素解码器生成高分辨率的逐像素嵌入，分辨目标不同类别；

8、s6、利用transformer生成掩膜嵌入，分辨不同实例；

9、s7、利用数据集进行网络训练，通过调参、数据增强、加载预训练权重等方式优化训练网络参数；

10、s8、进行rgb-t多模态图像实例分割网络测试。

11、优选的，所述s2中双分支特征提取网络以mask2former为框架进行修改设计，基于resnet主干特征提取网络提取可见光图像特征，添加额外的特征提取网络分支以提取热红外图像特征。

12、优选的，所述添加额外的特征提取网络分支的具体步骤为：修改resnet网络的网络通道数，使其输入能够从常见的三通道可见光图像转换为单通道红外图像。

13、优选的，所述s3中位置与通道注意力机制模块由位置注意力机制模块和通道注意力机制模块并联组合而成，其中位置注意力机制模块增强图像特征信息的具体步骤如下：

14、s3.1.1、将原特征图a通过batchnorm层和relu激活函数得到同样维度的三个张量，而激活得到的三个张量记作p、q和d；

15、s3.1.2、将激活得到的两个张量p和q从三阶张量降维成二阶张量；

16、将(c,h,w)大小的特征矩阵p、q降维拉平成(c,h×w)大小，然后将特征矩阵p进行转置成一个(h×w)×c的矩阵，p同q相乘得到(h×w)×(h×w)的矩阵；

17、s3.1.3、将结果通过softmax概率化计算后，得到原特征图内两个位置点的关系强度sji：

18、

19、其中，sji表示第i个位置对第j个位置的影响，pi、qj分别为张量p和q在空间维度下的第i个位置和第j个位置的二维特征矩阵，n为空间位置数、大小为(h×w)，i、j∈[1,n]；

20、s3.1.4、通过计算得到最终的输出e，e中的每个元素为ej：

21、

22、其中，α为位置注意力机制模块的尺度因子，di为张量d在空间维度下第i个位置的元素，aj为原特征矩阵a在空间维度下第j个位置的元素。

23、优选的，所述s3中通道注意力机制模块增强图像特征本文档来自技高网...

【技术保护点】

1.一种基于深度学习的RGB-T多模态图像实例分割方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的RGB-T多模态图像实例分割方法，其特征在于：所述S2中双分支特征提取网络以Mask2former为框架进行修改设计，基于ResNet主干特征提取网络提取可见光图像特征，添加额外的特征提取网络分支以提取热红外图像特征。

3.根据权利要求2所述的一种基于深度学习的RGB-T多模态图像实例分割方法，其特征在于：所述添加额外的特征提取网络分支的具体步骤为：修改ResNet网络的网络通道数，使其输入能够从常见的三通道可见光图像转换为单通道红外图像。

4.根据权利要求1所述的一种基于深度学习的RGB-T多模态图像实例分割方法，其特征在于：所述S3中位置与通道注意力机制模块由位置注意力机制模块和通道注意力机制模块并联组合而成，其中位置注意力机制模块增强图像特征信息的具体步骤如下：

5.根据权利要求4所述的一种基于深度学习的RGB-T多模态图像实例分割方法，其特征在于：所述S3中通道注意力机制模块增强图像特征信息的具体步骤如下：

6.根据权利要求1所述的一种基于深度学习的RGB-T多模态图像实例分割方法，其特征在于：所述S4中跨模态注意力机制模块包括信息交换阶段和融合阶段。

7.根据权利要求5所述的一种基于深度学习的RGB-T多模态图像实例分割方法，其特征在于：所述信息交换阶段中两种模态的特征将通过对称的双路结构交换它们的信息，交换过程包括如下步骤：

...

【技术特征摘要】

1.一种基于深度学习的rgb-t多模态图像实例分割方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的rgb-t多模态图像实例分割方法，其特征在于：所述s2中双分支特征提取网络以mask2former为框架进行修改设计，基于resnet主干特征提取网络提取可见光图像特征，添加额外的特征提取网络分支以提取热红外图像特征。

3.根据权利要求2所述的一种基于深度学习的rgb-t多模态图像实例分割方法，其特征在于：所述添加额外的特征提取网络分支的具体步骤为：修改resnet网络的网络通道数，使其输入能够从常见的三通道可见光图像转换为单通道红外图像。

4.根据权利要求1所述的一种基于深度学习的rgb-t多模态图像实例分...

【专利技术属性】
技术研发人员：张跃强，侯宏锦，盘水新，李狄龙，张蔚鑫，翁国健，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人