System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 红外与可见光图像双域自注意力交互融合方法技术_技高网

红外与可见光图像双域自注意力交互融合方法技术

技术编号:40835942 阅读:4 留言:0更新日期:2024-04-01 15:00
本发明专利技术涉及一种红外与可见光图像双域自注意力交互融合方法,属于图像处理技术领域。包括:将待融合红外图像和可见光图像输入第一层特征处理网络中的双支路残差卷积模块,提取待融合红外图像和可见光图像的局部特征;内域特征校正模块对局部特征的长距离依赖关系进行建模校正,得到的内域通道全局特征一方面输入下一层特征处理网络的双支路残差卷积模块,使图像融合网络框架交替学习内域的局部特征和全局特征;另一方面,内域通道全局特征输入跨域特征融合模块进行跨域空间通道特征交互,得到的跨域通道全局特征经过通道合并后产生融合特征;解码器对至少两层特征处理网络获得的不同尺度的融合特征进行解码得到融合图像。本发明专利技术提升了融合效果。

【技术实现步骤摘要】

本专利技术涉及图像处理,尤其涉及一种红外与可见光图像双域自注意力交互融合方法


技术介绍

1、图像融合的核心是将多模态传感器的互补信息整合到融合图像中,以获得更好的视觉感知和场景理解。得益于不同传感器的信息组合,融合图像可以提高态势感知能力和辅助决策能力。可见光传感器通过光反射成像提供高分辨率的场景细节,然而由于伪装条件或恶劣的天气,很难从背景环境中区分出明显的目标。红外传感器可以捕捉热物体发出的热信号,并且可以全天候工作,不受外界干扰。因此,图像融合技术可以突破单个传感器的局限,促进多个传感器的协同工作能力。融合图像在其他后续任务中有多种应用,包括语义分割、行人再识别和显著目标检测等。

2、近年来,借助丰富的可学习数据和强大的拟合能力,基于深度学习的方法,包括基于自编码器的方法、基于卷积神经网络的和基于生成式对抗网络的方法,已经取得了优秀性能。与传统的分解模型类似,基于自编码的方法一般将预训练好的cnn模型作为特征提取和重构模块,其融合策略仍然需要人工设计。为了实现无监督学习方案,基于cnn的和基于gan(生成式对抗网络)的方法通常将源图像拼接为图像级融合框架,或将特征聚合为特征级融合框架。然而,这两种框架都是统一或分别地学习不同模态图像的特征,忽略了跨模态交互信息,不能很好地保留重要的互补信息,产生有限的融合性能。此外,这些方法主要利用卷积运算来展示局部信息保存能力,忽略了远程关系建模,失去重要的上下文内容,这样会进一步限制融合性能。

3、近年来,一些研究人员引入transformer,可以提供具有竞争力的性能。然而,仍有一些缺点需要解决。首先,这些方法要么在没有局部信息的情况下对远程内容进行建模,要么直接将局部特征聚合为全局依赖,而不考虑局部和全局关系之间固有的相互作用。其次,这些方法仍然遵循图像级或特征级融合框架来建模来自单个模态图像的远程关系,无法实现跨模态特征交互。

4、综上所述,急需一种结合cnn和transformer以实现图像的局部特征与全局特征交互,有效强化深度特征的表征能力,增强有用信息的同时抑制无关信息,进而提高红外图像与可见光图像的融合性能。


技术实现思路

1、为解决上述技术问题,本专利技术提供一种红外与可见光图像双域自注意力交互融合方法。本专利技术的技术方案如下:

2、所述红外与可见光图像双域自注意力交互融合方法采用预先训练好的图像融合网络框架实现,所述图像融合网络框架包括至少两层特征处理网络和解码器,每层特征处理网络包括双支路残差卷积模块、内域特征校正模块和跨域特征融合模块;第一层特征处理网络中的双支路残差卷积模块的输入端分别用于输入红外图像和可见光图像,双支路残差卷积模块的输出端均与内域特征校正模块的输入端连接,内域特征校正模块的第一输出端与跨域特征融合模块的输入端连接,内域特征校正模块的第二输出端和第三输出端与下一层特征处理网络的双支路残差卷积模块的输入端连接,至少两层特征处理网络中的跨域特征融合模块的输出端均与解码器的输入端连接;

3、所述红外与可见光图像双域自注意力交互融合方法包括:

4、s1,将待融合红外图像、待融合可见光图像分别输入第一层特征处理网络中的双支路残差卷积模块,双支路残差卷积模块分别提取待融合红外图像和待融合可见光图像的局部特征;

5、s2,内域特征校正模块对局部特征的长距离依赖关系进行建模校正,得到内域通道全局特征,内域通道全局特征一方面输入到下一层特征处理网络的双支路残差卷积模块,使图像融合网络框架交替学习内域的局部特征和全局特征;另一方面,内域通道全局特征输入到跨域特征融合模块中;

6、s3,跨域特征融合模块对内域通道全局特征进行跨域空间通道特征交互,得到的跨域通道全局特征,经过通道合并后产生融合特征,其中,每层特征处理网络得到一种尺度的融合特征;

7、s4,解码器对至少两层特征处理网络获得的不同尺度的融合特征进行解码,得到融合图像。

8、可选地,所述图像融合网络框架包括四层特征处理网络。

9、可选地,所述内域特征校正模块包括内域空间vit和内域通道vit,所述s2中内域特征校正模块在对局部特征的长距离依赖关系进行建模校正,得到内域通道全局特征时,包括:

10、s21,将局部特征输入内域空间vit进行空间维度建模,由softmax函数获得的权重系数乘以原始输入以生成内域空间全局特征;

11、s22,将内域空间全局特征输入内域通道vit进行通道维度建模,由softmax函数获得的权重系数乘以原始输入以生成内域通道全局特征。

12、可选地,所述跨域特征融合模块包括跨域空间vit和跨域通道vit,所述s3中跨域特征融合模块在对内域通道全局特征进行跨域空间通道特征交互时,包括:

13、s31,将内域通道全局特征中的红外特征和可见光特征的键和值替换,查询保持不变,输入跨域空间vit进行空间维度交互,得到跨域空间全局特征;

14、s32,将跨域空间全局特征中的红外特征和可见光特征的键和值替换,查询保持不变,输入跨域通道vit进行通道维度交互,交互结果与原始输入相加得到跨域通道全局特征。

15、可选地,所述s21在具体实现时,将局部特征和首先通过p×p局部窗口将它们划分为不重叠的小块,投影成二维token×channel矩阵m∈rt×c后输入内域空间vit中,通过msa(·)在每个空间上操作并映射,由softmax函数获得的权重系数乘以原始输入获得内域空间全局特征和分别表示为和其中,t=hw/p2,t表示token个数,h、w和c分别表示高维特征的高度、宽度和通道数,p表示局部窗口的大小,r表示高维特征向量;msa(·)表示同一域的vit模型的整个过程;

16、所述s22在具体实现时,将内域空间全局特征和投影成二维channel×token矩阵后输入内域通道vit中,通过msa(·)在每个通道上操作并映射,由softmax函数获得的权重系数乘以原始输入获得内域通道全局特征和分别表示为和

17、可选地,所述s31在具体实现时,将内域通道全局特征中的红外特征和可见光特征和划分为块,并根据vit的基本原理将它们的查询、键和值分别表示为和后,输入跨域空间vit进行空间维度交互,得到跨域空间全局特征分别由和表示;其中,表示transformer自注意力机制中图像线性映射的不同参数矩阵,mca(·)表示跨域操作的vit的整个过程;

18、所述s32在具体实现时,将跨域空间全局特征和划分为块,并根据vit的基本原理将它们的查询、键和值分别表示为和后,输入跨域通道vit进行通道维度交互,得到跨域通道全局特征和

19、可选地,所述s4中,解码器在对至少两层特征处理网络获得的不同尺度的融合特征进行解码,得到融合图像时,包括:

20、第四层特征处理网络获得的第四尺度的融合特征经过上采样操作后,与第三层特征处理网络获得的第三尺度的融合特征进本文档来自技高网...

【技术保护点】

1.一种红外与可见光图像双域自注意力交互融合方法,其特征在于,

2.根据权利要求1所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,所述图像融合网络框架包括四层特征处理网络。

3.根据权利要求1或2所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,所述内域特征校正模块包括内域空间ViT和内域通道ViT,所述S2中内域特征校正模块在对局部特征的长距离依赖关系进行建模校正,得到内域通道全局特征时,包括:

4.根据权利要1或2所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,所述跨域特征融合模块包括跨域空间ViT和跨域通道ViT,所述S3中跨域特征融合模块在对内域通道全局特征进行跨域空间通道特征交互时,包括:

5.根据权利要求3所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,

6.根据权利要求4所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,

7.根据权利要2所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,所述S4中,解码器在对至少两层特征处理网络获得的不同尺度的融合特征进行解码,得到融合图像时,包括:

8.根据权利要求2所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,所述残差卷积模块均包括一个平均池化层、三个卷积层和一个残差连接层;

9.根据权利要求2所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,所述S1之前还包括训练图像融合网络框架,且在训练图像融合网络框架时,采用的损失函数LTotal由结构相似度损失函数LSSIM、梯度损失函数LGrad和亮度损失函数LIntensity组成,表示为LTotal=LSSIM+λ1LGrad+λ2LIntensity,其中λ1和λ2用于在三个损失函数之间取得平衡;

...

【技术特征摘要】

1.一种红外与可见光图像双域自注意力交互融合方法,其特征在于,

2.根据权利要求1所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,所述图像融合网络框架包括四层特征处理网络。

3.根据权利要求1或2所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,所述内域特征校正模块包括内域空间vit和内域通道vit,所述s2中内域特征校正模块在对局部特征的长距离依赖关系进行建模校正,得到内域通道全局特征时,包括:

4.根据权利要1或2所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,所述跨域特征融合模块包括跨域空间vit和跨域通道vit,所述s3中跨域特征融合模块在对内域通道全局特征进行跨域空间通道特征交互时,包括:

5.根据权利要求3所述的红外与可见光图像双域自注意力交互融合方法,其特征在于,

6.根据权利要求4所述...

【专利技术属性】
技术研发人员:王志社杨帆孙婧张卓群祁武强王春发
申请(专利权)人:太原科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1