System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法技术_技高网

一种结合Transformer与CNN双编码器的红外与可见光图像融合方法技术

技术编号:39930865 阅读:10 留言:0更新日期:2024-01-08 21:48
本发明专利技术公开了一种结合Transformer与CNN双编码器的红外与可见光图像融合方法,基于U‑Net框架,构建结合Transformer与CNN双编码器的红外与可见光图像融合模型,其中基于U‑Net框架的融合网络由双编码器和解码器组成,再利用训练集训练该模型;将红外图像、可见光图像输入到训练完成的结合Transformer与CNN双编码器的红外与可见光图像融合模型中,利用双编码器提取红外图像和可见光图像预融合的红外特征和可见光特征,并通过自上而下的方式进行特征表示;再利用解码器将特征表示映射到原始分辨率,通过自下而上的方式逐步融合图像特征,得到融合图像。本发明专利技术有效地将局部信息与全局信息相结合,提升融合图像质量,同时降低单一Transformer结构带来的计算复杂度。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体涉及一种结合transformer与cnn双编码器的红外与可见光图像融合方法。


技术介绍

1、现有的图像融合方法主要分为两种:一种是传统融合方法,另一种是基于深度学习的图像融合方法。传统算法主要包括稀疏表示、多尺度变换、子空间和混合融合方法等,这些算法通常将图像分解为不同层级特征或依据图像特征建立稀疏矩阵,然后通过分解结果结合所设计的融合策略进行图像融合。虽然一定程度上能够保留源图像部分细节和突出目标,但源图像之间的模态差异使得传统方法手工设计越来越复杂,融合性能很难进一步提升,同时计算复杂度高,耗费时间长,并且容易忽略融合过程中的空间一致性,传统模型泛化性能较差。

2、现有的基于深度学习的图像融合方法融合性能较好,网络模型具有更强的特征提取能力。目前主要的融合模型分为cnn(convolution neural network,卷积神经网络)和gan(generative adversarial network,生成对抗网络)。基于cnn和gan的图像融合方法通过卷积层分别对红外图像和可见光图像进行特征提取,一定程度上保留了红外像素幅度和可见光细节信息,但卷积核提取的特征仅在当前位置有较强的区域相关性,未考虑长距离上下文信息的提取能力,并且融合图像的细节纹理信息提取不充分,无法从全局角度增强信息融合。针对现有的红外与图像融合方法存在的问题,很多学者通过使用transformer来实现信息远程依赖性,这主要得益于它的自注意力机制和全局特征提取能力,但仅通过transformer来提取特征需要很大计算资源。


技术实现思路

1、本专利技术所要解决的技术问题:提供一种结合transformer与cnn双编码器的红外与可见光图像融合方法,将cnn与transformer相结合,形成并行的双编码器结构,既能够关注局部上下文信息和全局信息,又能利用高效地计算优势训练网络模型,提升融合图像质量。

2、本专利技术为解决以上技术问题而采用以下技术方案:

3、本专利技术提出的一种结合transformer与cnn双编码器的红外与可见光图像融合方法,包括:

4、s1、基于u-net框架,构建结合transformer与cnn双编码器的红外与可见光图像融合模型,其中该模型由双编码器和解码器组成。

5、s2、选定数据集,对其进行处理后得到训练集,利用训练集训练步骤s1中的结合transformer与cnn双编码器的红外与可见光图像融合模型。

6、s3、将红外图像、可见光图像输入到训练完成的结合transformer与cnn双编码器的红外与可见光图像融合模型中,利用双编码器提取红外图像和可见光图像预融合的红外特征和可见光特征,并通过自上而下的方式进行特征表示。

7、s4、利用解码器将步骤s3中的特征表示映射到原始分辨率,通过自下而上的方式逐步融合图像特征,得到融合图像。

8、进一步的,步骤s1中,构建结合transformer与cnn双编码器的红外与可见光图像融合模型包括以下内容:

9、s101、构建双编码器:双编码器包括局部细节特征提取编码器和全局信息提取编码器。

10、其中,局部细节特征提取编码器包括依次连接的卷积层和四个特征提取块,卷积层由卷积核为4×4、步长为2、填充为1的卷积以及批量归一化、leakyrelu串行连接构成,卷积层用于下采样操作,并调整输入图像的通道数和尺寸。

11、第一、二特征提取块由残差模块构成,第三、四特征提取块由残差模块和inn(invertible neural networks,可逆神经网络)串行连接构成,四个特征提取块输入的通道数分别为16、32、64、128,输出的通道数分别为32、64、128、256。

12、可逆神经网络包括三个可逆残差模块,其包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、激活函数(relu6)。

13、全局信息提取编码器包括四个通过串行方式连接的transformer layer,其输入的通道数分别为16、32、64、128,输出的通道数分别为32、64、128、256,第一、二、四transformer layer包括两层hat(hybrid attention transformer,混合注意力变换器)结构,其中,第一transformer layer的第一层包括通过串行方式连接的补丁嵌入操作、层归一化操作、w-msa模块(windows multi-head self-attention,窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络,第二层包括通过串行方式连接的层归一化操作、sw-msa模块(shift windows multi-head self-attention,变换窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络。

14、第二、四transformer layer的第一层包括通过串行方式连接的补丁合并操作、层归一化操作、w-msa模块(windows multi-head self-attention,窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络,第二层包括通过串行方式连接的层归一化操作、sw-msa模块(shift windows multi-head self-attention,变换窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络。

15、第三transformer layer包括六层混合注意力变换器结构,由第二transformerlayer中的两层hat(hybrid attention transformer,混合注意力变换器)结构堆叠3次构成。

16、s102、构建解码器

17、解码器包括四个特征融合模块和重建模块;每个特征融合模块包括上采样操作,拼接操作,依次连接的卷积核为4×4、步长为2、填充为1的反卷积,batchnorm操作,激活函数relu。

18、重建模块包括依次连接的上采样操作,卷积核为4×4的卷积、填充为1的卷积,填充操作,双曲正切函数函数(tanh)。

19、s103、双编码器通过自上而下方式逐步下采样进行特征提取,解码器通过自下而上的方式将双编码器提取的特征逐步上采样进行融合并重建,构成结合transformer与cnn双编码器的红外与可见光图像融合模型。

20、进一步的,步骤s1中,残差模块包括主路径和残差路径,主路径包含卷积核为1×1的卷积、bn、leakyrelu激活函数、卷积核为3×3的卷积、卷积核为4×4的卷积;残差路径包括dsconv和卷积核为4×4的卷积。

21、进一步的,步骤s1中,局部-非局部注意力信息增强模块包括局部信息增强模块和非局部信息增强模块;其中局部信息增强模块包括拼接操作、全局平均池化、深度可分离卷积本文档来自技高网...

【技术保护点】

1.一种结合Transformer与CNN双编码器的红外与可见光图像融合方法,其特征在于,包括:

2.根据权利要求1所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法,其特征在于,步骤S1中,构建结合Transformer与CNN双编码器的红外与可见光图像融合模型包括以下内容:

3.根据权利要求2所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法,其特征在于,残差模块包括主路径和残差路径,主路径包含卷积核为1×1的卷积、BN、LeakyReLU激活函数、卷积核为3×3的卷积、卷积核为4×4的卷积;残差路径包括DSConv和卷积核为4×4的卷积;

4.根据权利要求2所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法,其特征在于,第一、二、四Transformer Layer包括两层混合注意力变换器结构,其中,第一Transformer Layer的第一层包括通过串行方式连接的补丁嵌入操作、层归一化操作、W-MSA模块、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络,第二层包括通过串行方式连接的层归一化操作、SW-MSA模块、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络;

5.根据权利要求4所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法,其特征在于,局部-非局部注意力信息增强模块包括局部信息增强模块和非局部信息增强模块;其中局部信息增强模块包括拼接操作、全局平均池化、深度可分离卷积、Sigmoid函数、逐元素相乘操作和逐元素相乘操作;非局部信息增强模块包括LayerNorm操作和位置注意力模块。

6.根据权利要求1所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法,其特征在于,步骤S2中,训练结合Transformer与CNN双编码器的红外与可见光图像融合模型包括以下子步骤:

7.根据权利要求6所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法,其特征在于,步骤S3中,利用双编码器提取特征包括以下子步骤:

8.根据权利要求7所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法,其特征在于,步骤S305中,局部-非局部注意力信息增强模块提取特征的具体内容为:

9.根据权利要求1所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法,其特征在于,步骤S4中,利用解码器得到融合图像包括以下子步骤:

...

【技术特征摘要】

1.一种结合transformer与cnn双编码器的红外与可见光图像融合方法,其特征在于,包括:

2.根据权利要求1所述的结合transformer与cnn双编码器的红外与可见光图像融合方法,其特征在于,步骤s1中,构建结合transformer与cnn双编码器的红外与可见光图像融合模型包括以下内容:

3.根据权利要求2所述的结合transformer与cnn双编码器的红外与可见光图像融合方法,其特征在于,残差模块包括主路径和残差路径,主路径包含卷积核为1×1的卷积、bn、leakyrelu激活函数、卷积核为3×3的卷积、卷积核为4×4的卷积;残差路径包括dsconv和卷积核为4×4的卷积;

4.根据权利要求2所述的结合transformer与cnn双编码器的红外与可见光图像融合方法,其特征在于,第一、二、四transformer layer包括两层混合注意力变换器结构,其中,第一transformer layer的第一层包括通过串行方式连接的补丁嵌入操作、层归一化操作、w-msa模块、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络,第二层包括通过串行方式连接的层归一化操作、sw-msa模块、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络;...

【专利技术属性】
技术研发人员:陆成刘雪明
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1