一种基于多尺度混合变换器的红外与可见光图像融合方法技术

技术编号:39829383 阅读:24 留言:0更新日期:2023-12-29 16:06
本发明专利技术公开了一种基于多尺度混合变换器的红外与可见光图像融合方法,包括以下步骤:构建基于多尺度混合变换器的红外与可见光图像融合模型框架;模型框架包括辅助编码器

【技术实现步骤摘要】
一种基于多尺度混合变换器的红外与可见光图像融合方法


[0001]本专利技术涉及一种基于多尺度混合变换器的红外与可见光图像融合方法,属于图像处理



技术介绍

[0002]目前,将可见光图像与红外图像融合,可以呈现出具有丰富纹理细节和高亮热辐射目标的图像,进而解决单个种类图像无法满足工程需求,通过图像融合方法以获取高质量

信息量的图像

该方法已经在目标识别

军事应用

医疗诊断等领域有着广阔的应用前景

[0003]现有的红外和可见光图像融合技术主要分为传统融合方法和深度学习融合方法

传统融合方法主要分为多尺度变换等其他方法
。2020

CHEN
等提出一种基于多尺度低秩分解的红外与可见光图像融合方法,该方法通过多尺度

多层次的融合有效补偿图像信息,通过设计特定融合规则,提升图像融合效果
。(
陈潮起
,
孟祥
,...

【技术保护点】

【技术特征摘要】
1.
一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,包括以下步骤:构建基于多尺度混合变换器的红外与可见光图像融合模型框架;模型框架包括辅助编码器

主编码器和解码器;辅助编码器提取红外与可见光的全局信息,主编码器提取红外与可见光的局部上下文信息,辅助编码器引导主编码器融合全局和局部信息,使得融合图像包含多尺度的源图像特征;将多尺度的源图像特征输入到解码器中,完成图像重建
。2.
根据权利要求1所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述辅助编码器包括四个阶段,四个阶段均包含下采样操作和多尺度混合注意力模块,红外和可见光图像分别输入进辅助编码器,依次经过四个阶段,分别得到全局红外信息特征和全局可见光信息特征;阶段
1、
阶段
2、
阶段4堆叠两次下采样和多尺度混合注意力模块,阶段3堆叠四次下采样和多尺度混合注意力模块
。3.
根据权利要求2所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述多尺度混合注意力模块包括窗口多头自注意力模块

变换窗口多头自注意力模块

通道和高的空间维度交互注意力模块

通道和宽的空间维度交互注意力模块

多尺度前馈网络和层归一化操作;窗口多头自注意力模块

通道和高的空间维度交互注意力模块和通道和宽的空间维度交互注意力模块并行连接;所述阶段
1、
阶段
2、
阶段4堆叠两次包括:第一次堆叠,输入特征
F
l
‑1经过层归一化后得到标准化的特征,再经过三重注意力与输入特征相加得到混合注意力特征图
F
l
,混合注意力特征图
F
l
再依次经过层归一化操作和多尺度前馈网络,得到的特征再与混合注意力特征图
F
l
相加得到多尺度混合注意力特征
H
l
,公式表示为:
F
l

W

MSA(L(F
l
‑1))+scale
×
(CW(L(F
l
‑1))+CH(L(F
l
‑1)))+F
l
‑1,
H
l

MSFFN(LN(F
l
))+F
l
;第二次堆叠,输入特征
F
1l
‑1经过层归一化后得到标准化的特征,再经过三重注意力与输入特征相加得到混合注意力特征图
F
1l
,混合注意力特征图
F
1l
再依次经过层归一化操作和多尺度前馈网络,得到的特征再与混合注意力特征图
F
1l
相加得到多尺度混合注意力特征
H
1l
,公式表示为:
F
1l

SW

MSA(L(F
1l
‑1))+scale
×
(CW(L(F
1l
‑1))+CH(L(F
1l
‑1)))+F
1l
‑1,
H
1l

MSFFN(LN(F
1l
))+F
1l
;其中
W

MSA
为窗口多头自注意力,
SW

MSA
为变换窗口多头自注意力,
L

LayerNorm
操作,
CW
为通道和宽的空间维度交互注意力,
CH
为通道和高的空间维度交互注意力,
MSFFN
为多尺度前馈网络,
scale
为超参数,所述阶段3为四次堆叠即重复上述操作两次
。4.
根据权利要求3所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述通道和高的空间维度交互注意力模块包括
Permute
操作
、Z

Pool
操作

卷积核为7×7的卷积

批量归一化和激活函数操作,输入特征
F1经过
Permute
操作变换
H
×
C
×
W
维度特征,接着在
H
维度上进行
Z

Pool
,再经过7×7卷积和批量归一化后,继续经过
Sigmoid
激活函数得到注意力图,将注意力图与变换维度后的特征相乘在经过
Permute
操作转变维度得到
C
×
H
×
W
维度的空间交互注意力特征
F2,公式表示为:
F2=
P(P(F1)
·
Sig(Conv(Z(P(F1)))))
,其中
P

Permute
操作,
Z

Z

Pool
操作,
Sig

Sigmoid
激活函数操作,
Conv
为卷积操作
。5.
根据权利要求3所述的一种基于多尺度混合变换器的红外与可见光图像融合方法,其特征在于,所述通道和宽的空间维度交互注意力模块包括
Permute
操作
、Z

Pool
操作

【专利技术属性】
技术研发人员:陆成刘雪明房威志陆康
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1