一种基于对比表示学习的多模图像智能融合方法技术

技术编号:38541421 阅读:12 留言:0更新日期:2023-08-19 17:09
本发明专利技术提供了一种基于对比表示学习的多模图像智能融合方法,包括以下步骤:数据采集:从公共数据集中收集用于图像融合任务的训练与测试图像,具体是从公共数据集TNO和RoadScene中收集红外与可见光图像;数据预处理:构建训练集与测试集,并统一源图像尺度;模型训练:包括图像融合网络结构搭建、损失函数构建以及模型训练;模型保存:当模型的损失函数不再减少时,及时保存最优模型。本发明专利技术通过自监督的对比损失,指导网络自适应地保留红外图像显著目标与可见光图像中的背景纹理信息;而且整个网络是轻量化的,可以快速重构出融合图像,并且生成的融合图像的多项性能超过了多数现有基于深度学习的图像融合方法。数现有基于深度学习的图像融合方法。数现有基于深度学习的图像融合方法。

【技术实现步骤摘要】
一种基于对比表示学习的多模图像智能融合方法


[0001]本专利技术属于图像融合方法
,具体涉及一种基于对比表示学习的多模图像智能融合方法。

技术介绍

[0002]图像融合是图像处理中的一项重要技术,利用图像融合可以有效地整合来自不同视觉传感器的互补图像信息,得到信息丰富的融合图像。可见和红外传感器是两种最常用的视觉传感。这两类图像信息的有效融合已被广泛应用于目标识别、检测、图像增强、监视、遥感等领域。
[0003]基于光学成像理论的可见光图像具有丰富的纹理细节和较高的空间分辨率。然而,它们也会受到黑暗环境、大雾和其他类型的环境干扰的影响。红外图像是一种基于物体热辐射的图像,可以在干扰环境中突出目标。然而,红外图像信噪比低,缺乏纹理细节。因此,融合结果具有两种源图像细节丰富、目标明显的优点。
[0004]现有的基于深度学习的图像融合方法大致可分为非端到端网络和端到端网络。非端到端网络需要手动设计融合策略,这对于特定任务而言是繁琐的;而端到端网络弥补了手动设计融合策略的不足,通过精心设计的模型与损失函数,来实现图像的融合,这种方法广泛利用了图像的浅层特征,例如强度、梯度和结构等,取得了不错的效果,但这些方法一方面依据特定的损失函数来完成特定的融合任务,生成的融合图像具有较强的倾向性;另一方面对于图像的深层表示特征使用较少,图像的深度表示特征图像重要特征之一,如何将其利用起来对于提升融合性能是很有必要的。
[0005]基于此,提出了一种基于对比表示学习的多模图像智能融合方法。
专利技术内容
[0006]本专利技术所要解决的技术问题在于针对上述现有技术的不足,提供一种基于对比表示学习的多模图像智能融合方法,以解决上述
技术介绍
中提出的问题。
[0007]为解决上述技术问题,本专利技术采用的技术方案是:一种基于对比表示学习的多模图像智能融合方法,包括以下步骤:
[0008]S1、数据采集:从公共数据集中收集用于图像融合任务的训练与测试图像,具体是从公共数据集TNO和RoadScene中收集红外与可见光图像,其中TNO包含60对红外与可见光图像,RoadScene包含221对红外与可见光图像;
[0009]S2、数据预处理:构建训练集与测试集,并统一源图像尺度;
[0010]S3、模型训练:包括图像融合网络结构搭建、损失函数构建以及模型训练;
[0011]S4、模型保存:当模型的损失函数不再减少时,及时保存最优模型。
[0012]进一步的,在S2中,从TNO数据集中选取20对红外光与可见光图像作为训练集,其余图像作为测试集将训练数据利用图像裁剪的方式,按照设定步长,逐张裁剪出多个128*128的图像,形成新的训练数据集。
[0013]进一步的,在S3中,图像融合网络结构搭建:构建基于对比表示学习的图像融合网络框架,模型主体基于生成对抗网络架构,主要由编码器,解码器和判别器三部分组成,其中判别器只参与模型的训练过程,因此模型整体是一个端到端的网络,首先,模型的编码器部分,分别对源图像进行下采样,提取出丰富的不同尺度的深度特征,然后将最深层的特征进行拼接融合,解码器可以联合浅层和深度特征进行上采样,最终重构出融合图像,判别器对重构后的图像进行判别,以提高融合图像的质量。
[0014]进一步的,在S3中,损失函数构建:模型的损失函数主要由两部分构成,即生成器损失函数L
G
和判别器损失函数L
D

[0015]生成器损失函数L
G
主要由三部分构成,分别为对抗损失L
adv
(G),对比损失L
patchNCE
和结构损失L
SSIM
,三个部分通过超参数λ1和λ2来调整权重,即:
[0016]L
G
=L
adv
(G)+λ1L
patchNCE
+λ2L
SSIM
[0017]判别器损失函数具体如下:
[0018][0019]其中,D(I
v
)和D(I
f
)表示判别器对可见光图像和融合图像的分类结果,b和c分别是可见光图像和融合图像的判别标签,b为1,c为0。
[0020]进一步的,在S3中,模型训练是基于预先准备好的训练数据集,在损失函数的指导下,对构建的基于对比表示学习的图像融合网络框架的模型进行训练,最终得到损失函数最小时的最优模型。
[0021]本专利技术与现有技术相比具有以下优点:
[0022]本专利技术提出了一个端到端的图像融合网络,通过自监督的对比损失,指导网络自适应地保留红外图像显著目标与可见光图像中的背景纹理信息;而且整个网络是轻量化的,可以快速重构出融合图像,并且生成的融合图像的多项性能超过了多数现有基于深度学习的图像融合方法。
附图说明
[0023]图1为本专利技术方法流程图;
[0024]图2为本专利技术实施例中网络框架生成器图;
[0025]图3为本专利技术实施例中网络框架判别器图;
[0026]图4为本专利技术实施例中对比表示学习框架图;
[0027]图5为本专利技术实施例的测试数据集和融合结果,其中A为红外图像,B为可见光图像,C为对比方法一融合结果,D为对比方法二融合结果,E为本专利技术融合结果。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]如图1

4所示,本专利技术提供一种技术方案:一种基于对比表示学习的多模图像智能
融合方法,包括以下步骤:
[0030]S1、数据采集:从公共数据集中收集用于图像融合任务的训练与测试图像,具体是从公共数据集TNO和RoadScene中收集红外与可见光图像,其中TNO包含60对红外与可见光图像,RoadScene包含221对红外与可见光图像;
[0031]S2、数据预处理:构建训练集与测试集,并统一源图像尺度;
[0032]从TNO数据集中选取20对红外光与可见光图像作为训练集,其余图像作为测试集将训练数据利用图像裁剪的方式,按照设定步长,逐张裁剪出多个128*128的图像,最终构建出4404张相同尺寸的训练集。
[0033]S3、模型训练:包括图像融合网络结构搭建、损失函数构建以及模型训练;
[0034]在S3中,图像融合网络结构搭建:构建基于对比表示学习的图像融合网络框架,模型主体基于生成对抗网络架构,主要由编码器,解码器和判别器三部分组成,其中判别器只参与模型的训练过程,因此模型整体是一个端到端的网络。
[0035]首先,模型的编码器部分,如图2所示,主体由上下两个编码器组成,即:红外编码器和可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比表示学习的多模图像智能融合方法,其特征在于,包括以下步骤:S1、数据采集:从公共数据集中收集用于图像融合任务的训练与测试图像,具体是从公共数据集TNO和RoadScene中收集红外与可见光图像,其中TNO包含60对红外与可见光图像,RoadScene包含221对红外与可见光图像;S2、数据预处理:构建训练集与测试集,并统一源图像尺度;S3、模型训练:包括图像融合网络结构搭建、损失函数构建以及模型训练;S4、模型保存:当模型的损失函数不再减少时,及时保存最优模型。2.根据权利要求1所述的一种基于对比表示学习的多模图像智能融合方法,其特征在于,在S2中,从TNO数据集中选取20对红外光与可见光图像作为训练集,其余图像作为测试集将训练数据利用图像裁剪的方式,按照设定步长,逐张裁剪出多个128*128的图像,形成新的训练数据集。3.根据权利要求2所述的一种基于对比表示学习的多模图像智能融合方法,其特征在于,在S3中,图像融合网络结构搭建:构建基于对比表示学习的图像融合网络框架,模型主体基于生成对抗网络架构,主要由编码器,解码器和判别器三部分组成,其中判别器只参与模型的训练过程,因此模型整体是一个端到端的网络,首先,模型的编码器部分,分别对源图像进行下采样,提取出丰富的不同尺度的深度特征,然后将最深层的特征进行拼接融合,解码器可以联合浅层和深度特征进行上采样,最终重构出融合...

【专利技术属性】
技术研发人员:杨小冈朱正杰卢瑞涛申通李清格蔡光斌席建祥夏克寒
申请(专利权)人:中国人民解放军火箭军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1