一种基于深度学习的端到端多模态图像融合框架制造技术

技术编号:39294230 阅读:13 留言:0更新日期:2023-11-07 11:01
本发明专利技术属于图像处理领域,公开了一种基于深度学习的端到端多模态图像融合框架,用于解决针对复杂背景下跨模态图像融合结果存在模糊及特征提取能力不足的问题,本发明专利技术的融合方法基于卷积神经网络,核心在于利用特征编码模块和双分支嵌入的梯度滤波器来更好地捕获相关特征,再利自适应感知融合模块选择性地结合从红外和可见光偏振图像中提取的优势特征,实现互补融合。此外,设计了显著性加权像素级和梯度损失来指导对原始数据的图像特征进行提取和融合。最后,在特征解码模块通道维上对融合特征进行拼接和重构出融合图像。本发明专利技术能够有效实现复杂多模态图像的融合,具有特征提取效果好,融合图像视觉效果高、对比度高等特点。对比度高等特点。对比度高等特点。

【技术实现步骤摘要】
一种基于深度学习的端到端多模态图像融合框架


[0001]本专利技术涉及中波红外光图像和偏振光可见图像融合技术,具体涉及一种基于深度学习的端到端多模态图像融合框架。

技术介绍

[0002]图像融合实质上就是融合多个传感器所获取不同模态图像的有效信息,即融合不同光谱图像中各自突出的优点部分以弥补其缺陷。深度学习虽然是计算机视觉领域的主要方法之一,但是其在多模态图像融合的落地应用上仍然存在不确定性。以往多模态图像融合多定义为深度学习中无监督学习,这种学习方式缺乏真实标签引导。具体来说,大多数深度学习融合方法采用源图像为训练标签并在网络训练时通过降低源图像和融合图像之间的误差使融合图像能够保留较多特征,但是有时最终融合结果仍然具有不确定性。尤其是网络迭代训练时,融合后的图像通常会更加趋向于学习并仅保留某一光源的图像特征,有时甚至会丢失其他光源的图像特征;其次,为对多模态数据集实现高性能融合,还额外引入过多参数,导致网络的复杂性相应提高,最终使得训练网络仅在低算力显卡来完成端到端训练的难度极大的增加。
[0003]此外,大多数基于深度学习的多模态图像融合发生在低维度视觉下,而不涉及较高维度视觉下的区域,不利于计算机视觉多模态融合的运用与普及;当前主流的多光谱融合方法多数只在红外光和可见光数据集上实现,或是考虑了红外偏振与红外光图像融合,目的是将Stokes中的强度特性图像S0与偏振特性图像Dolp融合,进而获得对更高的场景度对比度进而提升目标探测能力以及融合强度更好的融合图像。但总的而言,现阶段基于深度学习的融合方法仍存在对源图像特征提取能力薄弱,融合图像中目标对比度不高,背景模糊等问题。
[0004]目前图像融合方法已逐渐由传统融合方法中人工需耗费大量精力设计的融合规则,转向为更加高效基于深度学习的图像融合方法。早期的传统图像融合方法具有较高的人工误差、泛化性低以及研发成本高的特点,并在面对复杂背景挑战时,融合效果较差。基于深度学习的融合方法将部分或全部工作交由神经网络完成,利用神经网络强大的端到端拟合能力,实现融合参数的自动化更新,能够更好地适配不同模态的图像,然而现阶段基于深度学习的融合方法仍存在对源图像利用率差、损失函数设计不合理,融合结果中无法突出目标等问题。
[0005]本专利技术的目的在于克服现有技术的不足,提供一种基于深度学习的端到端多模态图像融合框架,所述的图像融合方法可实现对多模态图像特征强力提取,能够互补融合多模态图像优势特征,并重建出高质量的融合图像,包括丰富的场景信息和高对比度以及边缘纹理细节。
[0006]本专利技术解决上述技术问题的技术方案是:
[0007]一种基于深度学习的端到端多模态图像融合框架,包括以下步骤:
[0008](S1)、利用不同成像模式的相机拍摄200对双模态图像构成待配准的双模态图像
集G,经配准后的图像集为H和两种模态图像分别记为I1、I2;
[0009](S2)、将双模态图像I1、I2作为网络输入,经过特征编码器子网络来捕获到相关特征和
[0010](S3)、将特征编码器的中间特征和进行通道特征相加获得融合特征
[0011](S4)、将融合特征经过自适应感知融合模块,对特征和的信息占比进行权重调整,获得新的特征和
[0012](S5),将获得特征和直接特征相加,获得特征F
add
,并将特征F
add
作为下一个的特征编码模块的输入,在最后一个特征编码模块中获得融合特征
[0013](S6)、将融合特征输入特征解码器子网络以重建出融合图像F;
[0014](S7)、将上述各个模块建成一个基于深度学习的端到端多模态图像融合框架中并计算输出的融合图像F与输入的多模态图像I1和I2之间的损失函数Loss值,通过对减低Loss值进行反向传播来训练多模态图像融合框架;
[0015](S8)、将待融合的双模态图像集H放入训练好的多模态图像融合框架中,测试得到融合图像F。
[0016]优选的,在步骤(S1)中,所述双模态图像包括但不限于可见光图像、不同波段红外图像、红外偏振图像、可见偏振图像等。
[0017]优选的,在步骤(S1)中,所述特征编码器子网络由6个特征编码模块(PEC)串联而成,其中PEC模块由卷积核大小分别为1
×
1和3
×
3的卷积层,卷积核大小为3
×
3的Prewitt算子以及非线性激活函数LReLU跳跃连接组成,用于提取多模态图像特征。
[0018]优选的,在步骤(S4)中,所述自适应感知融合模块(CFM)共有3个,其中由卷积核大小为3
×
3的Prewitt算子、平均池化层、卷积核大小为3
×
3的深度卷积层以及Sigmoid激活函数组成,用于提取出多模态图像全局层次上优势特征。
[0019]优选的,在步骤(S6)中,所述的特征解码器子网络由4个特征解码模块(EC)串联而成,其中EC模块由卷积核大小分别为1
×
1和3
×
3的卷积层以及非线性激活函数LReLU跳跃连接组成,用于重构高质量融合图像。
[0020]优选的,在步骤(S3)至步骤(S5)中,i表示图像的第i个特征编码器。
[0021]优选的,在步骤(S7)中,所述损失函数Loss由下式计算:
[0022][0023]其中,和分别为显著性目标像素级损失和背景内容像素级损失,用于使融合图像的整体像素对齐源图像对;另外,和分别为显著性目标梯度损失以及背景内容梯度损失,用于增加融合图像的局部平滑性以及丰富的背景细节;λ1,λ2,λ3和λ4为用于平衡四种损失函数的超参数;
[0024][0025][0026][0027][0028]其中,H、W分别是图像的高和宽,I
m
为语义图,I
f
为融合图像,I
po
为可见光偏振图像,I
ir
为中波红外光图像,

是指哈达玛积,max为元素最大化。
[0029]本专利技术与现有技术相比具有以下的有益效果:
[0030]1、本专利技术的基于深度学习的端到端多模态图像融合框架首先采用特征编码模块提取出源图像的不同通道数上的特征,为保留浅层特征中更多的纹理及细节信息和深层特征中更多目标的轮廓信息,其中特征编码模块由卷积核大小分别为1
×
1和3
×
3的卷积层,卷积核大小为3
×
3的Prewitt算子以及非线性激活函数LReLU跳跃连接组成,这种简单的组合方式能够有效利用背景边缘细节和目标的特征,实现更好的提取多模态图像特征,同时避免过多增加冗余参数。
[0031]2、本专利技术的基于深度学习的端到端多模态图像融合框架采用双分支利用特征编码模块和嵌入的梯度滤波器的特征融合方式,先提取不同模态图像的第i通道的特征图,一路将该特征图直接相加获得保持整体特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的端到端多模态图像融合框架,包括以下步骤:(S1)、利用不同成像模式的相机拍摄200对双模态图像构成待配准的双模态图像集G,经配准后的图像集为H和两种模态图像分别记为I1、I2;(S2)、将双模态图像I1、I2作为网络输入,经过特征编码器子网络来捕获到相关特征和(S3)、将特征编码器的中间特征和进行通道特征相加获得融合特征(S4)、将融合特征经过自适应感知融合模块,对特征和的信息占比进行权重调整,获得新的特征和(S5),将获得特征和直接特征相加,获得特征F
add
,并将特征F
add
作为下一个的特征编码模块的输入,在最后一个特征编码模块中获得融合特征(S6)、将融合特征输入特征解码器子网络以重建出融合图像F;(S7)、将上述各个模块建成一个基于深度学习的端到端多模态图像融合框架中并计算输出的融合图像F与输入的多模态图像I1和I2之间的损失函数Loss值,通过对减低Loss值进行反向传播来训练多模态图像融合框架;(S8)、将待融合的双模态图像集H放入训练好的多模态图像融合框架中,测试得到融合图像F。2.根据权利要求1所述的基于深度学习的端到端多模态图像融合框架,其特征在于,在步骤(S1)中,所述双模态图像包括但不限于可见光图像、不同波段红外图像、红外偏振图像、可见偏振图像等。3.根据权利要求1所述的基于深度学习的端到端多模态图像融合框架,其特征在于,在步骤(S2)中,所述的特征编码器子网络由6个特征编码模块(PEC)串联而成,其中PEC模块由卷积核大小分别为1
×
1和3
×
3的卷积层,卷积核大小为3
×
3的Prewitt算子以及非线性激活函数LReLU跳跃连接组成,用于提取多模态图像特征。4.根据权利...

【专利技术属性】
技术研发人员:邸江磊劳俞凯豆嘉真钟丽云张欢秦玉文
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1