一种自监督学习的多模态图像融合方法及其应用技术

技术编号:36096484 阅读:13 留言:0更新日期:2022-12-24 11:15
本发明专利技术公开了一种自监督学习的多模态图像融合方法及其应用,该方法包括:1、获取大型自然图像数据集并进行预处理,得到随机低分辨图像;2、构建基于Transformer的编码器

【技术实现步骤摘要】
一种自监督学习的多模态图像融合方法及其应用


[0001]本专利技术涉及图像融合
,尤其涉及基于深度学习的多模态图像融合方法及其应用。

技术介绍

[0002]由于硬件设备的限制,单一类型的成像传感器无法刻画出一个场景下的所有信息。多模态图像融合旨在综合同一场景下不同模态图像的重要信息,合成一张信息更丰富的图像。其被广泛应用于民用或军用监控系统,以及临床应用。例如,可见光传感器通过捕捉反射光来生成具有大量细节的图像,而红外传感器通过热辐射能够突出显著的目标。可见光图像和红外图像的融合则给环境监控带来了极大便利。在医学成像领域,计算机断层扫描成像(Computed Tomography, CT)能够反映出诸如骨头和植入物之类的密集结构,而核磁共振成像(Magnetic Resonance Imaging, MRI)主要提供软组织细节信息。CT和MRI的融合帮助精准定位骨肿瘤的边界。
[0003]有效的特征提取方式和融合策略是实现多模态图像融合的关键。为此,传统方法提出了许多分解方式来提取源图像的特征,包括多尺度变换、稀疏表示、子空间分析等。然后,不同源图像的分解系数使用某种融合规则进行融合。常用的融合规则有最大值、最小值、求和、L1范数等。最后,将融合后的系数通过分解方式的逆变换重构为融合图像。传统的多模态图像融合方法已经取得了良好的融合效果,但也存在着一些不足,限制了融合性能的进一步提高。首先,以上人为定义的分解方式很难充分提取源图像的重要特征。其次,这些分解方式的设计是非常复杂且耗时的。
[0004]近年来,凭借自动提取特征的能力,基于深度学习的方法成为多模态图像融合领域的主流。由于参考融合图像的缺乏,现有的针对多模态图像融合的深度学习方法按照训练方式可以分成两类:无监督学习和自监督学习。无监督学习通过最小化源图像和融合图像之间的损失函数来约束融合图像保留的信息。但是它存在两个问题:一是难以度量和平衡不同源图像保留到融合图像的信息量,容易导致融合图像的信息保留不准确或不充分;二是无监督学习需要大量的训练数据,然而当前的多模态图像融合数据集体量不够大,尤其是医学图像数据集。缺乏大体量的训练集容易导致模型过拟合以及低泛化性。鉴于以上无监督学习中存在的问题,一些研究工作利用自监督学习来实现多模态图像融合。具体而言,这些方法首先用大体量的自然图像数据集通过简单的图像重构任务来训练一个编码器

解码器结构的网络,然后在训练好的编码器之后、解码器之前加入融合规则来融合编码器提取的不同源图像的特征,接着融合特征输入到解码器去重构出融合图像。然而,这些自监督方法忽略了训练数据(自然图像数据集)和测试数据(多模态图像融合数据集)之间的域差异,限制了目标任务的融合性能。
[0005]此外,当前基于深度学习的多模态图像融合方法大多基于卷积神经网络(Convolutional Neural Network, CNN)来提取源图像的特征,并实现了不错的融合效果。事实上,一幅高质量的融合图像不仅需要考虑源图像对的局部区域内的像素,也需要考虑
整幅图像的像素强度和纹理细节。因此,对多模态图像融合而言,局部和全局信息的捕捉是至关重要的。CNNs擅长提取局部特征,但无法有效地建模长程依赖关系,因此可能会丢失一些重要的信息。

技术实现思路

[0006]本专利技术为克服现有技术的不足之处,提出一种自监督学习的多模态图像融合方法及其应用,以期能直接从多个模态图像中合成一幅包含了所有模态图像重要信息的融合图像,从而能更快捷方便地辅助医生进行临床实践,以及辅助于民用和军用的环境监测系统。
[0007]本专利技术为达到上述专利技术目的,采用如下技术方案:本专利技术一种自监督学习的多模态图像融合方法的特点在于,包括如下步骤:步骤一、获取大型自然图像数据集并进行预处理,得到随机低分辨图像集合:步骤1.1、从大型自然图像数据集获取原始训练图像集合,并将每张原始训练图像转换到灰度空间后,再将得到的每张灰度训练图像裁剪到固定尺寸,从而得到裁剪后的灰度图像集合,其中一张裁剪后的灰度图像记为I;步骤1.2、为每张裁剪后的灰度图像设置一个随机概率,若随机概率小于阈值p,则将相应裁剪后的灰度图像转换成低分辨图像,否则,不转换,从而得到随机低分辨图像集合,其中,裁剪后的灰度图像I对应的一张随机低分辨率图像记为I';步骤二、构建超分辨网络,包括一个编码器和一个解码器;并将随机低分辨图像I'输入到超分辨网络中进行自监督训练,得到优化后的编码器和优化后的解码器:步骤2.1、构建编码器,依次包括一个输入映射层、K个编码阶段、一个瓶颈层:步骤2.1.1、构建输入映射层,依次包括一个卷积层和一个LeakyReLU激活函数;并将随机低分辨图像I'输入所述输入映射层中进行处理后,得到输入映射层输出的特征图;步骤2.1.2、构建K个编码阶段,并对所述输入映射层输出的特征图进行处理,从而由第K个编码阶段输出编码特征Feat
K
;步骤2.1.3、构建由N
K+1
个LeWin Transformer模块构成的瓶颈层,并将所述编码特征Feat
K
输入到瓶颈层中,得到瓶颈层输出的编码特征Feat
K+1
;步骤2.2、构建解码器,依次包括K个解码阶段和一个输出映射层,并对编码特征进行处理,得到超分辨图像I
̃
;步骤2.3、构建损失函数:以裁剪后的灰度图像I作为参考超分辨图像,按式(1)构建与所述超分辨图像之间的损失函数Loss:
ꢀꢀꢀꢀꢀꢀꢀ
(1)式(1)中,e是一个扰动常数;步骤2.4、将低分辩图像集合按B个图像为一批循环输入到所述超分辨网络中,并采用AdamW优化器对损失函数Loss进行最小化求解,以优化超分辨网络中的所有参数,并得到优化后的编码器和优化后的解码器;步骤三、构建融合模型,包括:优化后的编码器、融合模块、优化后的解码器,并将待融合的多个模态图像经过色彩空间转换后输入到融合模型中再进行色彩空间转换,得到
最终融合图像:步骤3.1、将待融合的S个模态图像进行色彩空间转换,得到亮度通道下的S个模态图像{I1,

,I
s
,

,I
S
},其中,I
s
表示亮度通道下的第s个模态图像,s∈{1,2,

,S};步骤3.2、将所述第s个模态图像I
s
输入到所述优化后的编码器中,得到所述优化后的编码器的第k个编码阶段输出的第s个模态图像I
s
的特征图F
k,s
,从而得到所述优化后的编码器的第k个编码阶段输出的S个模态图像{I1,

,I
s
,

,I
S
}的特征图集合{F
k,1
,

, F
k,s
,

, F
k,S
};步骤3.3、构建融合模块,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自监督学习的多模态图像融合方法,其特征在于,包括如下步骤:步骤一、获取大型自然图像数据集并进行预处理,得到随机低分辨图像集合:步骤1.1、从大型自然图像数据集获取原始训练图像集合,并将每张原始训练图像转换到灰度空间后,再将得到的每张灰度训练图像裁剪到固定尺寸,从而得到裁剪后的灰度图像集合,其中一张裁剪后的灰度图像记为I;步骤1.2、为每张裁剪后的灰度图像设置一个随机概率,若随机概率小于阈值p,则将相应裁剪后的灰度图像转换成低分辨图像,否则,不转换,从而得到随机低分辨图像集合,其中,裁剪后的灰度图像I对应的一张随机低分辨率图像记为I';步骤二、构建超分辨网络,包括一个编码器和一个解码器;并将随机低分辨图像I'输入到超分辨网络中进行自监督训练,得到优化后的编码器和优化后的解码器:步骤2.1、构建编码器,依次包括一个输入映射层、K个编码阶段、一个瓶颈层:步骤2.1.1、构建输入映射层,依次包括一个卷积层和一个LeakyReLU激活函数;并将随机低分辨图像I'输入所述输入映射层中进行处理后,得到输入映射层输出的特征图;步骤2.1.2、构建K个编码阶段,并对所述输入映射层输出的特征图进行处理,从而由第K个编码阶段输出编码特征Feat
K
;步骤2.1.3、构建由N
K+1
个LeWin Transformer模块构成的瓶颈层,并将所述编码特征Feat
K
输入到瓶颈层中,得到瓶颈层输出的编码特征Feat
K+1
;步骤2.2、构建解码器,依次包括K个解码阶段和一个输出映射层,并对编码特征进行处理,得到超分辨图像I
̃
;步骤2.3、构建损失函数:以裁剪后的灰度图像I作为参考超分辨图像,按式(1)构建与所述超分辨图像之间的损失函数Loss:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式(1)中,e是一个扰动常数;步骤2.4、将低分辩图像集合按B个图像为一批循环输入到所述超分辨网络中,并采用AdamW优化器对损失函数Loss进行最小化求解,以优化超分辨网络中的所有参数,并得到优化后的编码器和优化后的解码器;步骤三、构建融合模型,包括:优化后的编码器、融合模块、优化后的解码器,并将待融合的多个模态图像经过色彩空间转换后输入到融合模型中再进行色彩空间转换,得到最终融合图像:步骤3.1、将待融合的S个模态图像进行色彩空间转换,得到亮度通道下的S个模态图像{I1,

,I
s
,

,I
S
},其中,I
s
表示亮度通道下的第s个模态图像,s∈{1,2,

,S};步骤3.2、将所述第s个模态图像I
s
输入到所述优化后的编码器中,得到所述优化后的编码器的第k个编码阶段输出的第s个模态图像I
s
的特征图F
k,s
,从而得到所述优化后的编码器的第k个编码阶段输出的S个模态图像{I1,

,I
s
,

,I
S
}的特征图集合{F
k,1
,

, F
k,s
,

, F
k,S
};步骤3.3、构建融合模块,并对所述特征图集合{F
k,1
,

, F
k,s
,

, F
k,S
}进行融合,得到所述S个模态图像{I1,

,I
s
,

,I
S
}在所述第k个编码阶段的融合特征图F
k

步骤3.4、将K个编码阶段的融合特征图集合{F1,

,F
k
,

,F
K
}输入到优化后的解码器,得到初步融合图像;步骤3.5、若待融合的S个模态图像是灰度图像,则初步融合图像即是最终融合图像;若待融合的S个模态图像是RGB色彩空间,则按以下过程处理:首先将待融合的S个模态图像分别转换到YCbCr空间,得到S个模态图像在Cb通道上的图像集合和Cr通道上的图像集合;将所述Cb通道上的图像集合和所述Cr通道上的图像集合分别进行加权融合,得到融合后的Cb通道图像和融合后的Cr通道图像;将所述融合后的Cb通道图像、所述融合后的Cr通道图像与初步融合图像在通道维度上进行拼接并转换到RGB色彩空间,从而得到最终融合图像。2.根据权利要求1所述的自监督学习的多模态图像融合方法,其特征在于,所述步骤2.1.2包括:令K个编码阶段中的第k个编码阶段依次包括N
k
个LeWin Transformer模块和一个下采样层,k∈{1,2,

,K};所述第k个编码阶段的N
k
个LeWin Transformer模块分别记为LeWin
k,1
,

, LeWin
k,n
,

, ,n∈{1,2,

, N
k
},其中,LeWin
k,n
表示第k个编码阶段的第n个LeWin Transformer模块,并依次包括:第一个归一化层LN
k,n,1
、一个基于窗口的多头注意力机制模块WMSA
k,n
、第二个归一化层LN
k,n,2
、一个局部增强的前馈网络LeFF
k,n
;当k=1,n=1时,令所述输入映射层输出的特征图作为所述第k个编码阶段的第n个LeWin Transformer模块LeWin
k,n
的输入,记为,并经过第一个归一化层LN
k,n,1
的处理后输出特征图X
k,n
∈R
C
´
H
´
W
,C、H、W分别代表特征图X
k,n
的通道数目、宽、高;所述第k个编码阶段的第n个LeWin Transformer模块LeWin
k,n
的多头注意力机制模块WMSA
k,n
对所述特征图X
k,n
按尺寸为M
´
M的不重叠窗口进行划分,得到N个窗口的特征图,再将N个窗口的特征图分别拉平,从而得到特征向量,N=HW/M2;其中,表示所述多头注意力机制模块WMSA
k,n
中第i个窗口内的特征向量,i∈{1,2,

,N};对所述多头注意力机制模块WMSA
k,n
中第i个窗口内的特征向量进行第h个头的注意力计算,得到第i个窗口的第h个头的注意力计算结果,h∈{1...

【专利技术属性】
技术研发人员:陈勋张静刘爱萍谢洪涛谢庆国钱若兵张勇东
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1