一种基于注意力机制的多源多尺度图像融合方法与装置制造方法及图纸

技术编号：41324636 阅读：4 留言：0更新日期：2024-05-13 15:02

本发明专利技术属于计算机视觉技术领域，具体公开提供的一种基于注意力机制的多源多尺度图像融合方法与装置。该方法包括：导入不同尺度下收集待融合的图像，并进行预处理，组合成多源图像对；提取多源图像对的全局特征提取；搭建多尺度图像融合网络结构；设置目标掩膜，进行全局特征信息进行标注；设置训练损失函数；进行多源图像对的图像融合训练，并输出融合图像；本发明专利技术有效解决了当前场景适应不足的问题，提高了全局特征表示的能力。此外，通过全局特征标注，提高融合图像中红外图像中重要信息的保留比例和可见光图像中背景纹理的保留比例，并且在掩模的基础上设计了内容损失来指导特征提取，实现更好的多源图像融合。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于于计算机视觉，涉及一种基于注意力机制的多源多尺度图像融合方法与装置。

技术介绍

1、多源图像融合是一种通过综合分析、选择或增强，将使用不同成像技术在同一场景中拍摄的原始图像整合到融合图像中的方法，有利于图像处理和视觉感知，广泛应用于军事、医疗、监控等领域。

2、现有的基于传统方法的图像融合虽然在简单场景应用中取得了一定的融合效果，但是仍然存在以下几点不足和欠缺：1、场景适应性不足：当区域之间的特征差异较大时，其提取重要特征的能力受到限制，导致融合图像边缘模糊，缺乏纹理细节，无法适应复杂的融合场景，无法确保融合效果。

3、2、图像信息整合的保障性不足：基于cnn的融合方法具有出色的局部特征提取能力，能够实现精确融合，避免人工设计复杂的融合策略。基于注意力机制的融合方法在全局特征提取具有突出的能力，能够解决融合中远距离依赖问题。然而，单独的cnn在捕获全局特征方面存在不足，同时，单独的注意力机制削弱了局部特征的提取能力，当前单一方式的融合方法无法确保图像特征信息提取的有效性、覆盖面和可靠性。

4、3、对图像中关键信息保留比的关注度不高，在图像融合过程中可能会丢失一些重要的细节和特征，这可能导致融合后的图像缺乏准确性和完整性，进而导致图像的清晰度、对比度和细节受损，影响图像的视觉效果和可用性。

技术实现思路

1、鉴于此，为解决上述
技术介绍
中所提出的问题，现提出一种基于注意力机制的多源多尺度图像融合方法与装置。

2、本专利技术的

3、s2、图像全局特征提取：通过四个尺度下的transformer模块对多源图像对进行四个不同尺度上的全局特征提取。

4、s3、融合网络结构搭建：搭建多尺度图像融合网络结构。

5、s4、图像特征信息标注：设置目标掩膜，对多源图像对中各图像内的全局特征进行标注。

6、s5、融合训练信息设置：设置多源图像对在融合训练过程中训练损失函数。

7、s6、图像融合训练：将所述训练损失函数与设置的多尺度图像融合网络结构进行整合，进而对完成全局特征信息标注的多源图像对进行图像融合训练。

8、s7、融合图像输出：完成图像融合训练后，输出融合图像。

9、优选地，所述进行四个不同尺度上的全局特征提取，具体提取过程包括以下步骤：a1、导入多源图像对，将导入的单通道融合图像对展开为三通道多源图像对。

10、a2、通过patch分割层将所述三通道待融合图像对划分为m×m×c局部窗口，m表示窗口边长，c表示图像通道数。

11、a3、将每个局部窗口标记为一个向量，将局部窗口线性嵌入到hw/m2×m×m×c特征中，进而将所述hw/m2×m×m×c特征输入到transformer模块中，输出第一尺度的全局特征，其中，hw/m2表示窗口总数，h表示图像高度，w表示图像宽度。

12、a4、将第一尺度的全局特征输入到补丁合并层中，进行融合和卷积降维，进而输入到第二尺度的注意力转换块中，输出第二尺度的全局特征。

13、a5、按照第二尺度对应全局特征的输出方式，同理在第三和第四个尺度上执行相同的操作，以此输出第三尺度和第四尺度的全局特征，进而提取得到四个不同尺度上的全局特征。

14、优选地，所述多尺度图像融合网络结构由两条主干网络和三条分支网络组成。

15、两条主干网络各由四个卷积层组成，卷积核大小分别为5×5卷积、3×3卷积、3×3卷积、3×3卷积，每个卷积层采用relu激活和批归一操作，各卷积层之间采用密集连接。

16、三条分支网络依次由三个、两个和一个卷积层组成，卷积核大小为3×3卷积，卷积层之间采用密集连接。

17、优选地，所述在两条主干网络对应5×5卷积层中的输入和输出通道的个数为1×64，且stride＝1、padding＝2。

18、在两条主干网络对应三个3×3卷积卷积层中的输入和输出通道数分别为64×128、192×256、448×512，且stride＝1、padding＝1。

19、优选地，所述多尺度图像融合网络结构中每个分支网络的输入来自主干的每个卷积层的输出，且stride＝1、padding＝1。

20、优选地，所述多源图像对在融合训练过程中训练损失函数包括整体损失函数l、内容损失函数lcon、结构相似度损失函数lssim和全局损失函数lglo，其中，l、lcon、lssim和lglo的具体表示公式如下：整体损失函数l＝α*lcon+β*lssim+γ*lglo，α、β、γ依次为内容损失函数、结构相似度损失函数、全局损失函数的权重超参数。

21、内容损失函数im表示显著目标掩膜，if表示融合图像，ii表示红外图像，iv表示可见光图像，表示元素乘法算子，表示梯度算子，||·||f表示frobenius范数。

22、结构相似度损失函数lssim＝(1-ssim(if,ii))-(1-ssim(if,iv))，ssim(·)表示结构相似性算子。

23、全局损失函数gfj表示融合图像在第j个尺度的全局特征，j表示尺度编号，j＝1,2,......4，gaj、gbj分别表示输入的红外图像、可见光图像在第j个尺度的全局特征，max(·)表示最大运算符。

24、优选地，所述进行图像融合训练，具体训练过程包括以下步骤：b1、将严格对齐的多源图像对作为各训练图像对，且每个训练图像对都包含红外图像和可见光图像，并且在空间上对齐，同时各训练图像对作为多尺度图像融合网络结构的输入，多源图像对的全局特征在多尺度图像融合网络结构对应两个支路网络间进行流动。

25、b2、使用预先设定的参数初始化多尺度图像融合网络结构。

26、b3、将各训练图像对输入到多尺度图像融合网络结构中，训练图像对经过主干网络和分支网络进行若干次卷积、池化、激活函数和注意力机制操作，以此执行多尺度图像融合网络结构的前向传播，进而输出训练图像对的特征表示，并作为融合图像的预测结果。

27、b4、将融合图像的预测结果与真实的融合图像进行比较，计算内容损失函数、结构相似度损失函数、全局损失函数，进而计算整体损失函数。

28、b5、将计算的整体损失函数的数值通过链式法则反向求导得到多尺度图像融合网络结构中每一层的梯度更新值，将所述梯度更新值与预先设定的参数进行求和，更新多尺度图像融合网络结构的权重，以此执行多尺度图像融合网络结构的反向传播。

29、b6、设置总训练迭代次数和学习率。

30、b7、重复b3、b4和b5步骤，进本文档来自技高网...

【技术保护点】

1.一种基于注意力机制的多源多尺度图像融合方法，其特征在于：该方法包括：

2.根据权利要求1所述的一种基于注意力机制的多源多尺度图像融合方法，其特征在于：所述进行四个不同尺度上的全局特征提取，具体提取过程包括以下步骤：

3.根据权利要求1所述的一种基于注意力机制的多源多尺度图像融合方法，其特征在于：所述多尺度图像融合网络结构由两条主干网络和三条分支网络组成；

4.根据权利要求3所述的一种基于注意力机制的多源多尺度图像融合方法，其特征在于：所述在两条主干网络对应5×5卷积层中的输入和输出通道的个数为1×64，且stride＝1、padding＝2；

5.根据权利要求3所述的一种基于注意力机制的多源多尺度图像融合方法，其特征在于：所述多尺度图像融合网络结构中每个分支网络的输入来自主干的每个卷积层的输出，且stride＝1、padding＝1。

6.根据权利要求1所述的一种基于注意力机制的多源多尺度图像融合方法，其特征在于：所述多源图像对在融合训练过程中训练损失函数包括整体损失函数L、内容损失函数Lcon、结构相似度损失函数L

7.根据权利要求1所述的一种基于注意力机制的多源多尺度图像融合方法，其特征在于：所述进行图像融合训练，具体训练过程包括以下步骤：

8.一种基于注意力机制的多源多尺度图像融合装置，其特征在于：该装置包括：

9.根据权利要求8所述的一种基于注意力机制的多源多尺度图像融合装置，其特征在于：所述全局特征提取模块由四个尺度的Transformer模块组成，每个尺度上分别包含两个、两个、六个、两个Transformer模块。

10.根据权利要求8所述的一种基于注意力机制的多源多尺度图像融合装置，其特征在于：所述Transformer模块通过残差连接，且Transformer模块包括批归一化、多头-自注意机制、层归一化和多层感知机。

...

【技术特征摘要】

1.一种基于注意力机制的多源多尺度图像融合方法，其特征在于：该方法包括：

6.根据权利要求1所述的一种基于注意力机制的多源多尺度图像融合方法，其特...

【专利技术属性】
技术研发人员：刘晶晶，张建华，郭爱英，张立，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人