基于交叉注意力的多模态图像分割方法技术

技术编号：41058958 阅读：4 留言：0更新日期：2024-04-24 11:10

本发明专利技术公开了基于交叉注意力的多模态图像分割方法，具体利用包含多个编码器模块的网络框架，用于处理合成孔径雷达SAR、光学OPT和近红外NIR图像。这些编码器模块逐步提取图像的浅层和深层特征。特别地，网络采用自注意力操作、交叉注意力融合机制增强不同图像、不同特征层之间的信息融合，从而提高特征表示的准确性和鲁棒性。此外，还整合了空洞空间金字塔池化ASPP模块，用于进一步提取和融合图像特征。该模块能够有效地保持空间上的连续性和上下文信息。网络的解码器部分采用了一系列卷积层，用于将提取的特征转换为最终的分割输出。通过这种创新的结构设计，能够有效处理和解析复杂的图像数据，提供高精度的图像分割结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于遥感图像处理，具体涉及基于交叉注意力的多模态图像分割方法。

技术介绍

1、遥感图像分割是在遥感图像上对土地覆盖的类别进行划分的一项重要技术，它涉及对遥感图像中的土地覆盖种类进行区分。这个过程不仅展示了人类如何利用和改造土地，而且也展现了土地的使用方式和目的。这些分类结果对于土地管理、环境保护，以及城市规划等多个领域都有直接的应用价值。

2、在最近几年，深度卷积神经网络(dcnn)为处理和应用大量遥感图像带来了新的方法，尤其是在土地利用分类方面。与传统方法相比，基于深度学习的这种方法在分析图像的空间和语义特征方面更为有效。当前，主要的土地利用分类技术可以分为两大类：一是基于像素的分类，这里dcnn利用原始像素中提取的高维语义特征，例如mcnn利用多尺度学习捕捉不同层面的上下文信息，rotnet通过旋转不变性结构增强模型的泛化能力，而像pt-gid这样的网络则能自动选择目标领域的训练样本以实现半监督学习。二是基于对象的分类，这种方法将dcnn与对象级图像分析框架结合，以获取更精确的边界判定，如ocnn设计了基于对象的图像分析框架来获得更准确的边界信息。

3、在遥感领域，一个主要的研究重点是如何提高高分辨率遥感影像在土地利用分类中的精确度。大多数现有的研究方法还没有有效地深入建模和融合光学图像与雷达图像中的空间和语义特征，这导致它们在分类结果上往往无法达到预期的满意程度。在实际应用中，依赖单一的数据源通常不足以训练有效的土地利用分类器。因此，融合不同的成像技术变得尤为重要。其中，光学成像提供了丰富

技术实现思路

1、本专利技术的目的在于提供基于交叉注意力的多模态图像分割方法，解决了现有遥感图像分割精度低的问题。

2、本专利技术所采用的技术方案是：基于交叉注意力的多模态图像分割方法，具体操作步骤如下：

3、步骤1、通过固定步长和固定尺寸的图像裁剪方法将原始数据中一张大小为1024×1024像素的图像裁剪为64张像素大小为128×128的图像；

4、步骤2、利用随机采样法构造数据集，从数据集中按照3:1:1随机划分数据为训练集、验证集和测试集，其中测试集作为本方法最终性能的数据集；

5、步骤3、创建双分支特征提取网络，即由两个特征提取分支分别对光学opt和sar图像进行特征提取，并保存浅层卷积神经网络cnn特征提取结果(既经过前两层卷积得到的特征图，这些层主要负责提取低级特征，如边缘、纹理、颜色(对于光学图像)和基本形状。在处理sar图像时，浅层更专注于捕捉粗糙度、表面特征等。浅层卷积具有较小的感受野，它们捕捉的是图像中的局部特征。)和深层卷积神经网络cnn特征提取结果(既由特征提取网络的最后一层得到的特征图，深层提取更高级的特征，这些特征是低级特征的组合，形成更复杂的模式。对于光学图像，深层可以捕捉到物体的部分、特定的形状或者场景的整体结构。在sar图像中，深层可以更专注于识别复杂的空间结构，如城市布局、地形变化等。深层卷积具有较大的感受野，使其能够捕捉到图像中的全局或者较大范围的特征。)；

6、步骤4、对保存的光学(opt)和sar图像的浅层卷积神经网络cnn特征提取结果进行自注意力操作和交叉注意力操作，融合光学图像和sar图像的特征。对于它们深层的卷积神经网络cnn特征提取结果，采用空洞空间金字塔池化(aspp)捕捉不同尺度的特征，弥补卷积网络的局限性。得到浅层特征与深层特征之后，将它们在通道维度进行拼接，然后输入解码器，由解码器获得每个像素对应的分类结果。

7、步骤5、输入特征图到解码器之后获得通道数与类别数相同的特征图，再通过softmax将每个像素在各通道的值转换为范围在[0,1]且和为1的概率分布上，对于某一个像素，比较该像素位置在所有通道上的概率，选择具有最高概率的通道，其索引即为该像素的预测类别，即得到最终的分割结果；然后利用交叉熵损失函数计算损失并进行反向传播更新网络参数，更新网络参数时需重复步骤3-5共50个epoch直至网络精度达到最优；即获得优化后双分支特征提取网络；

8、步骤6：将待分割图像输入优化后双分支特征提取网络进行图像分割。

9、本专利技术的特点还在于，

10、步骤1中，对原始数据1024×1024的图像进行固定步长、固定尺寸的规范化裁剪至128×128大小，并使光学与sar图像的每个裁剪块保持一致以扩充数据集，并对训练集数据进行图片预处理，在训练时将数据集分成了多个小批次，然后模型对这些小批次训练集依次进行训练，在对每个小批次进行采样时，确保每个批次包含8张不重复的图像，且每张图像至少包含两个类(背景除外)以保证相对的类别平衡。

11、步骤1中，判断每张图像中像素值的类别数，即去除除背景外只含有一种像素类别的图像，对每个像素类别进行惩罚权重计算，赋予不同像素类别不同的权重以避免数据类别不平衡的问题；惩罚权重计算公式如下；

12、

13、

14、其中proportionpixel[i]是类别为i的像素占总像素数的比例，weight[i]是根据proportionpixel[i]调整后的权重，频率越低的类别获得更高的权重。

15、步骤2中，训练集、验证集、测试集采用3:1:1的比例，保证了有足够多的数据用于训练，对具体数据进行随机采样；验证集相对较小，但应足以提供对本方法性能的可靠估计；测试集用于对本方法的性能评估，独立的测试集可以提供关于本方法在未知数据上表现的客观评价。

16、步骤3中所述双分支特征提取网络，建立两个专门的特征提取分支，一个用于处理光学(opt)图像，另一个用于处理合成孔径雷达(sar)图像。这两个分支都是为了从各自的数据源中提取有用的特征，以便进行后续的图像分割任务。sar特征提取分支：这个分支专门处理sar图像，通过一系列的编码器块(_encoderblock)逐步提取特征。首先，将光学图像和sar图像输入到预训练网络resnet50中，然后将卷积后的结果输入到双分支特征提取网络中得到covlow-opt和covlow-sar大小为64×64×256的浅层特征，然后将covlow-opt和covlow-sar通过特征融合得到64×64×48的浅层特征融合结果，然后双分支特征提取网络继续卷积最终得到深层特征32×32×256。

17、以深层特征为例，将光学图像xopt和sar图像块xsar输入到双分支特征提取网络的两个卷积流中，光学图像深层特征表示为：

18、

19、其中，表示光学图像的深层特征表示，是光学图像的浅层特征，l表示卷积网络的总层数，表示线性投影，即卷积层的权重；表示输入图本文档来自技高网...

【技术保护点】

1.基于交叉注意力的多模态图像分割方法，其特征在于，具体操作步骤如下：

2.根据权利要求1所述的基于交叉注意力的多模态图像分割方法，其特征在于，步骤1中，对数据集图片进行预处理，将数据集分成多个小批次，然后对这些小批次依次进行采样，在对每个小批次进行采样时，确保每个批次包含8张不重复的图像，且每张图像至少包含两个像素类别。

3.根据权利要求2所述的基于交叉注意力的多模态图像分割方法，其特征在于，步骤1中，判断每张图像中像素值的类别数，即去除除背景外只含有一种像素类别的图像，对每个像素类别进行惩罚权重计算，赋予不同像素类别不同的权重以避免数据类别不平衡的问题；惩罚权重计算公式如下；

4.根据权利要求3所述的基于交叉注意力的多模态图像分割方法，其特征在于，步骤3所述双分支特征提取网络包括SAR特征提取分支和OPT特征提取分支；所述SAR特征提取分支用于处理SAR图像，通过一系列的编码器块逐步提取特征；从单通道的SAR图像开始，逐步增加通道数，同时逐层增加特征的抽象程度；分支中的每个编码器块包括卷积层、批量归一化和ReLU激活函数，以及下采样操作，所

5.根据权利要求4所述的基于交叉注意力的多模态图像分割方法，其特征在于，步骤4所述自注意力操作和交叉注意力操作用于融合特征，具体的，对由光学图像得到的自注意力图和交叉注意力图赋予0.8的权重占比，对由SAR图像得到的自注意力图和交叉注意力图赋予0.2的权重占比，将上述四个注意力图按照规定权重进行融合，提高特征间的互补性；所述空洞空间金字塔池化模块ASPP包含三个空洞卷积层，每个卷积层使用不同的空洞率；ASPP中的计算公式如下：

6.根据权利要求5所述的基于交叉注意力的多模态图像分割方法，其特征在于，步骤5中，对所述特征图的每个像素位置应用Softmax函数，将每个通道上的值转换为范围在[0,1]且和为1的概率分布；对于特征图中的每个像素位置，比较该位置在所有通道上的概率，选择具有最高概率的通道对应的索引即为该像素的预测类别，由此得到最终的分割结果。

7.根据权利要求4所述的基于交叉注意力的多模态图像分割方法，其特征在于，所述激活函数Softmax表示为：

8.根据权利要求1所述的基于交叉注意力的多模态图像分割方法，其特征在于，步骤1所述光学图像是由光学RGB图像和近红外图像NIR进行通道维度的拼接，得到四通道光学图像OPT。

9.根据权利要求1所述的基于交叉注意力的多模态图像分割方法，其特征在于，步骤5中更新网络参数时需重复步骤3-5共50个epoch直至网络精度达到最优。

...

【技术特征摘要】

1.基于交叉注意力的多模态图像分割方法，其特征在于，具体操作步骤如下：

4.根据权利要求3所述的基于交叉注意力的多模态图像分割方法，其特征在于，步骤3所述双分支特征提取网络包括sar特征提取分支和opt特征提取分支；所述sar特征提取分支用于处理sar图像，通过一系列的编码器块逐步提取特征；从单通道的sar图像开始，逐步增加通道数，同时逐层增加特征的抽象程度；分支中的每个编码器块包括卷积层、批量归一化和relu激活函数，以及下采样操作，所述sar特征提取分支能够从原始sar图像中提取深层特征；所述opt特征提取分支用于处理光学图像，其结构与sar特征提取分支类似，起始的输入通道数为4；同样地，opt特征提取分支通过一系列的编码器块来提取光学图像的特征；每个编码器块逐步提升特征的抽象层次，同时增加通道数，以捕获更多的...

【专利技术属性】
技术研发人员：赵志强，于浩，贾萌，王晓帆，黑新宏，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人