一种基于多模态注意与自适应融合的遥感图像语义分割方法技术

技术编号：23605442 阅读：177 留言：0更新日期：2020-03-28 06:20

本发明专利技术公开了一种基于多模态注意与自适应融合的遥感图像语义分割方法，属于计算机视觉领域。具体包括：1)使用遥感图像多模态数据集，包括数据处理后的遥感图像及对应的深度图构建双流的语义分割网络；2)分别对输入图像提取不同尺度的特征，将获取的特征进行多层的自适应特征融合；3)使用多模态注意力机制对网络解码器部分的输入特征与编码器特征进行丰富语义信息的提取，关注相似的像素点。本发明专利技术利用多模态的遥感数据集，处理图像数据，结合双流网络结构，自适应融合提取的特征，并使用多模态注意力机制关注融合特征与编码特征，从而优化模型性能。

A semantic segmentation method of remote sensing image based on multimodal attention and adaptive fusion

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态注意与自适应融合的遥感图像语义分割方法
本专利技术涉及遥感图像处理技术，尤其涉及一种基于多模态注意与自适应融合的遥感图像语义分割方法。
技术介绍
遥感是一种非接触、远距离的探测技术。一般来说，它是用来探测和识别目标物体本身通过传感器发射或反射的电磁波、红外线和可见光。随着遥感技术的飞速发展，特别是近年来高分辨率遥感影像的出现，这项技术已成为及时进行全球或区域地球观测的重要手段。遥感影像的规模也在逐步扩大，影像内容提供的信息也越来越丰富。图像语义分割的目标是用相应的类标记图像中的每个像素。它是像素级的图像分类。因为我们要预测图像中的每个像素，所以这个任务通常被称为密集预测。值得注意的是，与之前的赋值不同，语义分割的预期输出不仅仅是标签和边界框参数。输出本身是一个高分辨率图像(通常与输入图像的大小相同)，其中每个像素被分类为一个特定的类。目前，语义分割是计算机视觉的关键问题之一。在宏观意义上，语义分割是一项高层次的工作，它为场景理解铺平了道路。作为计算机视觉的核心问题，场景理解变得越来越重要。应用场景需要从图像中推断出相关的知识或语义(即从具体到抽象的过程)。这些应用包括自动驾驶仪、人机交互、计算摄影、图像搜索引擎、增强现实等。应用各种传统的计算机视觉和机器学习技术，解决了这些问题。尽管这些方法普遍存在，但深度学习的革命已经在相关领域发生了巨大的变化。因此，许多计算机视觉问题，包括语义分割，开始使用深度结构来解决，通常是卷积神经网络cnn，这比传统方法更准确和高效。此后，许多方法以此...

【技术保护点】
1.一种基于多模态注意与自适应融合的遥感图像语义分割方法，其特征在于：包括如下步骤：/n(1)构建双流语义分割网络，包括如下步骤：/n(11)构建双流语义分割网络的特征提取器；/n(12)引入多层特征自适应融合；/n(13)构建双流语义分割的解码器，并引入多模态注意力机制，形成双流语义分割网络；/n(2)构建数据集并进行双流语义分割网络训练，包括如下步骤：/n(21)构建数据集；/n(22)对数据集进行数据预处理；/n(23)进行双流语义分割网络训练；/n(3)运行双流语义分割网络。/n

【技术特征摘要】
1.一种基于多模态注意与自适应融合的遥感图像语义分割方法，其特征在于：包括如下步骤：
(1)构建双流语义分割网络，包括如下步骤：
(11)构建双流语义分割网络的特征提取器；
(12)引入多层特征自适应融合；
(13)构建双流语义分割的解码器，并引入多模态注意力机制，形成双流语义分割网络；
(2)构建数据集并进行双流语义分割网络训练，包括如下步骤：
(21)构建数据集；
(22)对数据集进行数据预处理；
(23)进行双流语义分割网络训练；
(3)运行双流语义分割网络。

2.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法，其特征在于：所述步骤(11)，具体包括如下：
(111)删除卷积神经网络结构中的全连接层，形成一个通过卷积将输入张量转化成小尺度张量的编码器，采用该编码器对输入的RGB图进行编码，将对RGB图进行编码的编码器称为RGB图通道；
(112)复制一个与步骤(111)相同的编码器，采用该编码器对深度图进行编码，将对深度图进行编码的编码器称为深度图通道。

3.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法，其特征在于：所述步骤(12)，具体包括如下：
(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1；
(122)定义自适应融合矩阵An1和An2，其中n＝1,2,3,4,5，An1+An2＝1，初始化An1＝An2＝0.5；
(123)进行第一次特征自适应融合R1＝A11×D1+A12×F1；
(124)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2，其中，D2是由D1经过池化卷积得到，F2是由R1经过池化卷积得到；根据梯度下降法更新An1和An2，并使用归一化函数softmax(·)优化更新后的An1和An2；
(125)进行第二次特征自适应融合R2＝A21×D2+A22×F2；
(126)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3，其中，D3是由D2经过池化卷积得到，F3是由R2经过池化卷积得到；根据梯度下降法更新An1和An2，并使用归一化函数softmax(·)优化更新后的An1和An2；
(127)进行第三次特征自适应融合R3＝A31×D3+A32×F3；
(128)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4，其中，D4是由D3经过池化卷积得到，F4是由R3经过池化卷积得到；根据梯度下降法更新An1和An2，并使用归一化函数softmax(·)优化更新后的An1和An2；
(129)进行第四次特征自适应融合R4＝A41×D4+A42×F4；
(1210)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5，其中，D5是由D4经过池化卷积得到，F5是由R4经过池化卷积得到；根据梯度下降法更新An1和An2，并使用归一化函数softmax(·)优化更新后的An1和An2；
(1211)进行第五次特征自适应融合R5＝A51×D5+A52×F5。

4.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法，其特征在于：所述步骤(13)，具体包括如下：
(131)将步骤(1210)得到的融合特征F5进行反卷积得到U5；
(132)计算多模态注意力机制：
A4＝f(U5,R4,D4)＝ω4(relu(ω1U5+ω2R4+ω3D4))×R4
其中：ω1、ω2、ω3和ω4为权重矩阵，relu(·)为激活函数；
(133)使用张量拼接函数concatenate(·)叠加A4和U5，得到C4＝A4+U5；
(134)使用upconv(·)函数计算C4，得到维度减半的张量Y4；
(135)将步骤(134)中得到的Y4进行反卷积得到U4；
(136)计算多模态注意力机制：
A3＝f(U4,R3,D3)＝ω4(relu(ω1U4+ω2R3+ω3D3))×R3；
(1...

【专利技术属性】
技术研发人员：周勇，杨劲松，赵佳琦，夏士雄，姚睿，刘兵，杜文亮，王秋，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人