一种基于多模态注意与自适应融合的遥感图像语义分割方法技术

技术编号:23605442 阅读:177 留言:0更新日期:2020-03-28 06:20
本发明专利技术公开了一种基于多模态注意与自适应融合的遥感图像语义分割方法,属于计算机视觉领域。具体包括:1)使用遥感图像多模态数据集,包括数据处理后的遥感图像及对应的深度图构建双流的语义分割网络;2)分别对输入图像提取不同尺度的特征,将获取的特征进行多层的自适应特征融合;3)使用多模态注意力机制对网络解码器部分的输入特征与编码器特征进行丰富语义信息的提取,关注相似的像素点。本发明专利技术利用多模态的遥感数据集,处理图像数据,结合双流网络结构,自适应融合提取的特征,并使用多模态注意力机制关注融合特征与编码特征,从而优化模型性能。

A semantic segmentation method of remote sensing image based on multimodal attention and adaptive fusion

【技术实现步骤摘要】
一种基于多模态注意与自适应融合的遥感图像语义分割方法
本专利技术涉及遥感图像处理技术,尤其涉及一种基于多模态注意与自适应融合的遥感图像语义分割方法。
技术介绍
遥感是一种非接触、远距离的探测技术。一般来说,它是用来探测和识别目标物体本身通过传感器发射或反射的电磁波、红外线和可见光。随着遥感技术的飞速发展,特别是近年来高分辨率遥感影像的出现,这项技术已成为及时进行全球或区域地球观测的重要手段。遥感影像的规模也在逐步扩大,影像内容提供的信息也越来越丰富。图像语义分割的目标是用相应的类标记图像中的每个像素。它是像素级的图像分类。因为我们要预测图像中的每个像素,所以这个任务通常被称为密集预测。值得注意的是,与之前的赋值不同,语义分割的预期输出不仅仅是标签和边界框参数。输出本身是一个高分辨率图像(通常与输入图像的大小相同),其中每个像素被分类为一个特定的类。目前,语义分割是计算机视觉的关键问题之一。在宏观意义上,语义分割是一项高层次的工作,它为场景理解铺平了道路。作为计算机视觉的核心问题,场景理解变得越来越重要。应用场景需要从图像中推断出相关的知识或语义(即从具体到抽象的过程)。这些应用包括自动驾驶仪、人机交互、计算摄影、图像搜索引擎、增强现实等。应用各种传统的计算机视觉和机器学习技术,解决了这些问题。尽管这些方法普遍存在,但深度学习的革命已经在相关领域发生了巨大的变化。因此,许多计算机视觉问题,包括语义分割,开始使用深度结构来解决,通常是卷积神经网络cnn,这比传统方法更准确和高效。此后,许多方法以此为基础,将卷积神经网络模型应用到遥感图像语义分割中来,但是与自然场景图像相比,遥感图像往往包含更丰富的多元信息,如何充分利用图像的其他信息,提升分割精度,仍是遥感图像语义分割中的难点,相关方法不断被提出。随着传感器技术的飞速发展,人们对利用深度信息进行语义分割产生了浓厚的兴趣。深度数据变得广泛,因为它很容易被捕获。毫无疑问,深度信息可以改善分割,因为它捕获的几何信息不是通过颜色通道获得的。在中,深度数据作为除了rgb通道作为输入之外的第四个通道添加到网络中。这种直接的分割方法提高了分割性能。尽管深度数据有助于从场景中分离对象,但它的语义信息比颜色少得多。此外,深度和颜色通道之间的相关性很小,这促使更好的方法使用深度来增强语义分割。此外,现有的基于遥感图像的语义分割仍存在以下问题:(1)遥感数据集中各类图像在角度、颜色、大小等方面存在显著差异,类间也存在实质性的相似性。例如,遥感图像类别之间的边缘区分是不可见的,比如树木和建筑物的阴影会产生遮挡问题。而遥感图像中存在着大量的建筑物、树木等小目标。从现有的深度学习模型中学习鲁棒特征表示提出了新的挑战,这是提高遥感图像语义分割精度的关键。(2)随着传感器技术的发展,遥感图像的其他数据采集在语义分割中没有得到充分的利用,且遥感图像数据集的采集过程存在噪声影响。(3)现有的语义分割方法在大范围遥感图像小目标特征提取方面存在一些不足。这使得有效提取遥感图像中小目标的特征信息成为可能。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于多模态注意与自适应融合的遥感图像语义分割方法,该方法基于RGB图和深度图的双流语义分割网络,对遥感图像数据集进行数据预处理,提取不同尺度的RGB图特征与深度图特征,自适应地融合RGB图特征和深度图特征,使用多模态注意力关注相似的像素,以优化网络的分割性能。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于多模态注意与自适应融合的遥感图像语义分割方法,包括如下步骤:(1)构建双流语义分割网络,包括如下步骤:(11)构建双流语义分割网络的特征提取器;(12)引入多层特征自适应融合;(13)构建双流语义分割的解码器,并引入多模态注意力机制,形成双流语义分割网络;(2)构建数据集并进行双流语义分割网络训练,包括如下步骤:(21)构建数据集;(22)对数据集进行数据预处理;(23)进行双流语义分割网络训练;(3)运行双流语义分割网络。优选的,所述步骤(11),具体包括如下:(111)删除卷积神经网络结构中的全连接层,形成一个通过卷积将输入张量转化成小尺度张量的编码器,采用该编码器对输入的RGB图进行编码,将对RGB图进行编码的编码器称为RGB图通道;(112)复制一个与步骤(111)相同的编码器,采用该编码器对深度图进行编码,将对深度图进行编码的编码器称为深度图通道。优选的,所述步骤(12),具体包括如下:(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1;(122)定义自适应融合矩阵An1和An2,其中n=1,2,3,4,5,An1+An2=1,初始化An1=An2=0.5;(123)进行第一次特征自适应融合R1=A11×D1+A12×F1;(124)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2,其中,D2是由D1经过池化卷积得到,F2是由R1经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2;(125)进行第二次特征自适应融合R2=A21×D2+A22×F2;(126)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3,其中,D3是由D2经过池化卷积得到,F3是由R2经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2;(127)进行第三次特征自适应融合R3=A31×D3+A32×F3;(128)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4,其中,D4是由D3经过池化卷积得到,F4是由R3经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2;(129)进行第四次特征自适应融合R4=A41×D4+A42×F4;(1210)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5,其中,D5是由D4经过池化卷积得到,F5是由R4经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2;(1211)进行第五次特征自适应融合R5=A51×D5+A52×F5。优选的,所述步骤(13),具体包括如下:(131)将步骤(1210)得到的融合特征F5进行反卷积得到U5;(132)计算多模态注意力机制:A4=f(U5,R4,D4)=ω4(relu(ω1U5+ω2R4+ω3D4))×R4其中:ω1、ω2、ω3和ω4为权重矩阵,relu(·)为激活函数;(133)使用张量拼接函数concatenate(·)叠加A4和U5,得到C本文档来自技高网
...

【技术保护点】
1.一种基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:包括如下步骤:/n(1)构建双流语义分割网络,包括如下步骤:/n(11)构建双流语义分割网络的特征提取器;/n(12)引入多层特征自适应融合;/n(13)构建双流语义分割的解码器,并引入多模态注意力机制,形成双流语义分割网络;/n(2)构建数据集并进行双流语义分割网络训练,包括如下步骤:/n(21)构建数据集;/n(22)对数据集进行数据预处理;/n(23)进行双流语义分割网络训练;/n(3)运行双流语义分割网络。/n

【技术特征摘要】
1.一种基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:包括如下步骤:
(1)构建双流语义分割网络,包括如下步骤:
(11)构建双流语义分割网络的特征提取器;
(12)引入多层特征自适应融合;
(13)构建双流语义分割的解码器,并引入多模态注意力机制,形成双流语义分割网络;
(2)构建数据集并进行双流语义分割网络训练,包括如下步骤:
(21)构建数据集;
(22)对数据集进行数据预处理;
(23)进行双流语义分割网络训练;
(3)运行双流语义分割网络。


2.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(11),具体包括如下:
(111)删除卷积神经网络结构中的全连接层,形成一个通过卷积将输入张量转化成小尺度张量的编码器,采用该编码器对输入的RGB图进行编码,将对RGB图进行编码的编码器称为RGB图通道;
(112)复制一个与步骤(111)相同的编码器,采用该编码器对深度图进行编码,将对深度图进行编码的编码器称为深度图通道。


3.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(12),具体包括如下:
(121)计算深度图通道与RGB图通道中经过第一步池化卷积的特征D1与F1;
(122)定义自适应融合矩阵An1和An2,其中n=1,2,3,4,5,An1+An2=1,初始化An1=An2=0.5;
(123)进行第一次特征自适应融合R1=A11×D1+A12×F1;
(124)计算深度图通道与RGB图通道中经过第二步池化卷积的特征D2与F2,其中,D2是由D1经过池化卷积得到,F2是由R1经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2;
(125)进行第二次特征自适应融合R2=A21×D2+A22×F2;
(126)计算深度图通道与RGB图通道中经过第三步池化卷积的特征D3与F3,其中,D3是由D2经过池化卷积得到,F3是由R2经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2;
(127)进行第三次特征自适应融合R3=A31×D3+A32×F3;
(128)计算深度图通道与RGB图通道中经过第四步池化卷积的特征D4与F4,其中,D4是由D3经过池化卷积得到,F4是由R3经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2;
(129)进行第四次特征自适应融合R4=A41×D4+A42×F4;
(1210)计算深度图通道与RGB图通道中经过第五步池化卷积的特征D5与F5,其中,D5是由D4经过池化卷积得到,F5是由R4经过池化卷积得到;根据梯度下降法更新An1和An2,并使用归一化函数softmax(·)优化更新后的An1和An2;
(1211)进行第五次特征自适应融合R5=A51×D5+A52×F5。


4.根据权利要求1所述的基于多模态注意与自适应融合的遥感图像语义分割方法,其特征在于:所述步骤(13),具体包括如下:
(131)将步骤(1210)得到的融合特征F5进行反卷积得到U5;
(132)计算多模态注意力机制:
A4=f(U5,R4,D4)=ω4(relu(ω1U5+ω2R4+ω3D4))×R4
其中:ω1、ω2、ω3和ω4为权重矩阵,relu(·)为激活函数;
(133)使用张量拼接函数concatenate(·)叠加A4和U5,得到C4=A4+U5;
(134)使用upconv(·)函数计算C4,得到维度减半的张量Y4;
(135)将步骤(134)中得到的Y4进行反卷积得到U4;
(136)计算多模态注意力机制:
A3=f(U4,R3,D3)=ω4(relu(ω1U4+ω2R3+ω3D3))×R3;
(1...

【专利技术属性】
技术研发人员:周勇杨劲松赵佳琦夏士雄姚睿刘兵杜文亮王秋
申请(专利权)人:中国矿业大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1