基于Transformer的遥感影像建筑物提取方法技术

技术编号：40075880 阅读：8 留言：0更新日期：2024-01-17 01:14

本发明专利技术涉及基于Transformer的遥感影像建筑物提取方法，属于遥感图像信息提取技术领域。该方法包括：S1：对训练数据集进行预处理及数据增强；S2：将训练集数据输入Transformer编码器中，得到各个阶段不同尺度的特征图；S3：将编码器各阶段输出的特征输入到解码器中，逐步集成来自编码器和解码器的多级特征图；S4：采用级联的多尺度融合方法对解码器输出的所有多级特征图进行融合后进行处理得到最终预测图；S5：对解码器输出的多级特征图进行深度监督训练；S6：将解码器的主分支输出与辅助分支输出的损失函数相加进行联合训练。本发明专利技术充分捕获图像中特征之间的局部和远程依赖关系，提高对大型建筑物提取能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术遥感图像信息提取，涉及基于transformer的遥感影像建筑物提取方法。

技术介绍

1、作为人类活动的主要场所和经济发展的重要载体，建筑是城市地理信息数据库最重要的构成要素之一。建筑的自动化和智能化提取对于城市扩张分析、灾害预警评估、人口估算和建筑物能耗计算等实际应用具有十分重要的意义。建筑物提取技术通常依靠高分辨率光学遥感影像所包含的丰富的空间细节以及光谱特性来提取建筑物。然而，由于城市复杂的场景中建筑物的尺度和形态的多样性，周围复杂的地物关系，加上阴影、树木等地物的遮挡给高分辨率遥感影像建筑物提取带来了巨大的挑战。建筑提取本质上是一个基于像素的二分类任务。所有的非建筑物区域视为背景，所有的建筑物区域视为前景。

2、在面向多尺度对象分割问题时，有许多基于深度学习方法来进行建筑物提取。如pspnet利用空间金字塔池化模块来继承多尺度的上下文，但是大尺度上下文的提取以牺牲空间分辨率为代价。deeplab家族将空洞空间金字塔池模块集成到深度卷积神经网络中，在不丢失分辨率的前提下捕获多尺度上下文信息。

3、与基于cnn的方法相比，transformer可以捕捉长期依赖关系为从整个图像中捕获综合上下文信息提供了机会。首先是vision transformer模型，它是一个将transformer架构应用于计算机视觉的开创性工作。同时，为了使transformer架构适应密集预测任务，许多学者尝试在transformer的基础上构建多尺度特征图。如通过patch embedding层缩小特征图，采用递进

4、然而，由于当前的城市区域建筑提取面临着建筑物外观多样、尺度变化大、背景和结构极为复杂的挑战。现有的高分辨率遥感影像的建筑提取方法面临着需要解决的问题，比如当小建筑所含像素少，可利用了信息少，当上下文信息使用不足时，小建筑很容易被漏提，大型建筑结构复杂，颜色纹理细节丰富，在提取时容易导致提取形态不完备，中间出现孔洞。另外，卷积运算在局部区域的表达方面具有很大的优势，但cnn受限的感受野既不足以识别大型建筑，也不能很好的捕捉实体与实体之间的空间关系线索，而但是，它们很大程度上忽略了注意力层内场景对象的多尺度特性。虽然现有的transformer模型在图像分割领域取得了非常不错的效果，但它们忽略了注意力层内场景对象的多尺度特性，使得它们在面对地物尺度变化大的遥感影像时精度受限。无法满足城市复杂场景下建筑高精度提取的需求。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供基于transformer的遥感影像建筑物提取方法，解决现有建筑提取方法对城市复杂场景中小建筑漏提、大型复杂建筑提取完备性差和提取的建筑边界不够规则、精确的技术问题。

2、为达到上述目的，本专利技术提供如下技术方案：

3、基于transformer的遥感影像建筑物提取方法，该方法包括以下步骤：

4、s1：将获取的遥感建筑物数据集图像划分为训练集、验证集和测试集，将训练集图像采用滑动窗口的方式进行裁剪，并对标注图像进行相应处理，然后对训练集图像进行数据增强；

5、s2：将所述s1中经过数据增强的训练集图像输入具有尺度感知的局部-全局上下文特征提取模型，所述模型对输入的遥感图像进行特征提取，得到第一阶段～第四阶段，四个阶段不同尺度的特征图；

6、s3：将所述s2中得到第一阶段～第四阶段，四个阶段不同尺度的特征图依次输入解码器中，所述解码器对各个阶段不同尺度的特征图逐步融合高层特征和低层特征，并对融合后的特征图再次进行细化；

7、s4：将s3中解码器输出的第一阶段～第四阶段，四个阶段融合并细化后的多尺度特征图采用级联的多尺度融合方法进行融合，得到融合各个阶段不同分辨率下具有丰富的语义信息和空间信息的特征图，并将各个阶段特征图融合后的结果经过处理得到一个最终预测图，并将最终预测图作为最终的建筑物提取结果；

8、s5：将s3中解码器输出的第二阶段～第四阶段，三个阶段融合并细化后的多尺度特征图进行深度监督训练，得到第二阶段～第四阶段，三个阶段的预测图，并作为辅助分类器进行训练；

9、s6：将所述s4中解码器输出的最终预测图作为主分支，将所述s5中输出的第二阶段～第四阶段，三个阶段经过分类以及上采样后的特征图作为辅助分支，并使用adamw优化器以及poly学习率调整策略，将解码器的主分支输出与辅助分支输出的损失函数相加进行联合训练，计算总损失，并通过反向传播来更新参数，取训练过程中总损失最小的模型参数作为最优模型参数。

10、进一步的，所述s1中，标注图像进行处理，具体为：将标签图中非建筑物区域的像素设置为0，建筑物区域的像素设置为1。

11、进一步的，所述s1中，数据增强具体包括：对图像进行随机大小缩放、随机水平翻转和垂直翻转、随机高斯噪声、限制对比度自适应直方图均衡及随机裁剪方法。

12、进一步的，所述随机大小缩放默认使用0.5-2.0的缩放比例，所述随机水平翻转、垂直翻转、随机高斯噪声和限制对比度自适应直方图均衡法采用0.5的概率对图像进行数据增强，所述随机裁剪，默认裁剪大小为256×256。

13、进一步的，所述s2中，具有尺度感知的局部-全局上下文特征提取模型为一个拥有四个阶段的视觉transformer编码器，所述四个阶段的视觉transformer编码器的每一阶段包括一个嵌入层和若干个变压器组transformer block；

14、每个嵌入层由一个卷积核大小为4的卷积层和layernorm正则化层组成；

15、每个transformer block包括：一对自注意力模块和一对2层的混合前馈位置编码mix-ffn模块，所述一对自注意力块分别为：金字塔局部自注意力plsa模块和全局下采样自注意力gsa模块；

16、所述金字塔局部自注意力模块plsa，将二维特征图均匀划分为子窗口，在窗口内计算自注意力，并将多头注意力分成若干个组，每个组捕捉一个尺度的上下文特征，对不同头注意力，查询向量q不变，采用不同的下采样率ri对键向量k和数值向量v进行池化，产生多个粒度的ki和vi，整个plsa过程表示为：

17、qi＝fwiq (1)

18、ki,vi＝spp(f,ri)wik,spp(f,ri)wiv (2)

19、

20、plsa＝concat(head0,head1,...,headi,...本文档来自技高网...

【技术保护点】

1.基于Transformer的遥感影像建筑物提取方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于Transformer的遥感影像建筑物提取方法，其特征在于：所述S1中，标注图像进行处理，具体为：将标签图中非建筑物区域的像素设置为0，建筑物区域的像素设置为1。

3.根据权利要求1所述的一种基于转换器模型的高分辨率遥感影像建筑物提取方法，其特征在于：所述S1中，数据增强具体包括：对图像进行随机大小缩放、随机水平翻转和垂直翻转、随机高斯噪声、限制对比度自适应直方图均衡及随机裁剪方法。

4.根据权利要求3所述的基于Transformer的遥感影像建筑物提取方法，其特征在于：所述随机大小缩放默认使用0.5-2.0的缩放比例，所述随机水平翻转、垂直翻转、随机高斯噪声和限制对比度自适应直方图均衡法采用0.5的概率对图像进行数据增强，所述随机裁剪，默认裁剪大小为256×256。

5.根据权利要求3所述的基于Transformer的遥感影像建筑物提取方法，其特征在于：所述S2中，具有尺度感知的局部-全局上下文特征提取模型为一个拥

6.根据权利要求5所述的基于Transformer的遥感影像建筑物提取方法，其特征在于：所述S3，具体包括：采用门控单元算法自适应的调整当前编码器块为相应的解码器提供的细节信息，并对过滤后的编码器低层特征和解码器的高层特征采用特征融合算法进行融合，并通过特征细化算法对融合后的特征进行细化；

7.根据权利要求6所述的基于Transformer的遥感影像建筑物提取方法，其特征在于：所述S4，具体包括：将S3中解码器输出的第一阶段～第四阶段，四个阶段融合并细化后的多尺度特征图分别使用双线性插值上采样至与第一阶段的特征图大小相同，使用级联操作对四个特征图在通道维度进行拼接，接着使用3×3卷积对拼接后的特征图进行融合，得到融合各个阶段不同分辨率下具有丰富的语义信息和空间信息的特征图，对特征图使用1×1卷积进行分类，并上采样至原图大小，得到最终预测图。

8.根据权利要求7所述的基于Transformer的遥感影像建筑物提取方法，其特征在于：所述S5中，将S3中解码器输出的第二阶段～第四阶段，三个阶段融合并细化后的多尺度特征图进行深度监督训练，具体包括：将S3中解码器输出的第二阶段～第四阶段，三个阶段融合并细化后的多尺度特征图分别上采样至原图大小，并使用1×1卷积进行分类得到三个预测图，分别计算预测图与真实图的交叉熵损失和Dice损失之和以最小化预测图与真实值之差。

9.根据权利要求8所述的基于Transformer的遥感影像建筑物提取方法，其特征在于：所述S6中，计算总损失，将所述S5得到的三个预测图与建筑物标签图计算交叉熵损失和Dice损失之和作为分支损失，将S4中得到的最终预测图计算的损失作为主损失，其中，分支损失分别乘以一个权重，总损失即为主损失与分损失之和，则总损失表示为：

...

【技术特征摘要】

1.基于transformer的遥感影像建筑物提取方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于transformer的遥感影像建筑物提取方法，其特征在于：所述s1中，标注图像进行处理，具体为：将标签图中非建筑物区域的像素设置为0，建筑物区域的像素设置为1。

3.根据权利要求1所述的一种基于转换器模型的高分辨率遥感影像建筑物提取方法，其特征在于：所述s1中，数据增强具体包括：对图像进行随机大小缩放、随机水平翻转和垂直翻转、随机高斯噪声、限制对比度自适应直方图均衡及随机裁剪方法。

4.根据权利要求3所述的基于transformer的遥感影像建筑物提取方法，其特征在于：所述随机大小缩放默认使用0.5-2.0的缩放比例，所述随机水平翻转、垂直翻转、随机高斯噪声和限制对比度自适应直方图均衡法采用0.5的概率对图像进行数据增强，所述随机裁剪，默认裁剪大小为256×256。

5.根据权利要求3所述的基于transformer的遥感影像建筑物提取方法，其特征在于：所述s2中，具有尺度感知的局部-全局上下文特征提取模型为一个拥有四个阶段的视觉transformer编码器，所述四个阶段的视觉transformer编码器的每一阶段包括一个嵌入层和若干个变压器组transformerblock；

6.根据权利要求5所述的基于transformer的遥感影像建筑物提取方法，其特征在于：所述s3，具体包括：采用门控单元算法自适应的调整当前编码器块为相应的解码器提供的细节信息，...

【专利技术属性】
技术研发人员：朱盼盼，宋志超，刘家乐，颜家正，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人