【技术实现步骤摘要】
基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法
[0001]本专利技术涉及图像处理
,尤其是一种基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法。
技术介绍
[0002]建筑物是人们日常生活中不可或缺的活动场所,也是城市建设发展过程中的重要组成部分。建筑物提取的主要任务是从遥感图像识别并提取出建筑物区域。建筑物提取对智慧城市建设、交通管理、人口估计和土地利用监测等具有重要意义。随着遥感技术的迅速发展,遥感图像开始由低分辨率向高分辨率过渡,形成了高空间分辨率、高光谱分辨率、高时间分辨率为特征的发展趋势。高分辨率遥感图像的特征和信息不断增加,噪声和干扰信息也相应的增多,这给建筑物提取带来了新的挑战,如何从高分辨率遥感影像中精确提取建筑物已成为研究的热点和难点。
[0003]传统的建筑物提取方法通常是基于先验知识和手工特征,然后再采用聚类等算法进行建筑物提取,主要包括基于建筑物特征的方法、基于辅助信息的方法等。这些方法大多是利用建筑物的形状纹理等特征和基于辅助信息等方式进行建筑物提取,实现原理较为简单, ...
【技术保护点】
【技术特征摘要】
1.一种基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法,其特征在于:该方法包括下列顺序的步骤:(1)获取遥感数据:下载WHU建筑物数据集和Massachusetts建筑物数据集;(2)数据预处理与数据增强:所述预处理是指对数据集中的大图像进行裁剪,对裁剪后的遥感图像和标签图像进行数据增强;将数据增强后的遥感图像和标签图像分别按照8:1:1的比例划分为训练集、验证集和测试集;(3)构建CAD
‑
UNet网络模型:以UNet网络为基础进行改进,构建包括编码器、坐标注意力CA模块、数据相关上采样DUp模块的建筑物提取网络模型,即CAD
‑
UNet网络模型;(4)模型训练与评估:基于训练集数据BCE Loss二分类交叉熵损失与Focal Loss焦点损失相结合的联合损失函数,对CAD
‑
UNet网络模型进行训练,训练完成后用测试集评估CAD
‑
UNet网络模型的建筑物提取精度和效果;(5)建筑物自动化提取:将新的待提取的遥感图像进行数据预处理后,输入训练完成的CAD
‑
UNet网络模型,CAD
‑
UNet网络模型输出预测图像,得到建筑物提取结果。2.根据权利要求1所述的基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法,其特征在于:所述步骤(2)具体包括以下步骤:(2a)通过滑动窗口的方式,对Massachusetts建筑物数据集中遥感大图像和标签图像进行裁剪,裁剪成512
×
512大小的图像,并将WHU建筑物数据集和Massachusetts建筑物数据集中标签图像中建筑的像素值标注为1,背景的像素值标注为0;(2b)对WHU建筑物数据集中遥感图像和标签图像、以及裁剪后的Massachusetts建筑物数据集中遥感图像和标签图像进行数据增强,扩大数据量,所述数据增强包括:水平翻转:使用图像处理库OpenCV分别对遥感图像和标签图像进行水平翻转;垂直翻转:使用图像处理库OpenCV分别对遥感图像和标签图像进行垂直翻转;水平垂直翻转:使用图像处理库OpenCV分别对遥感图像和标签图像先水平翻转再垂直翻转;移位、缩放、随机裁剪和添加噪声:分别对遥感图像和标签图像进行移位、缩放、随机裁剪和添加噪声等操作;(2c)将数据增强后的遥感图像和标签图像分别按照8:1:1的比例划分为训练集、验证集和测试集,所述训练集用于直接参与CAD
‑
UNet网络模型的训练,进行特征提取;所述验证集用于调整CAD
‑
UNet网络模型的超参数;所述测试集用于在训练完成后测试CAD
‑
UNet网络模型的精度和提取效果。3.根据权利要求1所述的基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法,其特征在于:所述步骤(3)具体包括以下步骤:(3a)对UNet网络编码器进行替换:用VGG16网络模块替换UNet网络编码器,VGG16网络模块由VGG16网络去掉最后一个池化层和全连接层构成,VGG16网络模块通过多次卷积和四次最大池化进行下采样,提取遥感图像中的建筑物特征,并输出四个不同尺度的特征图;(3b)构造坐标注意力CA模块:将坐标注意力CA模块嵌入到经步骤(3a)得到的UNet网络的跳跃连接处;坐标注意力CA模块沿着两个空间方向分别捕获长程依赖和保留位置信息,将特征图分别编码,形成两个特征图,分别对方向感知和对位置敏感,将任何中间张量X=[x1,x2,
x3...,x
C
]∈R
C
×
H
×
W
作为输入,并输出一个同样长度的张量Y=[y1,y2,y3...,y
C
],具体而言对输入X使用尺寸(H,1)和(1,W)的池化核沿着水平和竖直两个方向对每个通道进行编码,高度为H的第c个通道的表述如下:式中,H表示图像的高度、W表示图像的宽度,C表示图像的通道总数,c表示第c个通道,X
c
表示第c个通道的图像,i表示图像的横坐标,R表示中间张量集合;类似的,宽度为W的第c个通道的输出表述如下:公式(1)、(2)是特征聚合的两个变换,它们分别沿着两个空间方向进行聚合,返回两个方向感知注意力图;坐标注意力CA模块在级联之前生成两个特征层,之后共用一个1
×
1的卷积操作来变换,如公式(3)所示:f=δ(F1([Z
H
,Z
W
]))
ꢀꢀ
(3)式中,δ为非线性激活函数,f是中间特征映射,是在水平和垂直两个方向上,对空间信息进行特征编码后的结果;然后沿着空间维数将f分解为2个单独的张量,f
H
∈R
C/r
×
H
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。