【技术实现步骤摘要】
一种基于Transformer的遥感图像建筑物提取方法
[0001]本专利技术属于图像分割
,具体涉及一种基于Transformer的遥感图像建筑物提取方法。
技术介绍
[0002]建筑物提取是计算机视觉中语义分割的重要子任务,该任务对于军事侦察、精确制导和民用方面都有重要的意义。不同于自然图像的语义分割,现有的遥感图像的建筑物提取方法,通过卷积神经网络进行特征提取的密集型预测任务存在难以扩大有效感受野而建立长距离依赖的问题。以Tranformer为主体的网络又存在计算量大,且对小数量的遥感图像容易过拟合的问题。
技术实现思路
[0003]本专利技术的目的在于提供一种基于Transformer的遥感图像建筑物提取方法,在原有Swin Transformer技术方案中设计了非对称网络结构,同时在跳跃连接中采用了新设计的多分支加权金字塔池化模块,进一步挖掘特征信息,克服了遥感图像中种类多样、尺度不一的建筑物难以识别的问题。
[0004]为实现上述目的,本专利技术所采取的技术方案为:
[000 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的遥感图像建筑物提取方法,其特征在于,所述基于Transformer的遥感图像建筑物提取方法,包括:获取遥感图像,并对遥感图像进行预处理;将预处理的遥感图像输入深度学习模型进行语义分割,得到建筑物分割结果;其中,所述深度学习模型为非对称网络结构,包括四层结构的编码器Swin Transformer、多分支加权金字塔池化模块、三层结构的解码器和多级特征级联融合模块,其中:所述编码器Swin Transformer接收预处理的遥感图像,并通过四层结构输出四种尺寸的特征图F1、F2、F3、F4;所述多分支金字塔池化模块设有三个,三个多分支金字塔池化模块分别取编码器Swin Transformer后三层结构输出的特征图F2、F3、F4,对特征图F2、F3、F4处理后输出特征图F
22
、F
32
、F
42
;所述解码器中的第一层结构获取特征图F
42
与F
32
处理并输出特征图F
32
′
,第二层结构获取特征图F
32
′
与F
22
处理并输出特征图F
22
′
,第三层结构获取特征图F
22
′
与F1处理并输出特征图F1′
;所述多级特征级联融合模块将特征图F
22
′
和特征图F
32
′
进行特征融合得到特征图F
22
″
,再将特征图F1′
和特征图F
22
″
进行特征融合得到最终的分割图,将最终的分割图作为建筑物分割结果。2.如权利要求1所述的基于Transformer的遥感图像建筑物提取方法,其特征在于,所述预处理包括将遥感图像缩放至图像尺寸为512
×
512。3.如权利要求1所述的基于Transformer的遥感图像建筑物提取方法,其特征在于,所述编码器Swin Transformer的四层结构根据数据流向分别定义为第一层结构、第二层结构、第三层结构和第四层结构;第一层结构由数据输入侧至输出侧包括依次连接的补丁划分块、线性嵌入块和Swin Transformer块,第二层结构、第三层结构和第四层结构中每层结构由数据输入侧至输出侧包括依次连接的补丁合并层和Swin Transformer块;其中第一层结构输出特征图F1,第二层结构输出特征图F2,第三层结构输出特征图F3,第四层结构输出特征图F4。4.如权利要求1所述的基于Transformer的遥感图像建筑物提取方法,其特征在于,所述对特征图F2、F3、F4处理后输出特征图F
22
、F
32
、F
42
,包括:对于特征图F4,对应的多分支金字塔池化模块设置分支数目为4,对特征图F4进行不同尺度的池化操作,得到分别对应每个分支的特征尺寸分别为1、2、3、6的特征图,给对应的每个分支赋予的权值分别为0.1、0.2、0.2、0.5,每条分支上的特征图经过深度可分离卷积之后,通过双线性插值恢复与特征图F4同样的尺寸再进行加权拼接,对拼接后的特征图进行一次卷积操作得到特征图F
42
;对于特征图F3,对应的多分支金字塔池化模块设置分支数目为4,对特征图F3进行不同尺度的池化操作,得到分别对应每个分支的特征尺寸分别为1、2、3、6的特征图,给对应的每个分支赋予的权值分别为0.1、0.2、0.2、0.5,每条分支上的特征图经过深度可分离卷积之后,通过双线性插值恢复与特征图F3同样...
【专利技术属性】
技术研发人员:雷艳静,王渊,产思贤,卢雅婷,孟祥路,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。