System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 融合Swin Transformer与视觉图神经网络的遥感影像场景分类方法技术_技高网
当前位置: 首页 > 专利查询>福州大学专利>正文

融合Swin Transformer与视觉图神经网络的遥感影像场景分类方法技术

技术编号:40096908 阅读:6 留言:0更新日期:2024-01-23 17:05
本发明专利技术提供一种融合Swin Transformer与视觉图神经网络的遥感影像场景分类方法,涉及计算机视觉和遥感图像处理领域。该模型由四个关键部分组成:首先是基于剪枝Swin Transformer的特征提取器,其能构建远距离依赖关系,捕捉全局和局部特征;其次是过渡层,将特征序列转换为特征图;接着,基于视觉图神经网络(ViG)的特征提取器,能够捕捉场景图像的空间拓扑关系,形成空间感知特征;最后使用分类器进行具体的场景分类。本发明专利技术采用串行融合和模型剪枝的策略,在降低模型复杂度和训练时间的同时,巧妙融合多尺度特征和空间感知特征,更好地处理了遥感图像类间相似性高和类内差异大的问题,与现有场景分类方法相比,具有较好的遥感场景分类性能。

【技术实现步骤摘要】

本专利技术涉及遥感影像场景分类,特别是融合swin transformer与视觉图神经网络的遥感影像场景分类方法。


技术介绍

1、遥感影像场景分类是指根据遥感影像中的地理和环境信息将其自动划分为特定的语义标签,通常一幅场景图像对应一个语义标签,如森林、农田、建筑物、道路等,是遥感影像解译的核心任务之一。通过准确快速地识别和分类遥感影像中的地物和场景,可以提供有关土地利用、环境状况、城市发展、灾害风险和自然资源等方面的信息,为决策和规划提供科学依据,促进可持续发展和智慧城市建设。

2、遥感影像场景分类的一般流程主要是先对输入的图像进行特征提取,再根据特征利用分类器得到分类结果。图像特征提取作为场景分类的关键环节,其主要方法可分为:(1)基于传统的手工特征提取;(2)基于深度学习的特征提取。传统的遥感场景分类方法大多依赖于手工设计的结构、光谱、纹理、颜色、形状等低层视觉特征,如颜色直方图、尺度不变特征变换特征、局部二值特征等,该方法往往基于专家的经验和主观判断,特征设计过程中存在主观性和依赖性,表达能力有限,且耗时耗力。这些限制促使了基于深度学习的遥感场景分类算法,它不需要复杂的手工设计和图像处理,就能够自动从图像中提取特征用于分类。

3、随着卷积神经网络(convolutional neural networks,cnn)的出现和深度学习的快速发展,基于cnn的特征提取方法在图像分类任务中取得了众多优异的表现,在遥感场景分类领域中受到了广泛的关注和应用,如alexnet、resnet、efficientnet等。然而,cnn的核心思想是通过卷积操作来捕捉图像中的局部特征,要获取更大范围的全局信息则需要通过网络深度的增加和多层卷积的堆叠来逐步实现。直至vasmani等学者提出的transformermodel,通过自注意力机制克服了深层cnn需要增加网络深度和堆叠卷积层的局限性,在序列数据处理方面具有显著优势,迅速成为自然语言处理(nlp)任务中的主流模型。许多研究人员受其启发将transformer model思想应用于计算机视觉领域中,取得了显著的成功。dosovitskiy等学者提出了与卷积神经网络相媲美的vision transformer(vit),能够有效捕捉图像中的全局信息和长距离依赖关系。近年来,liu等学者针对计算机视觉领域构建了一种多尺度层级的transformer架构的模型,即swin transformer,其采用的移动窗口注意力机制,使得信息可以在不同尺度上进行整合,有效处理了长程依赖关系,有利于捕捉全局和局部信息,展现出了更具竞争力的优异性能,被广泛应用于图像分类等视觉领域。

4、然而,在某些特定的遥感场景中,图像往往存在着复杂的地物相互关系和空间结构,挖掘地物之间的关联和布局对于精确的场景分类至关重要。然而,在transformer模型中,图片通常被划分为规则的网格或序列,图像块与图像块之间没有特殊的联系,在一定程度上限制了模型对于遥感场景空间关系的建模能力。对于一些细节关键的区域,单纯依靠swintransformer进行特征捕捉可能无法满足高度复杂的场景分类需求。而视觉图神经网络(vision graphneural network,vision gnn)能够将图像视为图(graph)结构,将图像块视为节点,并通过连接最近邻节点构建图结构,捕捉图像中地物的空间布局和相互关系。通过在图结构上进行信息传递,增强特征的表征能力。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种融合swin transformer与视觉图神经网络的遥感影像场景分类方法,实现增强模型特征表达能力,更有效地应对遥感场景分类任务中存在类间相似性高和类内差异大的挑战,解决如何提升遥感场景分类精度的问题。

2、为实现上述目的,本专利技术采用如下技术方案:融合swin transformer与视觉图神经网络的遥感影像场景分类方法,包括以下步骤:

3、步骤s1:将公开的遥感影像场景数据集按比例划分为训练集和验证集,并对遥感影像进行裁剪、水平翻转、归一化等预处理;

4、步骤s2:输入剪枝后的swin transformer特征提取器提取遥感影像的二维特征序列;

5、步骤s3:将二维特征序列转化为三维特征图,并利用1*1卷积降维;

6、步骤s4:输入vig特征提取器提取遥感影像的空间感知特征;

7、步骤s5:输入全连接层并通过交叉熵损失函数和adam优化器训练模型,输入待测遥感图像测试模型,得到该遥感影像的场景类别。

8、在一较佳的实施例中,步骤s1具体包括以下步骤:

9、步骤s11:遥感影像场景数据集采用nwpu-resisc45数据集,共包含45个场景类别,如为机场、湖泊、草地、稀疏住宅区等,每个类别700张遥感影像,按2:8的比例划分为训练集与验证集;

10、步骤s12:对数据集进行预处理,将图像数据尺寸裁剪到统一大小,经过中心裁剪、水平翻转后,增加数据的多样性和丰富性,最后将图像转为张量,并经过归一化处理。

11、在一较佳的实施例中,步骤s2具体包括以下步骤:

12、步骤s21:输入patch partition模块中进行分块,将高度为h、宽度为w的三通道遥感影像通过卷积层进行下采样,影像由h*w*3拆分为非重叠等尺寸的n*p2*3的图像块,其中p*p为图像块的尺寸,n为图像块的数目,且3为图像通道数;

13、步骤s22:通过线性映射将图像块展平为二维序列即n*c,c为映射后的通道数;

14、步骤s23:输入三层的swin transformer模块,除首层外每个层级包括一个patchmerging和多个swin transformer block,利用patch merging将特征图的高和宽减半,并且深度翻倍,利用swin transformerblock中连续的窗口注意力机制(w-msa)和移动窗口注意力机制(sw-msa),实现窗口间的信息交互,计算公式如下:

15、

16、

17、

18、

19、式中,w-msa是窗口注意力机制,sw-msa是移动窗口注意力机制,mlp是多层感知机,ln为层归一化处理,和zl分别表示第l个swin tranformerblock的(s)w-msa模块输出特征和mlp模块输出特征。

20、在一较佳的实施例中,步骤s4具体包括以下步骤:

21、步骤s41:首先,通过6个vigblock,该模块将特征图像块的特征向量x=[x1,x2,...,xn]视为节点v=[v1,v2,...,vn],由节点集v和边集ε构成图结构g=(v,ε),通过vigblock挖掘图像块之间的局部空间拓扑关系,实现节点之间的信息变换和交换;其中,vigblock由grapher模块和ffn模块构成,grapher模块包含图形卷积和非线本文档来自技高网...

【技术保护点】

1.融合Swin Transformer与视觉图神经网络的遥感影像场景分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的融合Swin Transformer与视觉图神经网络的遥感影像场景分类方法,其特征在于,步骤S1具体包括以下步骤:

3.根据权利要求1所述的融合Swin Transformer与视觉图神经网络的遥感影像场景分类方法,其特征在于,步骤S2具体包括以下步骤:

4.根据权利要求1所述的融合Swin Transformer与视觉图神经网络的遥感影像场景分类方法,其特征在于,步骤S4具体包括以下步骤:

【技术特征摘要】

1.融合swin transformer与视觉图神经网络的遥感影像场景分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的融合swin transformer与视觉图神经网络的遥感影像场景分类方法,其特征在于,步骤s1具体包括以下步骤:

3.根据权...

【专利技术属性】
技术研发人员:徐伟铭李紫微杨仕煜王娟潘凯祥何小英
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1