一种基于卷积Transformer的遥感图像分类方法及系统技术方案

技术编号:36588920 阅读:13 留言:0更新日期:2023-02-04 17:53
本发明专利技术提供一种基于卷积Transformer的遥感图像分类方法及系统,方法包括:首先使用轻量级卷积神经网络提取局部特征,其次将得到的局部特征输入到CNN融合多头自注意力机制的混合网络中以增强对图像全局特征的提取能力;然后在训练过程中引入迁移学习以加快收敛速度;最后将获得的特征输出进行分类预测。与其他常用的图像分类方法相比,在减少参数量和计算成本的同时能够高效地提取遥感图像的局部特征信息和长距离全局依赖信息。解决了自注意力时间复杂度的增加、计算成本较高、分类准确率不高及鲁棒性低的技术问题。高及鲁棒性低的技术问题。高及鲁棒性低的技术问题。

【技术实现步骤摘要】
一种基于卷积Transformer的遥感图像分类方法及系统


[0001]本专利技术涉及遥感图像分类领域,具体涉及一种基于卷积Transformer的遥感图像分 类方法及系统。

技术介绍

[0002]遥感图像具有复杂的整体结构和丰富的纹理特征,基于卷积神经网络 (Convolutional Neural Networks,CNN)的遥感图像分类方法虽然能够捕获丰富的局 部信息,但有限的感受野使其无法对全局信息建立长距离依赖关系,从而导致遥感图像 分类的准确率不高。
[0003]航空遥感是一门非直接接触且需借助卫星、飞机或无人机作为运载工具进行信息收 集的科学技术,主要应用于地质调查、环境监测、作物预测、资源勘查等领域。随着人 工智能和卫星传感器的发展,遥感技术突破众多挑战,进入了一个能够准确、高效地提 供多种勘测信息的新阶段,使得遥感图像分辨率在空间、光谱、时间等方面都得到了明 显的提升。例如Digital Globe公司的WorldView

2卫星能提供0.5m分辨率的全色和 1.8m分辨率的多光谱影像;中国OHS高光谱卫星上的CMOS传感器,具有256个谱段, 每个谱段范围为400

1000nm,空间分辨率为10m,这为全球带来了更快捷、更精确的卫 星服务。无人机是遥感信息收集的一种主要运载工具,在地质灾害监测、海洋岛礁测绘、 应急救援等领域得到了广泛的应用。与卫星相比,无人机轻小便捷,复杂程度低,开发 成本小,更容易部署,以满足监测、测绘的需要;与飞机相比,无人机不受温度和气候 的影响,在任何天气允许的情况下都可以飞行,提高了时间分辨率,降低了图像模糊率。 近年来有研究提出涉及一种卷积神经网络(Convolutional Neural Networks,CNN)的 方法对无人机图像进行分类。例如Liu提出的将CNN与基于对象的图像分析(OBIA)相结 合,利用多视图数据进行土地覆盖分类的现有技术方案,以及Bazi提出的利用一种双 分支神经网络,为无人机图像分配多个等级标签的现有技术方案等。
[0004]针对遥感图像的有效信息采集问题,场景分类是目前使用较广泛的研究领域之一, 其主要目标是获取图像并通过识别图像中正确的语义标签来判断所属场景,从而达到分 类的目的。场景分类有许多重要的应用领域,如土地管理、森林火灾重建、城市规划等。 早期的场景分类主要依赖于人工标注来提取图像特征,例如SIFT、GIST、梯度直方图等 方法,这些方法虽然在一些简单的场景分类任务中取得了较好的效果,但随着场景复杂 性及类别数量的增加,其局限性也愈加明显。因此,研究者们提出了传统图像特征建模, 如词袋BOW、LSA、局部聚合描述符向量(VLAD)等方法。
[0005]相较于传统图像分类方法,神经网络和自动编码器等深度学习方法在遥感图像分类 等多个应用领域上已取得了显著的成就,特别是CNN在许多应用上超越了其他传统方法。 CNN具有端到端检测的优点,减少了网络训练的参数,从而降低了网络空间的复杂度; 多通道输入减少了特征信息重排的过程,缩短了训练时间。在此基础上,循环神经网络 (RNN)、生成对抗网络(GANs)、图卷积网络(GCNs)和长短期记忆(LSTM)等方法也相继被 引
入,例如申请号为CN202111368092.5的现有专利技术专利《一种基于自监督学习的遥感 图像分类网络鲁棒性提升方法》利用遥感领域中大量存在的无标签数据,通过孪生网络 挖掘图像自身的信息,有效提升模型的鲁棒性;使用孪生网络对干净样本和对抗样本同 时进行特征提取,即得到特征向量,并通过对比学习迫近干净样本和对抗样本的特征向 量完成模型训练,以及申请号为CN202111193355.3的现有专利技术专利《基于自补偿卷积 神经网络的遥感场景图像分类方法》采集高光谱图像数据集和相对应的标签向量数据 集;步骤二、建立自补偿卷积神经网络;步骤三、将高光谱图像数据集和相对应的标签 向量数据集输入到建立的自补偿卷积神经网络中,进行迭代优化,得到最优自补偿卷积 神经网络;步骤四、向最优自补偿卷积神经网络中输入待测高光谱图像进行分类结果预 测。前述现有文献的技术方案与本申请不同,未公开本申请中的技术方案及具体技术特 征。Girshick等提出了一种新的目标检测方法,该方法使用深度卷积网络进行分类,与 之前的网络方法相比,提高了方法训练速度和检测准确率。Bi等将航空场景分类视为一 个多实例学习问题,提出了一种参数更少的多实例密集连接卷积网络(MIDC

Net),用来 有效保存不同级别的特征,通过实验证明,该网络方法大大优于许多新方法。Yu等将 GAN与注意力相结合,提出了一种新的注意力生成对抗网络(Attention

GANs),极大地 提高了航空场景分类的性能。XUE等使用三种流行的CNN作为特征处理器,从图像中获 取深度特征并进行融合,实现遥感场景分类。Yu等将两个经过预处理的卷积神经网络与 双流技术进行特征融合以此对高分辨率航拍场景进行分类,其分类准确率显著提高。
[0006]近年来,除了CNN以外,一种名为Transformer的新型深度学习方法被提出,并在 计算机视觉领域中广受欢迎。Transformer是一种主要依赖自注意力来建立输入特征和 输出特征之间的长距离全局信息依赖的网络,其通过并行化的输出,来获取更有效的结 果。Transformer是目前最先进的序列编码器,在自然语言处理领域得到了广泛的应用 并取得了明显的效果。受此启发,有研究者尝试将Transformer应用于图像上,Bello 等利用自注意力代替部分卷积层以增强CNN的特征提取能力,从而提高了图像分类的性 能。但由于图像的大尺寸导致了自注意力时间复杂度的增加,计算成本较高,Wang等提 出了一种新的端到端的注意循环卷积网络(ARCNet),通过有选择性地关注一些关键区域 或位置,提高分类性能。Dosovitskiy等不再使用传统的结合或替代部分CNN的方法, 而是将图像块的嵌入序列输入到Transformer中,从而直接将Transformer应用于图像 分类任务中。Wu等在CNN上使用了Transformer,首先用CNN提取图像的特征图,然后 将输出的特征图提供给Transformer,最后使用视觉标记增强图像预测。
[0007]前述现有技术与本申请在具体实现内容及技术特征上皆存在显著区别,且由于遥感 图像具有复杂的整体结构和丰富的纹理特征,基于CNN的遥感图像分类方法虽然能捕获 丰富的局部信息,但对图像的全局信息建模能力较差,从而导致遥感图像分类的准确率 不高。
[0008]综上,现有技术存在自注意力时间复杂度的增加、计算成本较高、分类准确率不高 及鲁棒性低的技术问题。

技术实现思路

[0009]本专利技术所要解决的技术问题在于如何解决自注意力时间复杂度的增加、计算成本
较 高、分类准确率不高及鲁棒性低的技术问题。
[0010]本专利技术是采用以下技术方案解决上述技术问题的:一种基于卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积Transformer的遥感图像分类方法,其特征在于,所述方法包括:S1、将预设大小的特征图经过第一层卷积后得到预设大小的一层卷积特征图;S2、将所述一层卷积特征图输入到L

Conv模块中,以不少于2个的所述L

Conv模块处理所述一层卷积特征图,以得到L

Conv处理特征图,其中,所述L

Conv模块包括:卷积位置编码CPE层和局部特征提取LFE层,所述卷积位置编码CPE层通过深度卷积获取图像中特征的绝对位置信息,所述局部特征提取LFE层采用深度可分离卷积降维处理所述一层卷积特征图,进入第二层,第二层的卷积步长为2,对所述L

Conv处理特征图进行第二层卷积处理,以得到二层卷积处理特征图,以不少于2个的所述L

Conv模块连续处理所述二层卷积处理特征图,以得到二层卷积特征图;S3、将所述二层卷积特征图输入Transformer模块,其中,所述Transformer模块包括:轻量级的卷积位置编码CPE层和全局特征提取GFE层,所述轻量级的卷积位置编码CPE层通过深度卷积来编码特征的位置信息,所述全局特征提取GFE层利用多头自注意力层对深层图像特征的长距离全局信息建模,以预设数目的所述Transformer模块连续处理所述所述二层卷积特征图,以得到轻量卷积特征图,平均池化所述轻量卷积特征图并经预置全连接层处理输出最终预测结果。2.根据权利要求1所述的一种基于卷积Transformer的遥感图像分类方法,其特征在于,所述卷积位置编码(CPE)层通过使用深度卷积,以下述逻辑对图像特征进行位置编码:CPE(X
in
)=DWConv(X
in
),其中H表示特征图的高度,W表示特征图的宽度,C表示输入的通道数,DWConv表示深度卷积。3.根据权利要求1所述的一种基于卷积Transformer的遥感图像分类方法,其特征在于,所述步骤S2包括:S21、给定输入图像S22、通过特征提取器f
ec
从所述输入图像提取到5个特征图:S23、将提取到的所述特征图输入位置编码模块(PEM),以双线性插值处理所述特征图,据以得到相同空间维度特征图;S24、拼接所述相同空间维度特征图,从而得到了拼接特征图对所述拼接特征图进行k
×
k的卷积操作,以生成位置映射4.根据权利要求3所述的一种基于卷积Transformer的遥感图像分类方法,其特征在于,所述步骤S24包括:S241、以下述逻辑处理所述相同空间维度特征图,从而得到了拼接特征图从而得到了拼接特征图S242、对所述拼接特征图进行k
×
k的卷积操作,以生成位置映射
5.根据权利要求1所述的一种基于卷积Transformer的遥感图像分类方法,其特征在于,所述局部特征提取LFE层采用深度可分离卷积来提取图像特征的局部纹理信息,其中,深度可分离卷积包括:深度卷积和逐点卷积,逐点卷积使用1
×
1的卷积核对不同通道上的特征图进行线性组合并输出,将经过位置编码后的特征图进行卷积操作,逐点卷积对不同深度的特征进行线性组合,在对特征图卷积的过程中分类通道和区域。6.根据权利要求5所述的一种基于卷积Transformer的遥感图像分类方法,其特征在于,在进行所述深度可分离卷积之前,添加了一个1
×
1的逐点卷积来升维。7.根据权利要求1所述的一种基于卷积Transformer的遥感图像分类方法,其特征在于,分别在所述L

Conv模块和所述Transformer模块中的每个输出上添加残差函数及归一化结构。8.根据权利要求1所述的一种基于卷积Transformer的遥感图像分类方法,其特征在于,全局特征提取(GFE)层采用Transformer网络结构,所述Transformer包括:多头自注意力层和前馈网络层,每个子层前后都添加了正则化层和残差连接层,在所述前馈网络层使用GELU激活函数进行线性变换。9.根据权利要求1所述的一种基于卷积Transformer的遥感图像分类方法,其特征在于,所述步骤S3包括:S31、分别对RSSCN7和AID遥感图像数据集进行交叉迁移学习,以获取预训练的权重系数,以下述逻辑将权重系数W
Q
,W
K
,W
V
分别与x
i
,i∈(1,2,3,4,...,n)相乘得到特征向量q
i
,k
i
,v
i
,i∈(1,2,3,4,...,n):q

【专利技术属性】
技术研发人员:陈辉张甜
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1