一种基于ViT网络的小样本遥感图像分类方法、介质及设备技术

技术编号:34805845 阅读:24 留言:0更新日期:2022-09-03 20:13
本发明专利技术属于图像分类技术领域,具体涉及一种基于ViT网络的小样本遥感图像分类方法。本发明专利技术基于ViT的小样本SAR图像分类方法将多模态特征融合机制引入到Transformers编码器中,通过将图像特征进行融合,解决了因为数据集量小而导致模型获取信息量变少的情况。此外,由于序列模型难以对层次信息进行有效表达,因此将多头自注意力机制引入到Transformers编码器中,在可以并行计算的同时,还提高了对长距离依赖关系的捕捉能力。采用本发明专利技术技术方案后,利用多模态特征融合技术以及多头自注意力机制解决ViT网络模型参数冗杂且训练时间过长难以落地的问题。难以落地的问题。难以落地的问题。

【技术实现步骤摘要】
一种基于ViT网络的小样本遥感图像分类方法、介质及设备


[0001]本专利技术涉及图像分类
,尤其涉及一种基于ViT网络的小样本遥感图像分类方法、介质及设备。

技术介绍

[0002]传统的卷积神经网络具有空间感知偏差,因此卷积神经网络在计算机视觉任务上优势明显,其在少量参数的情况下依旧保持较好效果,但是卷积神经网络的空间感知偏差是局部的,以往的结构中通常使用注意力(Attention)机制实现全局感知。例如通过增加用于图像分类的特征图或通过使用自注意力来进一步处理CNN的输出,例如用于对象检测、视频处理、图像分类。
[0003]而Transformers编码器一般是用于自然语言处理领域,Transformers之类的工作采用可扩展的近似值来吸引全局的自注意力,以适用于图像。
[0004]此外,Transformers编码器缺乏上述提及的空间感知,例如平移不变性和局部性。故而在数据量较少的情况下难以概括训练集的所有特征信息。而ViT将图像分割为非重叠序列进行特征学习,取得了较好的效果。
[0005]但囿于极大的参数量,导致其在实际训练中举步维艰。因此,一种用于图像分类领域的面向小样本数据的基于ViT网络构建的专利技术就显得很有必要。

技术实现思路

[0006]针对
技术介绍
中存在的问题,本专利技术提供一种基于ViT(Vision Transformers)网络的小样本遥感图像分类方法,目的在于利用多模态特征融合技术以及多头自注意力机制解决ViT网络模型参数冗杂且训练时间过长难以落地的问题。
[0007]一种基于ViT网络的小样本遥感图像分类方法,包括以下步骤:
[0008]步骤1:采用用于地标识别和图像恢复实验的数据集作为训练集,并对训练集中的图像数据进行预处理;
[0009]步骤2:将经过预处理的图像数据输入到Transformers编码器中的多模态特征融合机制,并在多模态特征融合中将步骤1中经过预处理的图像数据通过多层感知机进行处理,再将多层感知机处理后的图像数据进行concat操作,concat操作完成后,对图像数据进行一次PCA(主成分分析法)降维处理,使所有的图像数据的维度保持一致;
[0010]步骤3:将经过步骤2处理的图像数据送入多头自注意机制处理,得到特征信息;
[0011]步骤4:基于步骤3中的特征信息得到图像数据的分类结果,输出图像数据的分类结果。
[0012]本专利技术基于ViT的小样本SAR(Synthetic Aperture Radar)图像分类方法将多模态特征融合机制引入到Transformers编码器中,通过将图像特征进行融合,解决了因为数据集小而导致模型获取信息量变少的情况。此外,由于序列模型难以对层次信息进行有效表达,因此将多头注意力机制引入到Transformers编码器中,在可以并行计算的同时,还提
高了对长距离依赖关系的捕捉能力。
[0013]优选的,步骤1中所述的图像数据的预处理包括以下步骤:
[0014]对图像数据的维度进行变换操作,并将进行变换操作后的图像数据进行线性映射,将位置嵌入添加到图像块嵌入中,保留位置信息;嵌入向量的结果序列作为所述Transformers编码器的输入。
[0015]优选的,所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成;在每个多模态特征融合机制以及多层感知机模块之前应用Layernorm,之后应用残差连接;其中多层感知机模块包含具有GELU非线性的两全连接层。
[0016]优选的,所述多模态特征融合机制将图像嵌入图像块嵌入分别输入到不同的多层感知机中,再对图像块嵌入进行特征融合操作;所述特征融合操作为将下层输入的三个向量特征进行concat操作,再将三个向量通过多层感知机映射成同一个维度相加再还原,得到还原后的三个向量维度。
[0017]优选的,所述步骤3中将还原后的三个向量维度包含在并行的自注意力层中,每个向量经过多层感知机模块输入到自注意力层,再通过concat操作将三个向量连接在一起,经过最后一层多层感知机模块的网络得到特征信息。
[0018]优选的,所述分类结果通过在预训练时具有一个隐含层的MLP(多层感知机)以及在微调时通过一个线性层的MLP来实现。
[0019]一种存储介质,用于存储计算机指令,其中计算机指令用于使所述计算机执行上述任意一种所述的方法。
[0020]一种电子设备,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;其中,所述存储器中存储有能被至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一种所述的方法。
[0021]本专利技术的有益效果包括:
[0022]1.本专利技术基于ViT的小样本SAR图像分类方法将多模态特征融合机制引入到Transformers编码器中,通过将图像特征进行融合,解决了因为数据集小而导致模型获取信息量变少的情况。此外,由于序列模型难以对层次信息进行有效表达,因此将多头注意力机制引入到Transformers编码器中,在可以并行计算的同时,还提高了对长距离依赖关系的捕捉能力。
[0023]2.本专利技术在图像分类效果以及相关指标方面差强人意的前提下,其训练时长和模型规模均小于现有的基于ViT的SAR图像分类方法。
[0024]3.本专利技术与基线算法相比,在不过于降低图像分类精度的前提下,保证分类结果可接受的同时,将模型训练时间缩短至基线算法的一半。
附图说明
[0025]图1为本专利技术的流程示意图。
[0026]图2为本专利技术的整体网络结构示意图。
具体实施方式
[0027]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例
中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0028]下面结合附图1和附图2对本专利技术的实施例作进一步的详细说明:
[0029]一种基于ViT网络的小样本遥感图像分类方法,包括以下步骤:
[0030]步骤1:采用用于地标识别和图像恢复实验的数据集(Google Landmarks Dataset v2)作为训练集,并对训练集中的图像数据进行预处理;
[0031]步骤1中所述的图像数据的预处理包括以下步骤:
[0032]对图像数据的维度进行变换操作,并将进行变换操作后的图像数据进行线性映射,将位置嵌入添加到图像块嵌入中,保留位置信息;嵌入向量的结果序列作为所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ViT网络的小样本遥感图像分类方法,其特征在于,包括以下步骤:步骤1:采用用于地标识别和图像恢复实验的数据集作为训练集,并对训练集中的图像数据进行预处理;步骤2:将经过预处理的图像数据输入到Transformers编码器中的多模态特征融合机制,并在多模态特征融合中将步骤1中经过预处理的图像数据通过多层感知机进行处理,再将多层感知机处理后的图像数据进行concat操作,concat操作完成后,对图像数据进行一次PCA降维处理,使所有的图像数据的维度保持一致;步骤3:将经过步骤2处理的图像数据送入多头自注意机制处理,得到特征信息;步骤4:基于步骤3中的特征信息得到图像数据的分类结果,输出图像数据的分类结果。2.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法,其特征在于,步骤1中所述的图像数据的预处理包括以下步骤:对图像数据的维度进行变换操作,并将进行变换操作后的图像数据进行线性映射,将位置嵌入添加到图像块嵌入中,保留位置信息;嵌入向量的结果序列作为所述Transformers编码器的输入。3.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法,其特征在于,所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成;在每个多模态特征融合机制和多层感知机模块之前应用Layernorm,之后应用残差连接;其中多层...

【专利技术属性】
技术研发人员:陈波邓媛丹陈圩钦曾俊涛朱舜文王庆先
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1