一种基于ViT网络的小样本遥感图像分类方法、介质及设备技术

技术编号：34805845 阅读：24 留言：0更新日期：2022-09-03 20:13

本发明专利技术属于图像分类技术领域，具体涉及一种基于ViT网络的小样本遥感图像分类方法。本发明专利技术基于ViT的小样本SAR图像分类方法将多模态特征融合机制引入到Transformers编码器中，通过将图像特征进行融合，解决了因为数据集量小而导致模型获取信息量变少的情况。此外，由于序列模型难以对层次信息进行有效表达，因此将多头自注意力机制引入到Transformers编码器中，在可以并行计算的同时，还提高了对长距离依赖关系的捕捉能力。采用本发明专利技术技术方案后，利用多模态特征融合技术以及多头自注意力机制解决ViT网络模型参数冗杂且训练时间过长难以落地的问题。难以落地的问题。难以落地的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于ViT网络的小样本遥感图像分类方法、介质及设备

[0001]本专利技术涉及图像分类
，尤其涉及一种基于ViT网络的小样本遥感图像分类方法、介质及设备。

技术介绍

[0002]传统的卷积神经网络具有空间感知偏差，因此卷积神经网络在计算机视觉任务上优势明显，其在少量参数的情况下依旧保持较好效果，但是卷积神经网络的空间感知偏差是局部的，以往的结构中通常使用注意力(Attention)机制实现全局感知。例如通过增加用于图像分类的特征图或通过使用自注意力来进一步处理CNN的输出，例如用于对象检测、视频处理、图像分类。
[0003]而Transformers编码器一般是用于自然语言处理领域，Transformers之类的工作采用可扩展的近似值来吸引全局的自注意力，以适用于图像。
[0004]此外，Transformers编码器缺乏上述提及的空间感知，例如平移不变性和局部性。故而在数据量较少的情况下难以概括训练集的所有特征信息。而ViT将图像分割为非重叠序列进行特征学习，取得了较好的效果。
[0005]但囿于极大的参数量，导致其在实际训练中举步维艰。因此，一种用于图像分类领域的面向小样本数据的基于ViT网络构建的专利技术就显得很有必要。

技术实现思路

[0006]针对
技术介绍
中存在的问题，本专利技术提供一种基于ViT(Vision Transformers)网络的小样本遥感图像分类方法，目的在于利用多模态特征融合技术以及多头自注意力机制解决ViT网络模型参数冗杂且训练时间过长难...

【技术保护点】

【技术特征摘要】
1.一种基于ViT网络的小样本遥感图像分类方法，其特征在于，包括以下步骤：步骤1：采用用于地标识别和图像恢复实验的数据集作为训练集，并对训练集中的图像数据进行预处理；步骤2：将经过预处理的图像数据输入到Transformers编码器中的多模态特征融合机制，并在多模态特征融合中将步骤1中经过预处理的图像数据通过多层感知机进行处理，再将多层感知机处理后的图像数据进行concat操作，concat操作完成后，对图像数据进行一次PCA降维处理，使所有的图像数据的维度保持一致；步骤3：将经过步骤2处理的图像数据送入多头自注意机制处理，得到特征信息；步骤4：基于步骤3中的特征信息得到图像数据的分类结果，输出图像数据的分类结果。2.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法，其特征在于，步骤1中所述的图像数据的预处理包括以下步骤：对图像数据的维度进行变换操作，并将进行变换操作后的图像数据进行线性映射，将位置嵌入添加到图像块嵌入中，保留位置信息；嵌入向量的结果序列作为所述Transformers编码器的输入。3.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法，其特征在于，所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成；在每个多模态特征融合机制和多层感知机模块之前应用Layernorm，之后应用残差连接；其中多层...

【专利技术属性】
技术研发人员：陈波，邓媛丹，陈圩钦，曾俊涛，朱舜文，王庆先，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人