一种图像分类方法及相关设备技术

技术编号：38360350 阅读：12 留言：0更新日期：2023-08-05 17:29

本发明专利技术公开了一种图像分类方法及相关设备。方法包括：获取原始图像，将所述原始图像按预设大小划分为多个目标图像块；将所述目标图像块进行线性映射，得到目标输入特征；对所述目标输入特征经过多个阶段的长距离信息和短距离信息的特征提取，得到目标输出特征；对所述目标输出特征进行全局平均池化和线性层处理，得到目标分类结果。本发明专利技术提供的图像分类方法采用新的MLP模型范式

全部详细技术资料下载

【技术实现步骤摘要】
一种图像分类方法及相关设备

[0001]本专利技术涉及图像检测
，特别涉及一种图像分类方法及相关设备。

技术介绍

[0002]近年来，基于多层感知机的模型(Multi Layer Perceptrons,MLP)，比如MLP
‑
Mixer、MAXIM、gMLP等方法，仅采用MLP网络层构造Attention
‑
free的深度学习模型，在在计算机视觉领域中表现出了优秀的模型潜力。基于MLP的模型采用网络深度更深的MLP网络层，从通道维度和空间维度获取图像的全局信息，具有显著的应用潜力。
[0003]其中，Sparse MLP方法和Vision Permutator方法将MLP仅沿着图像空间维度的轴向进行处理，同时通过共享参数的方法，有效减少了模型参数提升了模型的精度，降低了模型的过拟合风险。
[0004]但是，该类方法中图像的token交互能力(Power of Token Interaction)与特征分辨率相关，随着网络层的不断加深，下采样操作使得图像的特征空间分辨率逐渐下降，token交互能力急剧下降，该问题称之为“token交互困境问题”。如图1所示，随着网络层加深，特征空间分辨率下降，空间通道数增加，Token的信息主要分布于通道维度，而在空间维度的信息逐渐降低。因此，MLP以共享参数的方式作用于小尺寸的特征上，会导致Token的交互能力显著下降，极大限制了模型的性能，降低了图像分类结果的准确度。
[0005]因此，现有技术还有待改进和提高。<...

【技术保护点】

【技术特征摘要】
1.一种图像分类方法，其特征在于，包括：获取原始图像，将所述原始图像按预设大小划分为多个目标图像块；将所述目标图像块进行线性映射，得到目标输入特征；对所述目标输入特征经过多个阶段的长距离信息和短距离信息的特征提取，得到目标输出特征；对所述目标输出特征进行全局平均池化和线性层处理，得到目标分类结果。2.根据权利要求1所述的图像分类方法，其特征在于，所述多个阶段的第一阶段由线性映射网络层、条状混合模块和通道混合模块组成；除第一阶段的其他阶段均由图像块合并模块、条状混合模块和通道混合模块组成。3.根据权利要求2所述的图像分类方法，其特征在于，所述条状混合模块包括级联分组条状混合模型和局部条状混合模型。4.根据权利要求3所述的图像分类方法，其特征在于，所述对所述目标输入特征经过多个阶段的长距离信息和短距离信息的特征提取，得到目标输出特征，包括：在经过所述条状混合模块时，对所述目标输入特征进行通道维度的拆分，得到第一输入特征和第二输入特征；将所述第一输入特征输入至所述级联分组条状混合模型，以获取所述目标输入特征的长距离信息；将所述第二输入特征输入至所述局部条状混合模型，以获取所述目标输入特征的短距离信息。5.根据权利要求4所述的图像分类方法，其特征在于，所述将所述第一输入特征输入至所述级联分组条状混合模型，以获取所述目标输入特征的长距离信息，包括：将所述第一输入特征沿通道维度进行置换得到第一中间特征；将所述第一中间特征沿通道维度划分为多个第一目标特征块并沿着第一方向进行特征级联后，输入至第一Strip MLP网络层，得到第二中间特征，其中，所述第一Strip MLP网络层沿着第一方向进行特征提取；将所述第二中间特征沿通道维度划分为多个第二目标特征块并沿着第二方向进行特征级联后，输入至第二Strip MLP网络层，得到第一目标特征，所述第一目标特征为所述目标输入特征的长距离信息，其中，所述第二Strip MLP网络层沿着第二方向进行特征提取。6.根据权利要求5所述的图像分类方法，其特征在于，在所...

【专利技术属性】
技术研发人员：曹桂平，张建国，
申请(专利权)人：南方科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人