一种图像分类方法及相关设备技术

技术编号:38360350 阅读:12 留言:0更新日期:2023-08-05 17:29
本发明专利技术公开了一种图像分类方法及相关设备。方法包括:获取原始图像,将所述原始图像按预设大小划分为多个目标图像块;将所述目标图像块进行线性映射,得到目标输入特征;对所述目标输入特征经过多个阶段的长距离信息和短距离信息的特征提取,得到目标输出特征;对所述目标输出特征进行全局平均池化和线性层处理,得到目标分类结果。本发明专利技术提供的图像分类方法采用新的MLP模型范式

【技术实现步骤摘要】
一种图像分类方法及相关设备


[0001]本专利技术涉及图像检测
,特别涉及一种图像分类方法及相关设备。

技术介绍

[0002]近年来,基于多层感知机的模型(Multi Layer Perceptrons,MLP),比如MLP

Mixer、MAXIM、gMLP等方法,仅采用MLP网络层构造Attention

free的深度学习模型,在在计算机视觉领域中表现出了优秀的模型潜力。基于MLP的模型采用网络深度更深的MLP网络层,从通道维度和空间维度获取图像的全局信息,具有显著的应用潜力。
[0003]其中,Sparse MLP方法和Vision Permutator方法将MLP仅沿着图像空间维度的轴向进行处理,同时通过共享参数的方法,有效减少了模型参数提升了模型的精度,降低了模型的过拟合风险。
[0004]但是,该类方法中图像的token交互能力(Power of Token Interaction)与特征分辨率相关,随着网络层的不断加深,下采样操作使得图像的特征空间分辨率逐渐下降,token交互能力急剧下降,该问题称之为“token交互困境问题”。如图1所示,随着网络层加深,特征空间分辨率下降,空间通道数增加,Token的信息主要分布于通道维度,而在空间维度的信息逐渐降低。因此,MLP以共享参数的方式作用于小尺寸的特征上,会导致Token的交互能力显著下降,极大限制了模型的性能,降低了图像分类结果的准确度。
[0005]因此,现有技术还有待改进和提高。<br/>
技术实现思路

[0006]针对现有技术的上述缺陷,提供一种图像分类方法及相关设备,旨在解决现有技术中MLP以共享参数的方式对图像进行分类时,由于网络层加深导致的Token的交互能力下降,降低了图像分类结果的准确度的问题。
[0007]本专利技术的第一方面,提供一种图像分类方法,包括:
[0008]获取原始图像,将所述原始图像按预设大小划分为多个目标图像块;
[0009]将所述目标图像块进行线性映射,得到目标输入特征;
[0010]对所述目标输入特征经过多个阶段的长距离信息和短距离信息的特征提取,得到目标输出特征;
[0011]对所述目标输出特征进行全局平均池化和线性层处理,得到目标分类结果。
[0012]所述的图像分类方法,其中,所述多个阶段的第一阶段由线性映射网络层、条状混合模块和通道混合模块组成;
[0013]除第一阶段的其他阶段均由图像块合并模块、条状混合模块和通道混合模块组成。
[0014]所述的图像分类方法,其中,所述条状混合模块包括级联分组条状混合模型和局部条状混合模型。
[0015]所述的图像分类方法,其中,所述对所述目标输入特征经过多个阶段的长距离信
息和短距离信息的特征提取,得到目标输出特征,包括:
[0016]在经过所述条状混合模块时,对所述目标输入特征进行通道维度的拆分,得到第一输入特征和第二输入特征;
[0017]将所述第一输入特征输入至所述级联分组条状混合模型,以获取所述目标输入特征的长距离信息;
[0018]将所述第二输入特征输入至所述局部条状混合模型,以获取所述目标输入特征的短距离信息。
[0019]所述的图像分类方法,其中,所述将所述第一输入特征输入至所述级联分组条状混合模型,以获取所述目标输入特征的长距离信息,包括:
[0020]将所述第一输入特征沿通道维度进行置换得到第一中间特征;
[0021]将所述第一中间特征沿通道维度划分为多个第一目标特征块并沿着第一方向进行特征级联后,输入至第一Strip MLP网络层,得到第二中间特征,其中,所述第一Strip MLP网络层沿着第一方向进行特征提取;
[0022]将所述第二中间特征沿通道维度划分为多个第二目标特征块并沿着第二方向进行特征级联后,输入至第二Strip MLP网络层,得到第一目标特征,所述第一目标特征为所述目标输入特征的长距离信息,其中,所述第二Strip MLP网络层沿着第二方向进行特征提取。
[0023]所述的图像分类方法,其中,在所述第一Strip MLP网络层中,将所述目标特征块中的所述目标图像块与其沿着第一方向上的所在轴以及相邻轴上的所述目标图像块进行信息交互;
[0024]在所述第二Strip MLP网络层中,将所述目标特征块中的所述目标图像块与其沿着第二方向上的所在轴以及相邻轴上的所述目标图像块进行信息交互;
[0025]对于不同的所述目标特征块中的所述目标图像块采用不共享目标参数的MLP网络层进行特征提取,对于相同的所述目标特征块中的所述目标图像块采用共享目标参数的MLP网络层进行特征提取。
[0026]所述的图像分类方法,其中,所述将所述第二输入特征输入至所述局部条状混合模型,以获取所述目标输入特征的短距离信息,包括:
[0027]将所述局部条状混合模型中的MLP网络层分为多个目标单元,其中,每个目标单元的宽度为3,长度为7;
[0028]基于所述目标单元对所述第二输入特征进行重参数化处理以进行特征融合,得到第二目标特征,所述第二目标特征为所述目标输入特征的短距离信息。
[0029]本专利技术的第二方面,提供一种图像分类装置,包括:
[0030]图像划分模块,所述图像划分模块用于获取原始图像,将所述原始图像按预设大小划分为多个目标图像块;
[0031]映射模块,所述映射模块用于将所述目标图像块进行线性映射,得到目标输入特征;
[0032]特征提取模块,所述特征提取模块用于对所述目标输入特征经过多个阶段的长距离信息和短距离信息的特征提取,得到目标输出特征;
[0033]特征处理模块,所述特征处理模块用于对所述目标输出特征进行全局平均池化和
线性层处理,得到目标分类结果。
[0034]本专利技术的第三方面,提供一种终端,包括:处理器、与处理器通信连接的存储介质,存储介质适于存储多条指令,处理器适于调用存储介质中的指令,以执行实现上述任一项所述的图像分类方法的步骤。
[0035]本专利技术的第四方面,提供一种存储介质,其中,存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的图像分类方法的步骤。
[0036]有益效果:与现有技术相比,本专利技术提供了一种图像分类方法及相关设备,本专利技术提供的图像分类方法中,通过获取原始图像,将所述原始图像按预设大小划分为多个目标图像块,然后将所述目标图像块进行线性映射,以得到目标输入特征,接下来对所述目标输入特征经过多个阶段的长距离信息和短距离信息的特征提取,得到目标输出特征,最后,对所述目标输出特征进行全局平均池化和线性层处理,得到目标分类结果。本专利技术提供的图像分类方法,能解决现有技术中MLP以共享参数的方式对图像进行分类时由于网络层加深导致的Token的交互能力下降,从而降低了图像分类的速度以及准确度的问题,使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像分类方法,其特征在于,包括:获取原始图像,将所述原始图像按预设大小划分为多个目标图像块;将所述目标图像块进行线性映射,得到目标输入特征;对所述目标输入特征经过多个阶段的长距离信息和短距离信息的特征提取,得到目标输出特征;对所述目标输出特征进行全局平均池化和线性层处理,得到目标分类结果。2.根据权利要求1所述的图像分类方法,其特征在于,所述多个阶段的第一阶段由线性映射网络层、条状混合模块和通道混合模块组成;除第一阶段的其他阶段均由图像块合并模块、条状混合模块和通道混合模块组成。3.根据权利要求2所述的图像分类方法,其特征在于,所述条状混合模块包括级联分组条状混合模型和局部条状混合模型。4.根据权利要求3所述的图像分类方法,其特征在于,所述对所述目标输入特征经过多个阶段的长距离信息和短距离信息的特征提取,得到目标输出特征,包括:在经过所述条状混合模块时,对所述目标输入特征进行通道维度的拆分,得到第一输入特征和第二输入特征;将所述第一输入特征输入至所述级联分组条状混合模型,以获取所述目标输入特征的长距离信息;将所述第二输入特征输入至所述局部条状混合模型,以获取所述目标输入特征的短距离信息。5.根据权利要求4所述的图像分类方法,其特征在于,所述将所述第一输入特征输入至所述级联分组条状混合模型,以获取所述目标输入特征的长距离信息,包括:将所述第一输入特征沿通道维度进行置换得到第一中间特征;将所述第一中间特征沿通道维度划分为多个第一目标特征块并沿着第一方向进行特征级联后,输入至第一Strip MLP网络层,得到第二中间特征,其中,所述第一Strip MLP网络层沿着第一方向进行特征提取;将所述第二中间特征沿通道维度划分为多个第二目标特征块并沿着第二方向进行特征级联后,输入至第二Strip MLP网络层,得到第一目标特征,所述第一目标特征为所述目标输入特征的长距离信息,其中,所述第二Strip MLP网络层沿着第二方向进行特征提取。6.根据权利要求5所述的图像分类方法,其特征在于,在所...

【专利技术属性】
技术研发人员:曹桂平张建国
申请(专利权)人:南方科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1