一种层次化视觉多层感知机的图像识别分类方法技术

技术编号:38126992 阅读:15 留言:0更新日期:2023-07-08 09:31
本发明专利技术公开了一种层次化视觉多层感知机的图像识别分类方法。建立一个带有层次化的视觉多层感知机的感知神经网络,将图像输入到感知神经网络中分类识别处理,获得图像的类别;所述的感知神经网络包括连续依次进行的一个卷积层和四个感知模块,第一个感知模块仅只由一个紧凑区域多层感知机构成,第二个感知模块是由一个卷积层和一个紧凑区域多层感知机构成,第三个感知模块和第四个感知模块是由一个卷积层和一个稀疏区域多层感知机构成。本发明专利技术的视觉多层感知机结构具备全局感受野,方法既能捕获局部特征,也能捕获全局特征,并可以在下游任务上取得较好结果。下游任务上取得较好结果。下游任务上取得较好结果。

【技术实现步骤摘要】
一种层次化视觉多层感知机的图像识别分类方法


[0001]本专利技术涉及计算机视觉
的一种图像分类方法,涉及神经网络结构设计、图像分类、图像检测及其装置,具体而言是涉及了一种层次化视觉多层感知机的图像识别分类方法。

技术介绍

[0002]视觉感知机是最近1年刚提出的新方法,相比视觉变压器(Vision Transformer),其实现简单,能更好的被硬件支持,且同样能达到较好的效果。在图像分类、目标检测、语义分割、图像处理等多个领域中都有不俗表现。
[0003]MLP

Mixer(MLP

Mixer:An all

MLP Architecture for Vision,NeurIPS 2021)是第一个提出这个概念的工作,但是其只能在分类任务上使用,无法将预训练权重迁移到其他任务上,不能作为一个通用的视觉骨干网络。
[0004]Shift

T(When Shift Operation Meets Vision Transformer:An Extremely Simple Alternative to Attention Mechanism,AAAI 2022)
[0005]AS

MLP(AS

MLP:An Axial Shifted MLP Architecture for Vision,ICLR 2022)
[0006]CycleMLP(CycleMLP:A MLP

like Architecture for Dense Prediction,ICLR2022)
[0007]Hire

MLP(Hire

MLP:Vision MLP via Hierarchical Rearrangement,CVPR2022)
[0008]之后的一些方法,采用特征局部偏移的方法,从而捕捉空间信息,并使得网络可以迁移到下游任务中,但是现有技术的这些方法均只能获得局部信息,感受野较小,效果并不理想。

技术实现思路

[0009]为了解决
技术介绍
中存在的问题,本专利技术提出了一种层次化的视觉多层感知机结构及其的图像识别分类方法。
[0010]所述的视觉多层感知机结构具备全局感受野,其既能捕获局部特征,也能捕获全局特征,并可以在下游任务上取得较好结果。
[0011]本专利技术采用的技术方案是:
[0012]1)建立一个带有层次化的视觉多层感知机的感知神经网络;
[0013]2)将图像输入到感知神经网络中分类识别处理,获得图像的类别分类。
[0014]所述的感知神经网络包括连续依次进行的一个卷积层和四个感知模块,前两个感知模块包含有用于提取局部特征的紧凑区域多层感知机,后两个感知模块包含有用于汇聚全部特征的紧凑区域多层感知机。
[0015]第一个感知模块仅只由一个紧凑区域多层感知机构成,第二个感知模块是由一个卷积层和一个紧凑区域多层感知机构成,第三个感知模块和第四个感知模块是由一个卷积层和一个稀疏区域多层感知机构成。
[0016]所述的紧凑区域多层感知机是将将输入自身的特征图I依次经过通道全连接层、紧凑区域全连接层、通道全连接层和归一化操作得到感知特征图I

,将输入的特征图I和感知特征图I

相加得到最终的输出特征图O。
[0017]所述的稀疏区域多层感知机是将将输入自身的特征图I依次经过通道全连接层、稀疏区域全连接层、通道全连接层和归一化操作得到感知特征图I

,将输入的特征图I和感知特征图I

相加得到最终的输出特征图O。
[0018]所述的通道全连接层即为常规的全连接层。
[0019]所述的卷积层均为1/4下采样的处理。
[0020]所述的紧凑区域全连接层,具体按照以下方式处理:
[0021]S1、将输入自身的特征图在空间维度上进行紧凑切分得到(H/CS)*(W/CS)个、长和宽均为CS的紧凑局部区域;
[0022]S2、对每个紧凑局部区域进行平均池化得到(H/CS)*(W/CS)个紧凑局部特征块;
[0023]S3、对每个紧凑局部特征块经空间全连接层处理得到(H/CS)*(W/CS)个紧凑增强特征块;
[0024]S4、对每个紧凑增强特征块进行最近邻上采样,使长和宽重新变为H和W,得到局部区域特征块。
[0025]S5、对所有局部区域特征块进行sigmoid激活函数的处理得到局部区域权重,将局部区域权重和原始输入自身的特征图进行加权操作得到紧凑区域全连接层输出的特征图。
[0026]所述的稀疏区域全连接层,具体按照以下方式处理:
[0027]S1、将输入自身的特征图在空间维度上进行稀疏切分得到(H/CS)*(W/CS)个、长和宽均为CS的稀疏全局区域;
[0028]S2、对每个稀疏全局区域进行平均池化得到(H/CS)*(W/CS)个稀疏全局特征块;
[0029]S3、对每个稀疏全局特征块经空间全连接层处理得到(H/CS)*(W/CS)个稀疏增强特征块;
[0030]S4、对每个稀疏增强特征块进行最近邻上采样,使长和宽重新变为H和W,得到全局区域特征块。
[0031]S5、对所有局部区域特征块进行sigmoid激活函数的处理得到全局区域权重,将局部区域权重和原始输入自身的特征图进行加权操作得到稀疏区域全连接层输出的特征图。
[0032]本专利技术的有益效果是:
[0033]相比现有的视觉多层感知机模型,本专利技术解决了现有方法中,下游任务迁移以及全局感受野之间的冲突,并大幅度提升了模型精度,使得方法可以更好地推广至目标检测和语义分割等下游视觉任务中。
附图说明
[0034]图1为本专利技术的感知神经网络的整体结构示意图;
[0035]图2为紧凑区域全连接层的示意图;
[0036]图3为稀疏区域全连接层的示意图;
[0037]图4为本专利技术方法实施中的紧凑区域划分情况示意图;
[0038]图5为本专利技术方法实施中的稀疏区域划分情况示意图;
[0039]图6为本专利技术HiMLP和MLP方法,以及其他CNN,ViT方法的性能对比图;
[0040]图7为以本专利技术HiMLP作为Backone训练的RetinaNet的结果图。
具体实施方式
[0041]下面结合附图及具体实施例对本专利技术作进一步详细说明。
[0042]本专利技术的实施情况如下:
[0043]1)建立一个带有层次化的视觉多层感知机的感知神经网络;
[0044]如图1所示,感知神经网络包括连续依次进行的一个卷积层和四个感知模块,前两个感知模块包含有用于提取局部特征的紧凑区域多层感知机,后两个感知模块包含有用于汇聚全部特征的紧凑区域多层感知机,即本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种层次化视觉多层感知机的图像识别分类方法,其特征在于:1)建立一个带有层次化的视觉多层感知机的感知神经网络;2)将图像输入到感知神经网络中分类识别处理,获得图像的类别分类。2.根据权利要求1所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:所述的感知神经网络包括连续依次进行的一个卷积层和四个感知模块,前两个感知模块包含有用于提取局部特征的紧凑区域多层感知机,后两个感知模块包含有用于汇聚全部特征的紧凑区域多层感知机。3.根据权利要求2所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:第一个感知模块仅只由一个紧凑区域多层感知机构成,第二个感知模块是由一个卷积层和一个紧凑区域多层感知机构成,第三个感知模块和第四个感知模块是由一个卷积层和一个稀疏区域多层感知机构成。4.根据权利要求2所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:所述的紧凑区域多层感知机是将将输入自身的特征图I依次经过通道全连接层、紧凑区域全连接层、通道全连接层和归一化操作得到感知特征图I

,将输入的特征图I和感知特征图I

相加得到最终的输出特征图O。5.根据权利要求2所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:所述的稀疏区域多层感知机是将将输入自身的特征图I依次经过通道全连接层、稀疏区域全连接层、通道全连接层和归一化操作得到感知特征图I

,将输入的特征图I和感知特征图I

相加得到最终的输出特征图O...

【专利技术属性】
技术研发人员:赖申其钱炜杨政何晓飞
申请(专利权)人:杭州飞步科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1