当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于MLP无需分块嵌入映射的视觉识别方法技术

技术编号:38470366 阅读:12 留言:0更新日期:2023-08-11 14:47
本发明专利技术提出了一种基于MLP无需分块嵌入映射的视觉识别方法。该方法通过引入一种新的提取特征的方法,对视觉特征提取完全解耦合,从宽度,高度和通道三个维度单独地顺序地交替地进行特征提取,在保证模型表示能力的前提下极大降低了模型的参数量。本发明专利技术对于现有的多层感知机模型,是首个完全使用全连接层堆叠而成的模型,无需对输入图像进行卷积映射编码或分块嵌入等操作。块嵌入等操作。块嵌入等操作。

【技术实现步骤摘要】
一种基于MLP无需分块嵌入映射的视觉识别方法


[0001]本专利技术涉及深度学习模型计算机视觉识别
,特别涉及一种基于MLP的视觉识别方法,该MLP是一种对特征极端解耦合的深度学习视觉多层感知机模型,可用于计算机视觉任务的主干模型。

技术介绍

[0002]作为第一个端到端的视觉模型,在很长一段时间内卷积神经网络CNN已经变成了计算机视觉领域实际上的标准工具,并且成功应用在很多实际场景任务上。一般来说,CNN拥有金字塔型的设计,也就是说,越深的卷积层拥有越多的特征通道数但是具有越低的分辨率,典型代表为CIFAR

QUICK和VGGNet。对于CNN的研究主要集中在两个方面:首先是模型的结构设计。代表性模型为引入残差连接的ResNet。残差连接已经变成了现在卷积神经网络必不可少的设计元素,并且ResNet衍生出非常多的变体,如ResNeSt,ResNeXt等。另一个方面是卷积核的形式,深度可分离卷积将标准卷积核解耦合为逐深度卷积和逐点卷积,分别提取空间和通道的特征。
[0003]利用最初在自然语言处理领域提出的自注意力机制,视觉Transformers(Vision Transformers,ViTs)同样在很多视觉任务上取得优异的成绩。
[0004]最近研究表明,当使用如在大型数据集上进行预训练等的现代学习策略以及大量数据增强方法时,视觉多层感知机(Vision Multi

Layer Perceptron,Vision MLP)被证明是一种能够取得和CNN和ViTs可比较性能的视觉模型。作为一种极具竞争力,但是概念和技术上都比卷积操作和自注意力机制操作更加简单的替代品,视觉MLP继承了丢弃手工设计视觉特征和归纳偏好,端到端的学习模式的趋势。于是在深度学习模型领域,从最初使用全连接层的MLP到使用卷积层的CNN,再到使用自注意力机制的ViTs,重新回到MLP的闭环被成功建立起来。
[0005]视觉MLP被设计为完全依靠全连接层(即前馈神经网络)并且仿照ViTs的结构,即使用分块嵌入的图像作为输入。然而对于现有的视觉MLP(Plain

MLP,MLP

Mixer和ResMLP等),通常的做法是使用卷积操作来实现对输入图像实现分块嵌入映射操作,这就与建立一个纯粹由全连接层堆叠而成的视觉MLP模型的目的相悖。

技术实现思路

[0006]针对现有的视觉MLP仿照视觉Transformer的结构,使用卷积映射将三维输入张量经过分块嵌入为二维矩阵,导致需要大量的参数与存储空间并改变了初始的空间特征分布的技术缺陷,本专利技术的目的在于使用一个完全避免卷积操作的、无需分块嵌入的、纯粹由全连接层堆叠而成的视觉MLP模型,来实现视觉识别的方法。这里,分块嵌入指将图像均匀分成多个块,通过卷积或其他编码方式,将图像从三维映射为二维的特征映射。
[0007]本专利技术采用的技术方案如下:
[0008]一种基于MLP无需分块嵌入映射的视觉识别方法,包括以下步骤:
[0009]步骤1,将N层MLP层堆叠成主干模型;直接将图像输入到主干模型中,无需进行卷积映射编码或分块嵌入的操作;
[0010]步骤2,对于每一层MLP层,给定输入特征映射为X,尺寸为W*H*C,W,H和C分别表示宽度、高度和通道数维度,首先经过批量归一化层BN1进行批量归一化得到特征映射BN1(X);
[0011]步骤3,使用由W个不同线性映射构成的宽度多层感知机模块在H*C平面的每个像素位置点交互提取步骤2所得特征映射BN1(X)的宽度维度特征信息,得到特征映射U;
[0012]步骤4,使用由H个不同线性映射构成的高度多层感知机模块在C*W平面的每个像素位置点交互提取步骤3所得特征映射U的高度维度特征信息,得到特征映射V;将特征映射V经过批量归一化层BN2进行批量归一化得到特征映射BN2(V);将BN2(V)与步骤2所得特征映射BN1(X)相加,接着再次经过批量归一化层BN3进行批量归一化得到特征映射S;
[0013]步骤5,堆叠E*C个不同线性映射构成的第一个全连接层、第一激活层、批量归一化层BN4、C个不同线性映射构成的第二个全连接层、第二激活层和批量归一化层BN5得到通道多层感知机模块,其中E为扩张系数,用于调整第一个全连接层的输出特征通道数;在W*H平面的每个像素位置点交互提取步骤4所得特征映射S的通道数维度特征信息,得到特征映射O;
[0014]步骤6,将步骤5特征映射O与步骤4特征映射S相加,得到当前MLP层的输出特征映射X

,作为输入特征映射输入到下一层MLP层,继续进行特征提取;重复步骤2~步骤6,直到最后一层MLP层;
[0015]步骤7,将所述主干模型的输出输入到全局平均池化层以及用于分类的线性全连接层,进行图像识别分类,输出最终预测结果。
[0016]进一步地,所述步骤3中,W个不同线性映射即是一个输入输出均为W的全连接层,它具有参数PW,尺寸为W*W,H*C平面的每个像素位置点共享参数。
[0017]进一步地,所述步骤4中,H个不同线性映射即是一个输入输出均为H的全连接层,它具有参数PH,尺寸为H*H,C*W平面的每个像素位置点共享参数。
[0018]进一步地,所述步骤5中,所述第一个全连接层中,E*C个不同线性映射即是一个输入为C输出为E*C的全连接层,它具有参数PC1,尺寸为C*E*C,W*H平面的每个像素位置点共享参数;所述第二个全连接层中,C个不同线性映射即是一个输入为E*C输出为C的全连接层,它具有参数PC2,尺寸为E*C*C,W*H平面的每个像素位置点共享参数。
[0019]进一步地,所述步骤5中,所述第一激活层和第二激活层为深度学习模型中所使用的激活函数。
[0020]本专利技术提出的一种基于MLP的视觉识别方法,对视觉特征提取完全解耦合,从宽度(width)、高度(height)和通道数(channel)三个维度单独地顺序地交替地进行特征提取,在保证模型表示能力的前提下极大降低了模型的参数量。本专利技术是第一个完全使用全连接层堆叠而成的视觉多层感知机模型,以原始图像作为输入,无需对输入图像进行卷积映射编码或分块嵌入等操作。此外,通过结合宽度和高度维度的权重对全局空间权重进行重构,特征映射上任意像素对之间的信息交互都可以通过可视化观察,并且可以观察到捕捉长期依赖的现象。
附图说明
[0021]图1为本专利技术方法的流程示意图;
[0022]图2为本专利技术多种具体实施例MLP层示意图,(a)为基本MLP层,(b)为扩张MLP层,(c)为交替MLP层,(d)为超级MLP层;
[0023]图3为本专利技术与现有方法的性能对比;
[0024]图4为本专利技术对重构空间权重的可视化。
具体实施方式
[0025]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方案做进一步地详细描述。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MLP无需分块嵌入映射的视觉识别方法,其特征在于,包括以下步骤:步骤1,将N层MLP层堆叠成主干模型;直接将图像输入到主干模型中,无需进行卷积映射编码或分块嵌入的操作;步骤2,对于每一层MLP层,给定输入特征映射为X,尺寸为W*H*C,W,H和C分别表示宽度、高度和通道数维度,首先经过批量归一化层BN1进行批量归一化得到特征映射BN1(X);步骤3,使用由W个不同线性映射构成的宽度多层感知机模块在H*C平面的每个像素位置点交互提取步骤2所得特征映射BN1(X)的宽度维度特征信息,得到特征映射U;步骤4,使用由H个不同线性映射构成的高度多层感知机模块在C*W平面的每个像素位置点交互提取步骤3所得特征映射U的高度维度特征信息,得到特征映射V;将特征映射V经过批量归一化层BN2进行批量归一化得到特征映射BN2(V);将BN2(V)与步骤2所得特征映射BN1(X)相加,接着再次经过批量归一化层BN3进行批量归一化得到特征映射S;步骤5,堆叠E*C个不同线性映射构成的第一个全连接层、第一激活层、批量归一化层BN4、C个不同线性映射构成的第二个全连接层、第二激活层和批量归一化层BN5得到通道多层感知机模块,其中E为扩张系数,用于调整第一个全连接层的输出特征通道数;在W*H平面的每个像素位置点交互提取步骤4所得特征映射S的通道数维度特征信息,得到特征映射O;步骤6,将步骤5特征映射O与步骤4特征映射S相加,得到当前MLP层的输出...

【专利技术属性】
技术研发人员:王心悦蔡志成曹汛沈秋
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1