【技术实现步骤摘要】
一种基于SE模块和自注意力机制网络的图像分类方法
[0001]本专利技术涉及图像识别和深度学习
,尤指一种基于SE模块和自注意力机制网络的图像分类方法。
技术介绍
[0002]图像分类是计算机视觉、机器学习与深度学习领域非常活跃的研究方向,图像分类得到广泛应用,比如人脸识别、行人检测、交通场景物体识别、车牌识别、以及相册自动归类等。
[0003]图像分类是人工智能计算机视觉领域中很重要的基础任务,也是目标检测的基础,图像分类的准确性影响后续任务的性能评估。目前有基于机器学习的支持向量机图像分类方法,主流的深度学习图像分类方法主要分为两大类,一类是基于卷积神经网络有:AlexNet、VGG、GoogleNet以及ResNet等经典的神经网络;另一类是基于自注意力机制有:Vision Transformer和Transformer in Transformer。
[0004]和本专利技术最接近的是基于自注意力机制的Vision Transformer,先把整张图片切片成若干个Patch,然后利用自注意力机制提取每个Patch之间的全局特征,经过多层感知机继续传输。自注意力机制和多层感知机堆叠构成一个编码器层,通过堆叠若干个这种编码器层构成Vision Transformer框架,把最后编码器层Patch0的输出输入到softmax层得到图像类别预测结果。
[0005]和本专利技术相对接近的是基于自注意力机制的Transformer in Transformer,用两个Transformer中 ...
【技术保护点】
【技术特征摘要】
1.一种基于SE模块和自注意力机制网络的图像分类方法,其特征在于,包括以下步骤:S1:将输入的图片转换成规定大小矩阵,然后把这些数据转成张量数据类型,再输入模型。S2:将一张图片切片成若干个Patch,添加Patch0用作分类特征,加入位置信息丰富特征表示。S3:利用SE模块对每个Patch内部提取特征。S4:利用自注意力机制提取每个Patch之间的特征。S5:自注意力机制输出数据投入两层MLP(多层感知机)。S6:将S3、S4、S5形成的模块串行堆叠形成本发明提出方法的最小单元层,堆叠L最小单元层,从而提取更高级的局部和全局特征。S7:将上述步骤得到的全局特征用于分类。2.根据权利要求1所述的一种基于SE模块和自注意力机制网络的图像分类方法,其特征在于,步骤S1所述为图片预处理,如果输入图片较少,通过数据增强方法后再转化成张量数据类型。3.根据权利要求1所述的一种基于SE模块和自注意力机制网络的图像分类方法,其特征在于,步骤S2所述将一张图片,其像素为C
×
H
×
W,切片成个个Patch,每个Patch是C
×
H1×
W1,然后把每个Patch展成1
×
CH1W1的向量,实现切片要用到卷积操作和Flatten(展平)操作,其输入维度(B,C,H,W),输出维度(B,N,CH1W1),其中C为图片的通道数,B为Batch Size(批量大小)。此外还要添加Patch0用作分类特征,即有M=N+1个Patch,故本步骤输出的维度是(B,M,CH1W1)。每个Patch(包括Patch0)要加入位置信息,这样自注意力机制能更好的学习到即使是同一张图片,Patch位置不同,得到的分类结果是不一样的。4.根据权利要求1所述的一种基于SE模块和自注意力机制网络的图像分类方法,其特征在于,步骤S3所述Patch内部特征提取采用卷积神经网络,所以要把上一步的输出维度(B,M,CH1W1)变成(B,M,C,H1,W1);为了使输入输出宽、高一样,使用0填充,使用CH1W1个卷积核,从CH1W1个维度提取Patch内部特征,得到CH1W1个H1×
W1特征图,即维度是(CH1W1,H1,W1);接着对每个特征图使用全局平均池化,得到(CH1W1,1,1);经过第一线性层,输出维度设置为其中β为缩放因子,激活函数Relu,公式表示如式(1),其中b1是可训练参数,X1是输入,X2是输出;第二线性层,输入维度是输出维度是dim=CH1W1,激活函数softmax,得到每个通道的权重,公式表示如式(2),其中b2是可训练参数,X2是输入,X3输出;分别与每个通道的特征图相乘,然后把所有的特征图相加,得到f是1
×
H1×
W1的特征图,该特征图包含了CH1W1维度提
取的Patch内部特征信息的融合,公式表示如式(3),f=x
...
【专利技术属性】
技术研发人员:梁俊雄,肖明,郑坚燚,曾旺旺,廖泽宇,陈俊文,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。