【技术实现步骤摘要】
基于双重注意力机制的图像分类方法、系统及电子设备
[0001]本专利技术属于图像处理
,涉及一种图像分类方法、系统及电子设备,具体涉及一种基于双重注意力机制的图像分类方法、系统及电子设备。
技术介绍
[0002]自深度学习诞生至今,相关技术,特别是深度卷积网络相关的技术为计算机视觉领域带来了巨大的变革与影响,基于深度卷积网络的图像分类方法已经成为了当前研究的主流方法。但此类方法也存在以下不足:(1)过度依赖训练数据。图像的特征表达是基于深度卷积网络的图像分类方法的核心内容,而准确鲁棒的特征获取很大程度上取决于网络对海量数据的学习,数据的数量和质量将直接影响到特征空间的构建。
[0003](2)卷积模式的局限性。卷积操作的实质是利用单一采样模式对特定区域进行滤波,尽管深度卷积网络能够通过多层和多模态卷积操作实现大尺度感受野内的特征表达,但其采样模式的单一性和邻接性限制了卷积网络对不同尺度特征的准确表达,同时也导致了最终生成的特征的局部表达在整体图像层面关联性较弱,无法较好地保证具有相似图像语义内容的局部特征具有相近的特征表达。
[0004](3)特征图通道间的分类辨识度不同。深度卷积网络生成的特征图具有多个channel维度,不同维度的数据对图像的分类的贡献权重不尽相同,如何利用合理的模型计算贡献权重,也是改进基于深度卷积网络图像分类方法的重要途径。
技术实现思路
[0005]针对上述问题,本专利技术提出了一种基于双重注意力机制的图像分类方法、系统及电子设备。
[0006] ...
【技术保护点】
【技术特征摘要】
1.一种基于双重注意力机制的图像分类方法,其特征在于,包括以下步骤:步骤1:构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络;所述基于Transformer的空间维度自注意力网络,第一层是3个平行的卷积核是1
×
1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出空间维度特征图;所述基于Transformer的channel维度自注意力网络,第一层是2个平行的卷积核是1
×
1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出通道维度特征图;步骤2:将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络,生成基于图像空间维度的注意力特征图;对输入图像Fm进行预处理,获得浅层特征图Fm1;采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;将中层特征图FA输入至空间维度自注意力网络,生成基于图像空间维度的注意力特征图FE
P
;步骤3:将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络,生成基于特征图通道维度的注意力特征图FE
c
;步骤4:将步骤2得到的特征图FE
P
和步骤3得到的特征图FE
c
进行对应维度上的元素相加,得到最后的输出特征图FM
ap
;将特征图FM
ap
放入全连接层进行线性映射,生成维度为nmu
×
1的向量,其中nmu为图像类别的个数,选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。2.根据权利要求1所述的基于双重注意力机制的图像分类方法,其特征在于,步骤2中所述对输入图像Fm进行预处理,获得浅层特征图Fm1;其具体实现包括以下子步骤:步骤2.1:对于任意输入图像Fm,定义并进行残差块操作res();(1);其中conv (Fm)是步长为1,卷积核是3
×
3,维持输出特征图维度不变的卷积操作, res Fm ()即是残差块的输出;步骤2.2:针对已知的训练样本集Train={S
i
}
Nti=1
,S
i =(img
i
, l
i
),其中S
i
表示第i个训练样本,img
i
是该样本的图像,l
i
是该样本的分类标签,N
t
是样本总数目;将{img
i
}输入至步骤1中残差块,将输出的特征图再次输入至残差块,输出浅层特征图Fm1。3.根据权利要求2所述的基于双重注意力机制的图像分类方法,其特征在于,步骤2中所述采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;其具体实现包括以下子步骤:步骤2.3:对Fm1进行卷积核是3
×
3,步长为2的最大池化操作,记为max_pooling(Fm1),将输出的特征图输入至残差块res(max_pooling(Fm1)),对输出的特征图再次进行上述操作,得到特征图Fm2;步骤2.4:利用双线性插值的方法,在空间维度将特征图Fm2上采样至维度为(C0,2H0,2W0)的张量UFm2,其中(C0,H0,W0)是Fm2的维度;再将UFm2输入至残差块中,输出特征图Fm3;对Fm3重复上述操作,即先将Fm3上采样至(C0,4H0,4W0),再输入至残差块,最后输出特征图Fm4;
其中Fm4的维度与Fm1的维度相同;步骤2.5:将特征图Fm4输入至任意深度卷积网络,输出中层特征图,其中C是特征图的通道维度,H和W分别是特征图的高和宽。4.根据权利要求2所述的基于双重注意力机制的图像分类方法,其特征在于,步骤2中所述将中层特征图FA输入至空间维度自注意力网络,生成图像空间维度的注意力特征图FE
P
;其具体实现包括以下子步骤:步骤2.6:将中层特征图分别送入两个步长为1,卷积核是1
×
1的卷积层,且输出的特征图通道维度是C,生成两个特征图;步骤2.7:将{FB,FC}进行维度上的变换,得到特征向量,其中N=H
×
W,N是单个通道上像素的个数总数,利用公式(2)计算空间注意力权值:(2);其中,VB
i
表示VB的第i行行向量,VC
jT
表示VC的第j行行向量的转置;...
【专利技术属性】
技术研发人员:何政,叶刚,傅佑铭,王中元,邹勤,
申请(专利权)人:武汉大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。