当前位置: 首页 > 专利查询>武汉大学专利>正文

基于双重注意力机制的图像分类方法、系统及电子设备技术方案

技术编号:29940263 阅读:146 留言:0更新日期:2021-09-04 19:24
本发明专利技术公开了一种基于双重注意力机制的图像分类方法、系统及电子设备,利用改进的自注意力模型,同时计算特征图空间维度和特征图通道维度的注意力权重,然后将两种注意力机制生成的特征图相加,完成端对端的图像分类网络构建,提升网络对显著区域的自适应感知能力,实现更加精准鲁棒的图像特征表达,进而提升图像分类性能。像分类性能。像分类性能。

【技术实现步骤摘要】
基于双重注意力机制的图像分类方法、系统及电子设备


[0001]本专利技术属于图像处理
,涉及一种图像分类方法、系统及电子设备,具体涉及一种基于双重注意力机制的图像分类方法、系统及电子设备。

技术介绍

[0002]自深度学习诞生至今,相关技术,特别是深度卷积网络相关的技术为计算机视觉领域带来了巨大的变革与影响,基于深度卷积网络的图像分类方法已经成为了当前研究的主流方法。但此类方法也存在以下不足:(1)过度依赖训练数据。图像的特征表达是基于深度卷积网络的图像分类方法的核心内容,而准确鲁棒的特征获取很大程度上取决于网络对海量数据的学习,数据的数量和质量将直接影响到特征空间的构建。
[0003](2)卷积模式的局限性。卷积操作的实质是利用单一采样模式对特定区域进行滤波,尽管深度卷积网络能够通过多层和多模态卷积操作实现大尺度感受野内的特征表达,但其采样模式的单一性和邻接性限制了卷积网络对不同尺度特征的准确表达,同时也导致了最终生成的特征的局部表达在整体图像层面关联性较弱,无法较好地保证具有相似图像语义内容的局部特征具有相近的特征表达。
[0004](3)特征图通道间的分类辨识度不同。深度卷积网络生成的特征图具有多个channel维度,不同维度的数据对图像的分类的贡献权重不尽相同,如何利用合理的模型计算贡献权重,也是改进基于深度卷积网络图像分类方法的重要途径。

技术实现思路

[0005]针对上述问题,本专利技术提出了一种基于双重注意力机制的图像分类方法、系统及电子设备。
[0006]本专利技术的方法所采用的技术方案是:一种基于双重注意力机制的图像分类方法,包括以下步骤:步骤1:构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络;所述基于Transformer的空间维度自注意力网络,第一层是3个平行的卷积核是1
×
1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出空间维度特征图;所述基于Transformer的channel维度自注意力网络,第一层是2个平行的卷积核是1
×
1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出通道维度特征图;步骤2:将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络,生成基于图像空间维度的注意力特征图;对输入图像Fm进行预处理,获得浅层特征图Fm1;采用自底向上和自顶向下相结合
的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;将中层特征图FA输入至空间维度自注意力网络,生成基于图像空间维度的注意力特征图FE
P
;步骤3:将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络,生成基于特征图通道维度的注意力特征图FE
c
;步骤4:将步骤2得到的特征图FE
P
和步骤3得到的特征图FE
c
进行对应维度上的元素相加,得到最后的输出特征图FM
ap
;将特征图FM
ap
放入全连接层进行线性映射,生成维度为nmu
×
1的向量,其中nmu为图像类别的个数,选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。
[0007]本专利技术的系统所采用的技术方案是:一种基于双重注意力机制的图像分类系统,包括以下模块:模块1,用于构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络;所述基于Transformer的空间维度自注意力网络,第一层是3个平行的卷积核是1
×
1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出空间维度特征图;所述基于Transformer的channel维度自注意力网络,第一层是2个平行的卷积核是1
×
1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出通道维度特征图;模块2,用于将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络,生成基于图像空间维度的注意力特征图;对输入图像Fm进行预处理,获得浅层特征图Fm1;采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;将中层特征图FA输入至空间维度自注意力网络,生成基于图像空间维度的注意力特征图FE
P
;模块3,用于将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络,生成基于特征图通道维度的注意力特征图FE
c
;模块4,用于将模块2得到的特征图FE
P
和模块3得到的特征图FE
c
进行对应维度上的元素相加,得到最后的输出特征图FM
ap
;将特征图FM
ap
放入全连接层进行线性映射,生成维度为nmu
×
1的向量,其中nmu为图像类别的个数,选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。
[0008]本专利技术的电子设备所采用的技术方案是:一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现基于双重注意力机制的图像分类方法。
[0009]相对于现有技术,本专利技术的有益效果包括:(1)本专利技术利用改进的自注意力模型,同时计算特征图空间维度和特征图channel维度的注意力权重,然后将两种注意力机制生成的特征图相加,完成端对端的图像分类网络构建,提升网络对显著区域的自适应感知能力。
[0010](2)相比与传统基于深度卷积的图像分类方法,本专利技术能够高效地实现图像空间维度和通道维度上高辨识度信息的权重自适应分配,综合考虑不同区域内的图像信息的冗
余度,不同通道内的信息对图像分类的不同贡献,进而实现更加精准鲁棒的图像特征表达,进而提升图像分类性能。
附图说明
[0011]图1为本专利技术实施例的流程图。
[0012]图2为本专利技术实施例的基于Transformer的空间维度自注意力网络结构示意图。
[0013]图3为本专利技术实施例的基于Transformer的channel维度自注意力网络结构示意图。
具体实施方式
[0014]为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0015]请见图1,本专利技术提供的一种一种基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双重注意力机制的图像分类方法,其特征在于,包括以下步骤:步骤1:构建基于Transformer的空间维度自注意力网络和基于Transformer的特征图channel维度自注意力网络;所述基于Transformer的空间维度自注意力网络,第一层是3个平行的卷积核是1
×
1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出空间维度特征图;所述基于Transformer的channel维度自注意力网络,第一层是2个平行的卷积核是1
×
1步长为1的卷积操作,第二层是利用softmax+向量乘积,第三层是权重矩阵与特征图的乘积,第四层是权重特征图与原特征图相加,最后输出通道维度特征图;步骤2:将输入图像Fm预处理后输入基于Transformer的空间维度自注意力网络,生成基于图像空间维度的注意力特征图;对输入图像Fm进行预处理,获得浅层特征图Fm1;采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;将中层特征图FA输入至空间维度自注意力网络,生成基于图像空间维度的注意力特征图FE
P
;步骤3:将中层特征图FA输入基于Transformer的特征图channel维度自注意力网络,生成基于特征图通道维度的注意力特征图FE
c
;步骤4:将步骤2得到的特征图FE
P
和步骤3得到的特征图FE
c
进行对应维度上的元素相加,得到最后的输出特征图FM
ap
;将特征图FM
ap
放入全连接层进行线性映射,生成维度为nmu
×
1的向量,其中nmu为图像类别的个数,选取向量维度中数值最大的维度对应的类别作为该图像的最终分类结果。2.根据权利要求1所述的基于双重注意力机制的图像分类方法,其特征在于,步骤2中所述对输入图像Fm进行预处理,获得浅层特征图Fm1;其具体实现包括以下子步骤:步骤2.1:对于任意输入图像Fm,定义并进行残差块操作res();(1);其中conv (Fm)是步长为1,卷积核是3
×
3,维持输出特征图维度不变的卷积操作, res Fm ()即是残差块的输出;步骤2.2:针对已知的训练样本集Train={S
i
}
Nti=1
,S
i =(img
i
, l
i
),其中S
i
表示第i个训练样本,img
i
是该样本的图像,l
i
是该样本的分类标签,N
t
是样本总数目;将{img
i
}输入至步骤1中残差块,将输出的特征图再次输入至残差块,输出浅层特征图Fm1。3.根据权利要求2所述的基于双重注意力机制的图像分类方法,其特征在于,步骤2中所述采用自底向上和自顶向下相结合的方式,对浅层特征图Fm1进行处理,生成中层特征图FA;其具体实现包括以下子步骤:步骤2.3:对Fm1进行卷积核是3
×
3,步长为2的最大池化操作,记为max_pooling(Fm1),将输出的特征图输入至残差块res(max_pooling(Fm1)),对输出的特征图再次进行上述操作,得到特征图Fm2;步骤2.4:利用双线性插值的方法,在空间维度将特征图Fm2上采样至维度为(C0,2H0,2W0)的张量UFm2,其中(C0,H0,W0)是Fm2的维度;再将UFm2输入至残差块中,输出特征图Fm3;对Fm3重复上述操作,即先将Fm3上采样至(C0,4H0,4W0),再输入至残差块,最后输出特征图Fm4;
其中Fm4的维度与Fm1的维度相同;步骤2.5:将特征图Fm4输入至任意深度卷积网络,输出中层特征图,其中C是特征图的通道维度,H和W分别是特征图的高和宽。4.根据权利要求2所述的基于双重注意力机制的图像分类方法,其特征在于,步骤2中所述将中层特征图FA输入至空间维度自注意力网络,生成图像空间维度的注意力特征图FE
P
;其具体实现包括以下子步骤:步骤2.6:将中层特征图分别送入两个步长为1,卷积核是1
×
1的卷积层,且输出的特征图通道维度是C,生成两个特征图;步骤2.7:将{FB,FC}进行维度上的变换,得到特征向量,其中N=H
×
W,N是单个通道上像素的个数总数,利用公式(2)计算空间注意力权值:(2);其中,VB
i
表示VB的第i行行向量,VC
jT
表示VC的第j行行向量的转置;...

【专利技术属性】
技术研发人员:何政叶刚傅佑铭王中元邹勤
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1