一种图像分类方法技术

技术编号:35314279 阅读:55 留言:0更新日期:2022-10-22 13:06
本发明专利技术公开了一种图像分类方法。首先构建通道维度注意力网络和空间维度多尺度自注意力网络;然后将输入图像预处理后输入通道维度注意力网络,生成基于通道维度的注意力特征图;将基于通道维度的注意力特征图输入至空间维度的多尺度自注意力网络,生成基于特征图空间维度的多尺度自注意力特征图;最后将最终生成的多维度多尺度注意力特征图输入到分类器单元中,将模型输出的向量转换成概率表示,完成图像分类。本发明专利技术设计了一种新的多尺度自注意力机制,它利用一系列的深度可分离卷积操作,生成特征信息高度相关的局部特征图和区域特征图,不但可以强化自注意力机制的细粒度特征提取能力,还可以高效的提取有效的全局信息。息。息。

【技术实现步骤摘要】
一种图像分类方法


[0001]本专利技术属于图像分类
,具体涉及一种图像分类方法,尤其是一种基于多维度多尺度特征表示的自注意力机制的图像分类方法。

技术介绍

[0002]近年来,Transformer凭借其强大的上下文建模能力,已被广泛用于NLP领域。计算机视觉领域的研究人员也跃跃欲试,将Transformer中设计的核心即自注意力机制引入到视觉任务中。ViT作为首个将Transformer引入CV领域的模型,首先证明了完全依赖Transformer中的Self

Attention机制可以在图像分类方面实现最先进的性能。目前,基于自注意力机制的图像分类方法已经成为了当前研究的主流方法。然而,由于ViT继承了Transofrmer的整个架构,而Transformer最初是在机器翻译任务中被提出来的,它的设计更适用于NLP领域中的任务,因此ViT的研究进展中存在以下瓶颈。
[0003](1)ViT继承了Transformer的柱状结构。它将粗图像块作为输入,只能输出低分辨率的特征图,这在计算和存储方面都很昂贵。目前,学者们通过引入特征金字塔来缓解这个问题。(2)Transformer按顺序对标记的图像块(tokens)之间的关系进行建模。在图像分类任务中,输入通常是2D图像,像素具有高度空间结构,ViT的这种方式破坏了二维图像的结构信息,不利于对不同尺度的特征图进行上下文建模。一些学者尝试引入卷积操作、overlap pooling以及zero

padding等方法来解决这一问题。(3)全局范围内的自注意力机制。自注意力通过关注全局信息并在投影空间中取其加权平均来计算序列中某个位置的响应。它并没有考虑局部的细粒度特征之间的关注度,缺乏感知局部特征信息的能力。基于前两种瓶颈所提出的最新骨干技术如Pyramid Vision Transformer(Wenhai Wang, Enze Xie, Xiang Li, Deng

Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. 2021.Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions. 568

578),学者们相继设计了各种多尺度Vision Transformer。他们中的大多数人通过在自注意力机制外创建额外的tokens来实现不同尺度的自注意力计算的融合,虽然提高了模型的性能,但在实现部署方面却很复杂。
[0004]除了以上被大家广泛关注到的瓶颈之外,我们发现自注意力机制压缩了特征图的通道信息,只在空间维度上计算注意力。这种单一方式的注意力在表示特征之间的重要程度时缺乏代表性,并且模型在学习过程中也会存在噪声扰动。

技术实现思路

[0005]本专利技术的目的是针对以上瓶颈,提出一种图像分类方法,从而探索自注意力机制在图像分类任务上的应用。
[0006]本专利技术解决其技术问题所采用的技术方案如下。
[0007]步骤1:基于Pyramid Vision Transformer(PVT)的架构,构建通道维度注意力网络和空间维度多尺度自注意力网络。
[0008]Pyramid Vision Transformer(PVT)的架构一共包含四个阶段(Stage),通过嵌入层(Patch Embedding)来逐渐降低输入的分辨率。每个阶段中,分别构建通道维度注意力网络和空间维度多尺度自注意力网络。
[0009]步骤2:将输入图像预处理后输入通道维度注意力网络,生成基于通道维度的注意力特征图。
[0010]步骤3:将基于通道维度的注意力特征图输入至空间维度的多尺度自注意力网络,生成基于特征图空间维度的多尺度自注意力特征图。
[0011]步骤4:重复步骤2和3直到第四个阶段,将最终生成的多维度多尺度注意力特征图输入到分类器单元中,将模型输出的向量转换成概率表示,完成图像分类。
[0012]进一步的,步骤1中所述的通道维度注意力网络,第一层是两个平行的池化层,包括最大池化和平均池化。第二层是共享参数层,由多层感知机和一层隐藏层组成。第三层是最大池化特征图与平均池化特征图的元素求和操作。第四层是sigmoid层。第五层是针对原特征图的softmax层。第六层是对第四层和第五层输出的两个权重矩阵按元素求和操作。第七层是第六层输出的权重矩阵与原特征图进行矩阵乘法操作,最后输出通道维度特征图。
[0013]进一步的,步骤1中所述的空间维度的多尺度自注意力网络,第一层是两个平行的卷积核,卷积核分别为7
×
7和3
×
3,步长分别为7和1。第二层是层归一化操作。第三层是卷积核为3
×
3,步长为2的卷积操作。第四层是自注意力计算,包括矩阵相乘,softmax层归一化,权重矩阵与原矩阵的乘积,最终输出空间维度注意力特征图。
[0014]在步骤2中,对输入图像使用带有零填充的卷积操作生成图像嵌入向量;为了实现图像分类任务,在图像嵌入向量前拼接一个分类向量CLS,将其作为通道维度注意力网络的输入;将中间特征图输入至通道维度注意力网络,生成基于图像通道维度的注意力特征图。
[0015]在步骤3中,对通道维度的注意力特征图进行维度重置,生成二维的局部特征图,并将其作为空间维度的多尺度自注意力网络的输入;利用卷积核的层次结构,通过使用不同的卷积核和步长的深度可分离卷积操作,将自注意力网络划分为局部特征计算和区域特征计算两条路线,生成语义特征高度相关的局部特征图和区域特征图。将局部的上下文信息作为查询(Query),区域的上下文信息作为健值(Key和Value)来计算最终的空间维度多尺度自注意力特征图。
[0016]在步骤4中,反复的在四个阶段中更新CLS分类向量,由浅到深的提取多维度多尺度的高级语义特征。在最后一个阶段,将最终的CLS向量输入到分类器单元的前馈神经网络层FNN生成num
×
1的向量,其中num表示训练集的图像类别个数,最终通过一个分类器单元的softmax层,完成类别概率计算,完成最终的分类。
[0017]相对于现有技术,本专利技术的有益效果包括。
[0018]本专利技术在自注意力机制的基础上引入通道注意力,建立了多维度的表征学习空间。在图像分类任务中,相比于传统的自注意力方法,本专利技术能够更加高效地实现图像的通道维度和空间维度的特征提取,让模型学习到更抽象的高层特征表示,降低模型学习过程中的噪声扰动。
[0019]在自注意力网络的设计中,不同于传统的在全局范围内计算自注意力的方法,本专利技术设计了一种新的多尺度自注意力机制,它利用一系列的深度可分离卷积操作,生成特征信息高度相关的局部特征图和区域特征图,不但可以强化自注意力机制的细粒度特征提...

【技术保护点】

【技术特征摘要】
1.一种图像分类方法,其特征在于包括以下步骤:步骤1:基于PVT的架构,构建通道维度注意力网络和空间维度多尺度自注意力网络;步骤2:将输入图像预处理后输入通道维度注意力网络,生成基于通道维度的注意力特征图;步骤3:将基于通道维度的注意力特征图输入至空间维度多尺度自注意力网络,生成基于特征图空间维度的多尺度自注意力特征图;步骤4:重复步骤2和步骤3直到架构内的第四个阶段,将最终生成的多维度多尺度注意力特征图输入到分类器单元中,将模型输出的向量转换成概率表示,完成图像分类。2.根据权利要求1所述的一种图像分类方法,其特征在于:PVT的架构一共包含四个阶段,通过嵌入层来逐渐降低输入的分辨率;每个阶段中,分别构建通道维度注意力网络和空间维度多尺度自注意力网络。3.根据权利要求1或2所述的一种图像分类方法,其特征在于步骤1中所述的通道维度注意力网络:第一层是两个平行的池化层,包括最大池化和平均池化;第二层是共享参数层,由多层感知机和一层隐藏层组成;第三层是最大池化特征图与平均池化特征图的元素求和操作;第四层是sigmoid层;第五层是针对原特征图的softmax层;第六层是对第四层和第五层输出的两个权重矩阵按元素求和操作;第七层是第六层输出的权重矩阵与原特征图进行矩阵乘法操作,最后输出通道维度特征图。4.根据权利要求3所述的一种图像分类方法,其特征在于步骤1中所述的空间维度的多尺度自注意力网络:第一层是两个平行的卷积核,卷积核分别为7
×
7和3
×
3,步长分别为7和1;第二层是层归一化操作;第三层是卷积核为3
×
3,步长为2的卷积操作;第四层是自注意力计算,包括矩阵相乘,softmax层归一化,权重矩阵与原矩阵的乘积,最终输出空间维度注意力特征图。5.根据权利要求4所述的一种图像分类方法,其特征在于步骤2中对输入图像使用带有零填充的卷积操作生成图像嵌入向量;为了实现图像分类任务,在图像嵌入向量前拼接一个分类向量CLS,将其作为通道维度注意力网络的输入;将中间特征图输入至通道维度注意力网络,生成基于图像通道维度的注意力特征图。6.根据权利要求4或5所述的一种图像分类方法,其特征在于步骤3中,对通道维度的注意力特征图进行维度重置,生成二维的局部特征图,并将其作为空间维度的多尺度自注意力网络的输入;利用卷积核的层次结构,通过使用不同的卷积核和步长的深度可分离卷积操作,将自注意力网络划分为局部特征计算和区域特征计算两条路线,生成语义特征高度相关的局部特征图和区域特征图;将局部的上下文信息作为查询Query,区域的上下文信息作为健值Key和Value来计算最终的空间维度多尺度自注意力特征图。7.根据权利要求6所述的一种图像分类方法,其特征在于步骤4中,反复的在四个阶段
中更新CLS分类向量,由浅到深的提取多维度多尺度的高级语义特征;在最后一个阶段,将最终的CLS分类向量输入到分类器单元的前馈神经网络层FNN生成num
×
1的向量,其中num表示训练集的图像类别个数,最终通过一个分类器单元的softmax层,完成类别概率计算,完成最终的分类。8.根据权利要求5所述的一种图像分类方法,其特征在于步骤2中将输入图像预处理后输入通道维度注意力网络...

【专利技术属性】
技术研发人员:颜成钢殷俊颜拥王洪波胡冀熊剑平李亮郑博仑林聚财孔书晗王亚运孙垚棋金恒朱尊杰高宇涵殷海兵王鸿奎陈楚翘刘一秀李文超王廷宇张勇东张继勇
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1