一种图像分类方法技术

技术编号：35314279 阅读：55 留言：0更新日期：2022-10-22 13:06

本发明专利技术公开了一种图像分类方法。首先构建通道维度注意力网络和空间维度多尺度自注意力网络；然后将输入图像预处理后输入通道维度注意力网络，生成基于通道维度的注意力特征图；将基于通道维度的注意力特征图输入至空间维度的多尺度自注意力网络，生成基于特征图空间维度的多尺度自注意力特征图；最后将最终生成的多维度多尺度注意力特征图输入到分类器单元中，将模型输出的向量转换成概率表示，完成图像分类。本发明专利技术设计了一种新的多尺度自注意力机制，它利用一系列的深度可分离卷积操作，生成特征信息高度相关的局部特征图和区域特征图，不但可以强化自注意力机制的细粒度特征提取能力，还可以高效的提取有效的全局信息。息。息。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像分类方法

[0001]本专利技术属于图像分类
，具体涉及一种图像分类方法，尤其是一种基于多维度多尺度特征表示的自注意力机制的图像分类方法。

技术介绍

[0002]近年来，Transformer凭借其强大的上下文建模能力，已被广泛用于NLP领域。计算机视觉领域的研究人员也跃跃欲试，将Transformer中设计的核心即自注意力机制引入到视觉任务中。ViT作为首个将Transformer引入CV领域的模型，首先证明了完全依赖Transformer中的Self
‑
Attention机制可以在图像分类方面实现最先进的性能。目前，基于自注意力机制的图像分类方法已经成为了当前研究的主流方法。然而，由于ViT继承了Transofrmer的整个架构，而Transformer最初是在机器翻译任务中被提出来的，它的设计更适用于NLP领域中的任务，因此ViT的研究进展中存在以下瓶颈。
[0003]（1)ViT继承了Transformer的柱状结构。它将粗图像块作为输入，只能输出低分辨率的特征图，这在计算和存储方面都很昂贵。目前，学者们通过引入特征金字塔来缓解这个问题。(2)Transformer按顺序对标记的图像块(tokens)之间的关系进行建模。在图像分类任务中，输入通常是2D图像，像素具有高度空间结构，ViT的这种方式破坏了二维图像的结构信息，不利于对不同尺度的特征图进行上下文建模。一些学者尝试引入卷积操作、overlap pooling以及zero
‑
padding等方法来

【技术保护点】

【技术特征摘要】
1.一种图像分类方法，其特征在于包括以下步骤：步骤1:基于PVT的架构，构建通道维度注意力网络和空间维度多尺度自注意力网络；步骤2:将输入图像预处理后输入通道维度注意力网络，生成基于通道维度的注意力特征图；步骤3:将基于通道维度的注意力特征图输入至空间维度多尺度自注意力网络，生成基于特征图空间维度的多尺度自注意力特征图；步骤4:重复步骤2和步骤3直到架构内的第四个阶段，将最终生成的多维度多尺度注意力特征图输入到分类器单元中，将模型输出的向量转换成概率表示，完成图像分类。2.根据权利要求1所述的一种图像分类方法，其特征在于：PVT的架构一共包含四个阶段，通过嵌入层来逐渐降低输入的分辨率；每个阶段中，分别构建通道维度注意力网络和空间维度多尺度自注意力网络。3.根据权利要求1或2所述的一种图像分类方法，其特征在于步骤1中所述的通道维度注意力网络：第一层是两个平行的池化层，包括最大池化和平均池化；第二层是共享参数层，由多层感知机和一层隐藏层组成；第三层是最大池化特征图与平均池化特征图的元素求和操作；第四层是sigmoid层；第五层是针对原特征图的softmax层；第六层是对第四层和第五层输出的两个权重矩阵按元素求和操作；第七层是第六层输出的权重矩阵与原特征图进行矩阵乘法操作，最后输出通道维度特征图。4.根据权利要求3所述的一种图像分类方法，其特征在于步骤1中所述的空间维度的多尺度自注意力网络：第一层是两个平行的卷积核，卷积核分别为7
×
7和3
×
3，步长分别为7和1；第二层是层归一化操作；第三层是卷积核为3
×
3，步长为2的卷积操作；第四层是自注意力计算，包括矩阵相乘，softmax层归一化，权重矩阵与原矩阵的乘积，最终输出空间维度注意力特征图。5.根据权利要求4所述的一种图像分类方法，其特征在于步骤2中对输入图像使用带有零填充的卷积操作生成图像嵌入向量；为了实现图像分类任务，在图像嵌入向量前拼接一个分类向量CLS，将其作为通道维度注意力网络的输入；将中间特征图输入至通道维度注意力网络，生成基于图像通道维度的注意力特征图。6.根据权利要求4或5所述的一种图像分类方法，其特征在于步骤3中，对通道维度的注意力特征图进行维度重置，生成二维的局部特征图，并将其作为空间维度的多尺度自注意力网络的输入；利用卷积核的层次结构，通过使用不同的卷积核和步长的深度可分离卷积操作，将自注意力网络划分为局部特征计算和区域特征计算两条路线，生成语义特征高度相关的局部特征图和区域特征图；将局部的上下文信息作为查询Query，区域的上下文信息作为健值Key和Value来计算最终的空间维度多尺度自注意力特征图。7.根据权利要求6所述的一种图像分类方法，其特征在于步骤4中，反复的在四个阶段
中更新CLS分类向量，由浅到深的提取多维度多尺度的高级语义特征；在最后一个阶段，将最终的CLS分类向量输入到分类器单元的前馈神经网络层FNN生成num
×
1的向量，其中num表示训练集的图像类别个数，最终通过一个分类器单元的softmax层，完成类别概率计算，完成最终的分类。8.根据权利要求5所述的一种图像分类方法，其特征在于步骤2中将输入图像预处理后输入通道维度注意力网络...

【专利技术属性】
技术研发人员：颜成钢，殷俊，颜拥，王洪波，胡冀，熊剑平，李亮，郑博仑，林聚财，孔书晗，王亚运，孙垚棋，金恒，朱尊杰，高宇涵，殷海兵，王鸿奎，陈楚翘，刘一秀，李文超，王廷宇，张勇东，张继勇，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人