一种基于多粒度Transformer的图像分类方法技术

技术编号：36543126 阅读：13 留言：0更新日期：2023-02-01 16:47

本发明专利技术涉及计算机视觉技术领域，特别涉及一种基于多粒度Transformer的图像分类方法。本发明专利技术包括以下步骤：步骤1、将图片送入到渐进标记模块，通过堆叠的多种尺寸的卷积层将图片标记为图片向量；步骤2、将图片向量送入到第一个stage的令牌聚合模块，利用卷积运算调整图片向量的数量和维度；步骤3、将调整好的图片向量送入到该stage的多粒度Transformer模块中，提取图片的特征向量；步骤4、重复进行步骤2和步骤3，从最后一个stage的多粒度Transformer模块中的到最终输出向量；步骤5、将最终输出向量送入到分类单元中，得到该图片所属类别，完成图像分类。本发明专利技术即能够有效的降低Transformer模块的计算复杂度，又能够高效的提取图片特征。提取图片特征。提取图片特征。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多粒度Transformer的图像分类方法

[0001]本专利技术涉及计算机视觉
，特别涉及一种基于多粒度Transformer的图像分类方法。

技术介绍

[0002]自从AlexNet在ImageNet图像分类挑战中取得颠覆性的表现后，CNN(卷积神经网络)逐渐成为计算机视觉建模中的主流架构。通过扩大网络规模，进行更充分的连接，使用更多样的卷积形式等方式，越来越多越强大的CNN的网络架构被提出例如：GoogleNet，ResNet，DenseNet，以及EfficientNet等等。当这些基于CNN的网络架构作为视觉任务的骨干网络时，促使了各种任务的性能提升，广泛提升了整个视觉领域。
[0003]Transformer最早被提出用来进行机器翻译任务。由于能够对数据中的远程依赖关系进行建模，Transformer在NLP(自然语言处理)领域迅速走红，到今天已经取代了RNN(循环神经网络)成为了NLP建模的首选架构。受此激励，研究人员开始尝试将transformer引入到CV(计算机视觉)中。VisionTransformer(ViT)是第一个完全基于transformer的方法能够在图像分类任务中匹配甚至超越CNN架构。随后又提出了许多visiontransformer的变体，进一步拓展了transformer在CV中的应用场景以及提升了transformer在一系列视觉任务上的表现。DeiT将知识蒸馏引入到ViT的训练中，采用了一种教师
‑
学生的训练策略，使得ViT在Imag...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度Transformer的图像分类方法，其特征在于，包括以下步骤：步骤1、将图片送入到渐进标记模块，通过堆叠的多种尺寸的卷积层将图片标记为图片向量；步骤2、将图片向量送入到第一个stage的令牌聚合模块，利用卷积运算调整图片向量的数量和维度；步骤3、将调整好的图片向量送入到该stage的多粒度Transformer模块中，提取图片的特征向量；步骤4、重复进行步骤2和步骤3，从最后一个stage的多粒度Transformer模块中的到最终输出向量；步骤5、将最终输出向量送入到分类单元中，得到该图片所属类别，完成图像分类。2.根据权利要求1所述的一种基于多粒度Transformer的图像分类方法，其特征在于，所述步骤1中的渐进标记模块是通过堆叠多种不同尺寸的卷积层，从而逐渐将图片标记为图片向量。3.根据权利要求2所述的一种基于多粒度Transformer的图像分类方法，其特征在于，所述步骤1的具体步骤包括：首先采用卷积核大小为7
×
7，步长为2使用0来填充且卷积核数量为32的的重叠卷积层来作为渐进标记模块的第一层；接着采用卷积核大小为3
×
3，步长为1使用0来填充且卷积核数量为32的重叠卷积层作为渐进标记模块的第二层；最后，使用卷积核大小为2，步长也为2
×
2，卷积核数量为64的非重叠的卷积层作为最后一层，生成输入的图片向量序列；给定输入的图片大小为H
×
W
×
3,经过渐进标记模块后，得到的向量序列尺寸为4.根据权利要求3所述的一种基于多粒度Transformer的图像分类方法，其特征在于，所述步骤2中的令牌聚合模块是使用重叠的卷积层来将图片向量序列进行聚合，减少图片向量序列的数量的同时增加图片向量的维度；所述步骤2的具体步骤包括：给定输入的向量序列大小为N
×
C，先将其变形为三维向量图大小为H
×
W
×
C，其中N＝H
×
W；再将其输入到步长为S,卷积核大小为2S
‑
1,填充尺寸为S
‑
1,卷积核数量为2C的卷积层中，得到聚合后的三维向量图的大小为5.根据权利要求4所述的一种基于多粒度Transformer的图像分类方法，其特征在于，所述步骤3中的多粒度Transformer模块是由局部细粒度自注意力机制、全局多种粗粒度自注意力机制以及细节增强的卷积前馈神经网络组成，局部细粒度自注意力机制与细节增强的卷积前馈神经网络组成了使用细粒度用来捕获局部信息的局部Transformer，全局多种粗粒度自注意力机制与细节增强的卷积前馈神经网络组成了使用多种粗粒度来捕获全局信息的全局Transformer；局部Transformer与全局Transformer交替设置，先进行局部信息的捕获，再进行全局信息的捕获。6.根据权利要求5所述的一种基于多粒度Transformer的图像分类方法，其特征在于，所述局部细粒度自注意力机制是将标准自注意力操作限制在多个不重叠的窗口中，具体步骤包括：先将三维特征图x∈R
(H
×
W
×
d)
...

【专利技术属性】
技术研发人员：王则林，徐昂，陈方宁，赵辉，王苏苏，
申请(专利权)人：南通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人