当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于多粒度Transformer的图像分类方法技术

技术编号:36543126 阅读:13 留言:0更新日期:2023-02-01 16:47
本发明专利技术涉及计算机视觉技术领域,特别涉及一种基于多粒度Transformer的图像分类方法。本发明专利技术包括以下步骤:步骤1、将图片送入到渐进标记模块,通过堆叠的多种尺寸的卷积层将图片标记为图片向量;步骤2、将图片向量送入到第一个stage的令牌聚合模块,利用卷积运算调整图片向量的数量和维度;步骤3、将调整好的图片向量送入到该stage的多粒度Transformer模块中,提取图片的特征向量;步骤4、重复进行步骤2和步骤3,从最后一个stage的多粒度Transformer模块中的到最终输出向量;步骤5、将最终输出向量送入到分类单元中,得到该图片所属类别,完成图像分类。本发明专利技术即能够有效的降低Transformer模块的计算复杂度,又能够高效的提取图片特征。提取图片特征。提取图片特征。

【技术实现步骤摘要】
一种基于多粒度Transformer的图像分类方法


[0001]本专利技术涉及计算机视觉
,特别涉及一种基于多粒度Transformer的图像分类方法。

技术介绍

[0002]自从AlexNet在ImageNet图像分类挑战中取得颠覆性的表现后,CNN(卷积神经网络)逐渐成为计算机视觉建模中的主流架构。通过扩大网络规模,进行更充分的连接,使用更多样的卷积形式等方式,越来越多越强大的CNN的网络架构被提出例如:GoogleNet,ResNet,DenseNet,以及EfficientNet等等。当这些基于CNN的网络架构作为视觉任务的骨干网络时,促使了各种任务的性能提升,广泛提升了整个视觉领域。
[0003]Transformer最早被提出用来进行机器翻译任务。由于能够对数据中的远程依赖关系进行建模,Transformer在NLP(自然语言处理)领域迅速走红,到今天已经取代了RNN(循环神经网络)成为了NLP建模的首选架构。受此激励,研究人员开始尝试将transformer引入到CV(计算机视觉)中。VisionTransformer(ViT)是第一个完全基于transformer的方法能够在图像分类任务中匹配甚至超越CNN架构。随后又提出了许多visiontransformer的变体,进一步拓展了transformer在CV中的应用场景以及提升了transformer在一系列视觉任务上的表现。DeiT将知识蒸馏引入到ViT的训练中,采用了一种教师

学生的训练策略,使得ViT在ImageNet图像分类任务上达到了SOTA。PvT采用了像CNN一样的金字塔结构并设计了一种空间缩减注意力机制来减少模型的计算开销。T2T

ViT使用分层的Tokens

to

Token(T2T)模块来替代ViT中朴素标记化模块,以编码每个令牌的重要的局部结构。CrossViT使用了一种双路径结构来提取多尺度特征以更好的进行视觉特征表示。DETR则将Transformer应用于目标检测中。它将目标检测看作是一个集合预测问题,并使用标准Transformer中Encoder

Decoder结构来处理。MAE则直接使用ViT作为骨干网络,图像重建作为代理任务来进行自监督学习,填补了计算机视觉领域有监督训练和无监督训练的鸿沟。
[0004]ViT模型直接将原始Transformer的编码器模块迁移到图像分类任务上,并能在大规模数据集上进行预训练后,在许多图像数据集上达到很好的效果。但ViT也同时存在许多缺点,比如由于缺少卷积神经网络的平移不变性和局部性等归纳偏置,ViT需要在大型数据集上进行预训练才能取得很好的效果;ViT中的自注意力机制的计算复杂度是与输入令牌的数量呈二次关系,当图像分辨率过高时,需要的计算资源太多;ViT的优化要求十分苛刻,对学习率和权重衰减这两个参数敏感,并且收敛速度较慢。

技术实现思路

[0005]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于多粒度Transformer的图像分类方法,提出了渐进标记模块来将图片编码成向量,使得模型对学习率和权重衰减稳定,训练稳定,收敛加快;采用局部细粒度和全局多种粗粒度两种只有线性
计算复杂度自注意力机制,既降低了transformer模块的计算复杂度,又提升了transformer模块捕获重要特征的能力;使用细节增强的卷积前馈神经网络来给模型带来局部性,减少了模型对大规模数据集的依赖。
[0006]本专利技术为实现上述专利技术目的,采取的技术方案如下:
[0007]一种基于多粒度Transformer的图像分类方法,包括以下步骤:步骤1、将图片送入到渐进标记模块,通过堆叠的多种尺寸的卷积层将图片标记为图片向量;步骤2、将图片向量送入到第一个stage的令牌聚合模块,利用卷积运算调整图片向量的数量和维度;步骤3、将调整好的图片向量送入到该stage的多粒度Transformer模块中,提取图片的特征向量;步骤4、重复进行步骤2和步骤3,从最后一个stage的多粒度Transformer模块中的到最终输出向量;步骤5、将最终输出向量送入到分类单元中,得到该图片所属类别,完成图像分类。
[0008]作为本专利技术的优选技术方案:所述步骤1中的渐进标记模块是通过堆叠多种不同尺寸的卷积层,从而逐渐将图片标记为图片向量。
[0009]作为本专利技术的优选技术方案:所述步骤1的具体步骤包括:首先采用卷积核大小为7
×
7,步长为2使用0来填充且卷积核数量为32的的重叠卷积层来作为渐进标记模块的第一层;接着采用卷积核大小为3
×
3,步长为1使用0来填充且卷积核数量为32的重叠卷积层作为渐进标记模块的第二层;最后,使用卷积核大小为2,步长也为2
×
2,卷积核数量为64的非重叠的卷积层作为最后一层,生成输入的图片向量序列;给定输入的图片大小为H
×
W
×
3,经过渐进标记模块后,得到的向量序列尺寸为
[0010]作为本专利技术的优选技术方案:所述步骤2中的令牌聚合模块是使用重叠的卷积层来将图片向量序列进行聚合,减少图片向量序列的数量的同时增加图片向量的维度;所述步骤2的具体步骤包括:给定输入的向量序列大小为N
×
C,先将其变形为三维向量图大小为H
×
W
×
C,其中N=H
×
W;再将其输入到步长为S,卷积核大小为2S

1,填充尺寸为S

1,卷积核数量为2C的卷积层中,得到聚合后的三维向量图的大小为
[0011]作为本专利技术的优选技术方案:所述步骤3中的多粒度Transformer模块是由局部细粒度自注意力机制、全局多种粗粒度自注意力机制以及细节增强的卷积前馈神经网络组成,局部细粒度自注意力机制与细节增强的卷积前馈神经网络组成了使用细粒度用来捕获局部信息的局部Transformer,全局多种粗粒度自注意力机制与细节增强的卷积前馈神经网络组成了使用多种粗粒度来捕获全局信息的全局Transformer;局部Transformer与全局Transformer交替设置,先进行局部信息的捕获,再进行全局信息的捕获。
[0012]作为本专利技术的优选技术方案:所述局部细粒度自注意力机制是将标准自注意力操作限制在多个不重叠的窗口中,具体步骤包括:先将三维特征图x∈R
(H
×
W
×
d)
以不重叠的方式划分成M个子窗口,每个子窗口的大小为p
×
p,得到特征向量x∈R
(M
×
p
×
p
×
d)
,其中d代表了特征向量的维度,H,W分别代表了三维特征图的长和宽,M代表子窗口数量,p代表子窗口大小(M=(H/p
×
W/p));然后在每个子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度Transformer的图像分类方法,其特征在于,包括以下步骤:步骤1、将图片送入到渐进标记模块,通过堆叠的多种尺寸的卷积层将图片标记为图片向量;步骤2、将图片向量送入到第一个stage的令牌聚合模块,利用卷积运算调整图片向量的数量和维度;步骤3、将调整好的图片向量送入到该stage的多粒度Transformer模块中,提取图片的特征向量;步骤4、重复进行步骤2和步骤3,从最后一个stage的多粒度Transformer模块中的到最终输出向量;步骤5、将最终输出向量送入到分类单元中,得到该图片所属类别,完成图像分类。2.根据权利要求1所述的一种基于多粒度Transformer的图像分类方法,其特征在于,所述步骤1中的渐进标记模块是通过堆叠多种不同尺寸的卷积层,从而逐渐将图片标记为图片向量。3.根据权利要求2所述的一种基于多粒度Transformer的图像分类方法,其特征在于,所述步骤1的具体步骤包括:首先采用卷积核大小为7
×
7,步长为2使用0来填充且卷积核数量为32的的重叠卷积层来作为渐进标记模块的第一层;接着采用卷积核大小为3
×
3,步长为1使用0来填充且卷积核数量为32的重叠卷积层作为渐进标记模块的第二层;最后,使用卷积核大小为2,步长也为2
×
2,卷积核数量为64的非重叠的卷积层作为最后一层,生成输入的图片向量序列;给定输入的图片大小为H
×
W
×
3,经过渐进标记模块后,得到的向量序列尺寸为4.根据权利要求3所述的一种基于多粒度Transformer的图像分类方法,其特征在于,所述步骤2中的令牌聚合模块是使用重叠的卷积层来将图片向量序列进行聚合,减少图片向量序列的数量的同时增加图片向量的维度;所述步骤2的具体步骤包括:给定输入的向量序列大小为N
×
C,先将其变形为三维向量图大小为H
×
W
×
C,其中N=H
×
W;再将其输入到步长为S,卷积核大小为2S

1,填充尺寸为S

1,卷积核数量为2C的卷积层中,得到聚合后的三维向量图的大小为5.根据权利要求4所述的一种基于多粒度Transformer的图像分类方法,其特征在于,所述步骤3中的多粒度Transformer模块是由局部细粒度自注意力机制、全局多种粗粒度自注意力机制以及细节增强的卷积前馈神经网络组成,局部细粒度自注意力机制与细节增强的卷积前馈神经网络组成了使用细粒度用来捕获局部信息的局部Transformer,全局多种粗粒度自注意力机制与细节增强的卷积前馈神经网络组成了使用多种粗粒度来捕获全局信息的全局Transformer;局部Transformer与全局Transformer交替设置,先进行局部信息的捕获,再进行全局信息的捕获。6.根据权利要求5所述的一种基于多粒度Transformer的图像分类方法,其特征在于,所述局部细粒度自注意力机制是将标准自注意力操作限制在多个不重叠的窗口中,具体步骤包括:先将三维特征图x∈R
(H
×
W
×
d)
...

【专利技术属性】
技术研发人员:王则林徐昂陈方宁赵辉王苏苏
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1