一种轻量化窗口金字塔网络模型及其应用制造技术

技术编号:37845061 阅读:12 留言:0更新日期:2023-06-14 22:28
本发明专利技术属于图像识别领域,具体地说,是一种轻量化窗口金字塔网络模型及其应用,包括Patchembedding、Patchmerging以及Transformerblock。Patchembedding模块对输入图片进行平均划分,将得到的每个区块作为一个向量进行后续的注意力计算。Patchmerging模块对输入特征图进行下采样,使得网络能够进行不同尺度的特征计算,从而得到多张不同分辨率大小的特征图。Transformerblock首先对输入特征图进行不同大小的窗口注意力计算,使得网络能够关注不同尺度的特征,然后对这些特征进行轻量化注意力计算,使得不同窗口内部的信息实现交互,最后使用线性层对这些特征进行融合。本发明专利技术提出的网络架构实现了性能与效率之间的最佳平衡。最佳平衡。最佳平衡。

【技术实现步骤摘要】
一种轻量化窗口金字塔网络模型及其应用


[0001]本专利技术属于图像识别领域,具体地说,是一种轻量化窗口金字塔网络模型及其应用,该网络模型是基于Transformer,采用深度学习的方法实现轻量化图像识别。

技术介绍

[0002]图像分类是图像识别领域中最基础的一项任务,计算机根据图片语义信息的不同,对图片进行分类,实现最小的分类误差。自2012年AlexNet网络被提出以来,基于卷积神经网络的深度学习方法已经成为解决图像分类问题的主流方法。在计算机视觉领域当中,图像分类不仅是目标检测,语义分割,实例分割等密集检测任务的研究基础,同时也在自动驾驶,人脸识别,工业控制等领域有广阔的应用场景。
[0003]Transformer最早应用在自然语言处理领域,由于其优异的表现,越来越多的工作者开始尝试将Transformer应用到计算机视觉领域。最早将Transformer应用到计算机视觉领域当中的是Detection Transformer,它将Transformer作为颈部应用到目标检测网络当中,在实现端到端检测的条件下,取得了媲美Faster RCNN的效果,体现出Transformer强大的表达能力。首先将Transformer作为骨干网应用到计算机视觉领域当中的是Vision Transformer,它将图片平均划分成若干个patch,每个patch作为一个token(表示一条特征)去进行注意力计算,并取得了较好的效果。Swin Transformer(基于滑动窗口的Transformer)在Vision Transformer的基础上,将图片划分为多个窗口,并将注意力计算限制在了窗口内,极大的降低了Transformer的计算量,并取得了较好的效果。Pyramid Vision Transformer也在Vision Transformer的基础上,用下采样的方式,减少了参与注意力计算的token的数目,取得了较好的效果。
[0004]尽管上述基于Transformer的骨干网取得了良好的效果,他们仍受限于以下缺点:(1)在每次注意力计算中,仅仅具有单一尺度的特征参与,然而目标的大小是不一的,因此,将多尺度的信息引入到每次注意力计算当中是有必要的。(2)虽然上述方法降低了Transformer的计算复杂度,但同时也带来了性能的下降,因此重新探索一种高效的注意力计算方式是很有必要的。

技术实现思路

[0005]鉴于上述现有技术的缺陷与不足,本专利技术的目的旨在提出一种轻量化窗口金字塔网络模型及其应用,以实现模型识别准确性和计算效率之间的最佳平衡。
[0006]为达成上述目标,本专利技术的具体解决方案是:
[0007]一种轻量化窗口金字塔网络模型,它由三个基本模块组成:Patch embedding、Patch merging和Transformer block。Patch embedding模块的核心是步长为4的7
×
7卷积,它将输入图片中每4
×
4个像素映射为一条特征(token),而7
×
7的卷积核极大程度保留了Patch之间相邻的信息;Patch merging模块的核心是步长为2的3
×
3的卷积,它对输入特征图进行2倍下采样,以得到不同尺度的特征图;Transformer block主要由注意力模块、前
馈网络和归一化层组成,注意力模块局部注意力和全局注意力两部分,前者主要由窗口注意力实现,后者由下采样注意力(ADQK,Attentionbased on Down

sampled QK)实现。为了在注意力计算中引入多尺度的信息,在通道维度上将一张特征图划分为若干部分,另其进行不同大小的窗口注意力以及对应倍率的下采样注意力计算。前馈网络由两个线性层构成。归一化层由Layer normalization构成。
[0008]在上述技术方案中,Patch embedding模块由卷积层和归一化层组成,卷积层由64个大小为7
×
7,步长为4的卷积核构成,可将输入图片的分辨率降为原来的1/4,通道数变为64,归一化层采用Layer normalization,在通道维度上对输入特征进行归一化操作;Patch merging模块由卷积层和归一化层组成,卷积层由若干个大小为3
×
3,步长为2的卷积核构成,可将输入图片的分辨率降为原来的1/2,通道数变为原来的2倍,归一化层采用Layer normalization,在通道维度上对输入特征进行归一化操作;Transformer block由注意力模块、前馈网络和归一化层构成;注意力模块中,输入特征x首先经过三个不同的线性映射,生成q1,k1,v1三个矩阵,然后将它们在通道维度上平均划分为两组,进行两种不同尺度的注意力计算;注意力计算由窗口注意力模块和ADQK模块组成:窗口注意力模块将注意力计算限制在w
×
w的窗口内,并输出x1,此时x1并没有实现全局信息的融合;ADQK模块中,输入x1首先经过一个线性映射,生成v2矩阵,然后x1经过w倍下采样、归一化以及两个线性映射生成q2,k2两个矩阵,得到输出x2;两条分支的输出在通道维度上进行拼接,通过线性层进行多尺度信息融合得到注意力模块的输出;接着依次经过归一化层,前馈网络,归一化层得到最终输出。
[0009]本专利技术还披露了一种轻量化窗口金字塔网络模型的应用,用于实现轻量化图像识别,具体包括以下步骤:
[0010]S1、将图像输入Patch embedding模块当中获取分辨率为原始图像1/4,通道数为64的第一特征图;
[0011]S2、使用Transformerblock对第一特征图进行特征提取,获得分辨率为原始图像1/4,通道数为64的第二特征图;
[0012]S3、将第二特征图输入到Patch merging模块当中,获得分辨率为原始图像1/8,通道数为128的第三特征图;
[0013]S4、使用Transformerblock对第三特征图进行特征提取,获得分辨率为原始图像1/8,通道数为64的第四特征图;
[0014]S5、将第四特征图输入到Patch merging模块当中,获得分辨率为原始图像1/16,通道数为256的第五特征图;
[0015]S6、连续使用四个Transformer block对第五特征图进行特征提取,获得分辨率为原始图像1/16,通道数为256的第六特征图;
[0016]S7、将第六特征图输入到Patch merging模块当中,获得分辨率为原水图像1/32,通道数为512的第七特征图;
[0017]S8、连续使用两个Transformer block对第七特征图进行特征提取,获得分辨率为原始图像1/32,通道数为512的第八特征图。
[0018]本专利技术的有益效果:
[0019]本专利技术的提出并应用,较之于现有的模型具有显著的进步性:本专利技术设计了一种<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种轻量化窗口金字塔网络模型,其特征在于,由三个基本模块组成:Patch embedding、Patch merging和Transformer block;所述Patch embedding模块将输入图片中每4
×
4个像素映射为一条特征,而7
×
7的卷积核极大程度保留了Patch之间相邻的信息;所述Patch merging模块对输入特征图进行2倍下采样,以得到不同尺度的特征图;所述Transformer block对输入的特征图首先进行不同大小的窗口注意力计算,构建出具有不同尺度的局部特征,然后利用所提出的下采样注意力模块,使这些局部特征之间进行信息交互,最终得到具有全局信息的特征图。2.根据权利要求1所述的轻量化窗口金字塔网络模型,其特征在于,所述Patch embedding模块由卷积层和归一化层组成,所述卷积层由64个大小为7
×
7,步长为4的卷积核构成,可将输入图片的分辨率降为原来的1/4,通道数变为64,所述归一化层采用Layer normalization,在通道维度上对输入特征进行归一化操作。3.根据权利要求2所述的轻量化窗口金字塔网络模型,其特征在于,所述Patch merging模块由卷积层和归一化层组成,所述卷积层由若干个大小为3
×
3,步长为2的卷积核构成,可将输入图片的分辨率降为原来的1/2,通道数变为原来的2倍,所述归一化层采用Layer normalization,在通道维度上对输入特征进行归一化操作。4.根据权利要求3所述的轻量化窗口金字塔网络模型,其特征在于,所述Transformer block由注意力模块、前馈网络和归一化层构成;所述注意力模块中,输入特征x首先经过三个不同的线性映射,生成q1,k1,v1三个矩阵,然后将它们在通道维度上平均划分为两组...

【专利技术属性】
技术研发人员:周全莫玉玮江晨风倪英豪樊亚文康彬张索非吴晓富
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1