一种轻量化窗口金字塔网络模型及其应用制造技术

技术编号：37845061 阅读：12 留言：0更新日期：2023-06-14 22:28

本发明专利技术属于图像识别领域，具体地说，是一种轻量化窗口金字塔网络模型及其应用，包括Patchembedding、Patchmerging以及Transformerblock。Patchembedding模块对输入图片进行平均划分，将得到的每个区块作为一个向量进行后续的注意力计算。Patchmerging模块对输入特征图进行下采样，使得网络能够进行不同尺度的特征计算，从而得到多张不同分辨率大小的特征图。Transformerblock首先对输入特征图进行不同大小的窗口注意力计算，使得网络能够关注不同尺度的特征，然后对这些特征进行轻量化注意力计算，使得不同窗口内部的信息实现交互，最后使用线性层对这些特征进行融合。本发明专利技术提出的网络架构实现了性能与效率之间的最佳平衡。最佳平衡。最佳平衡。

全部详细技术资料下载

【技术实现步骤摘要】
一种轻量化窗口金字塔网络模型及其应用

[0001]本专利技术属于图像识别领域，具体地说，是一种轻量化窗口金字塔网络模型及其应用，该网络模型是基于Transformer，采用深度学习的方法实现轻量化图像识别。

技术介绍

[0002]图像分类是图像识别领域中最基础的一项任务，计算机根据图片语义信息的不同，对图片进行分类，实现最小的分类误差。自2012年AlexNet网络被提出以来，基于卷积神经网络的深度学习方法已经成为解决图像分类问题的主流方法。在计算机视觉领域当中，图像分类不仅是目标检测，语义分割，实例分割等密集检测任务的研究基础，同时也在自动驾驶，人脸识别，工业控制等领域有广阔的应用场景。
[0003]Transformer最早应用在自然语言处理领域，由于其优异的表现，越来越多的工作者开始尝试将Transformer应用到计算机视觉领域。最早将Transformer应用到计算机视觉领域当中的是Detection Transformer，它将Transformer作为颈部应用到目标检测网络当中，在实现端到端检测的条件下，取得了媲美Faster RCNN的效果，体现出Transformer强大的表达能力。首先将Transformer作为骨干网应用到计算机视觉领域当中的是Vision Transformer，它将图片平均划分成若干个patch，每个patch作为一个token(表示一条特征)去进行注意力计算，并取得了较好的效果。Swin Transformer(基于滑动窗口的Transformer)在Vision ...

【技术保护点】

【技术特征摘要】
1.一种轻量化窗口金字塔网络模型，其特征在于，由三个基本模块组成：Patch embedding、Patch merging和Transformer block；所述Patch embedding模块将输入图片中每4
×
4个像素映射为一条特征，而7
×
7的卷积核极大程度保留了Patch之间相邻的信息；所述Patch merging模块对输入特征图进行2倍下采样，以得到不同尺度的特征图；所述Transformer block对输入的特征图首先进行不同大小的窗口注意力计算，构建出具有不同尺度的局部特征，然后利用所提出的下采样注意力模块，使这些局部特征之间进行信息交互，最终得到具有全局信息的特征图。2.根据权利要求1所述的轻量化窗口金字塔网络模型，其特征在于，所述Patch embedding模块由卷积层和归一化层组成，所述卷积层由64个大小为7
×
7，步长为4的卷积核构成，可将输入图片的分辨率降为原来的1/4，通道数变为64，所述归一化层采用Layer normalization，在通道维度上对输入特征进行归一化操作。3.根据权利要求2所述的轻量化窗口金字塔网络模型，其特征在于，所述Patch merging模块由卷积层和归一化层组成，所述卷积层由若干个大小为3
×
3，步长为2的卷积核构成，可将输入图片的分辨率降为原来的1/2，通道数变为原来的2倍，所述归一化层采用Layer normalization，在通道维度上对输入特征进行归一化操作。4.根据权利要求3所述的轻量化窗口金字塔网络模型，其特征在于，所述Transformer block由注意力模块、前馈网络和归一化层构成；所述注意力模块中，输入特征x首先经过三个不同的线性映射，生成q1，k1，v1三个矩阵，然后将它们在通道维度上平均划分为两组...

【专利技术属性】
技术研发人员：周全，莫玉玮，江晨风，倪英豪，樊亚文，康彬，张索非，吴晓富，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人