【技术实现步骤摘要】
一种轻量化窗口金字塔网络模型及其应用
[0001]本专利技术属于图像识别领域,具体地说,是一种轻量化窗口金字塔网络模型及其应用,该网络模型是基于Transformer,采用深度学习的方法实现轻量化图像识别。
技术介绍
[0002]图像分类是图像识别领域中最基础的一项任务,计算机根据图片语义信息的不同,对图片进行分类,实现最小的分类误差。自2012年AlexNet网络被提出以来,基于卷积神经网络的深度学习方法已经成为解决图像分类问题的主流方法。在计算机视觉领域当中,图像分类不仅是目标检测,语义分割,实例分割等密集检测任务的研究基础,同时也在自动驾驶,人脸识别,工业控制等领域有广阔的应用场景。
[0003]Transformer最早应用在自然语言处理领域,由于其优异的表现,越来越多的工作者开始尝试将Transformer应用到计算机视觉领域。最早将Transformer应用到计算机视觉领域当中的是Detection Transformer,它将Transformer作为颈部应用到目标检测网络当中,在实现端到端检测的条件下 ...
【技术保护点】
【技术特征摘要】
1.一种轻量化窗口金字塔网络模型,其特征在于,由三个基本模块组成:Patch embedding、Patch merging和Transformer block;所述Patch embedding模块将输入图片中每4
×
4个像素映射为一条特征,而7
×
7的卷积核极大程度保留了Patch之间相邻的信息;所述Patch merging模块对输入特征图进行2倍下采样,以得到不同尺度的特征图;所述Transformer block对输入的特征图首先进行不同大小的窗口注意力计算,构建出具有不同尺度的局部特征,然后利用所提出的下采样注意力模块,使这些局部特征之间进行信息交互,最终得到具有全局信息的特征图。2.根据权利要求1所述的轻量化窗口金字塔网络模型,其特征在于,所述Patch embedding模块由卷积层和归一化层组成,所述卷积层由64个大小为7
×
7,步长为4的卷积核构成,可将输入图片的分辨率降为原来的1/4,通道数变为64,所述归一化层采用Layer normalization,在通道维度上对输入特征进行归一化操作。3.根据权利要求2所述的轻量化窗口金字塔网络模型,其特征在于,所述Patch merging模块由卷积层和归一化层组成,所述卷积层由若干个大小为3
×
3,步长为2的卷积核构成,可将输入图片的分辨率降为原来的1/2,通道数变为原来的2倍,所述归一化层采用Layer normalization,在通道维度上对输入特征进行归一化操作。4.根据权利要求3所述的轻量化窗口金字塔网络模型,其特征在于,所述Transformer block由注意力模块、前馈网络和归一化层构成;所述注意力模块中,输入特征x首先经过三个不同的线性映射,生成q1,k1,v1三个矩阵,然后将它们在通道维度上平均划分为两组...
【专利技术属性】
技术研发人员:周全,莫玉玮,江晨风,倪英豪,樊亚文,康彬,张索非,吴晓富,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。