一种多尺度孔洞邻域注意力计算骨干网络模型及其应用制造技术

技术编号:37846947 阅读:17 留言:0更新日期:2023-06-14 22:32
本发明专利技术属于图像识别领域,具体地说,是一种多尺度孔洞邻域注意力计算骨干网络模型及其应用,由输入、图像特征提取、输出组成。主体部分为图像特征提取,该部分共有4个阶段:第一阶段包括一个图像块嵌入层和一个孔洞Transformer模块,第二三四阶段结构相同,包括一个下采样层和一个DT模块。在DT模块的构成中,核心模块为孔洞邻域注意力计算模块,它用来对输入到该部分的特征图进行自注意力的计算,通过该模块的计算可以保证在获取图像局部信息的同时也可以获取到图像全局信息。与目前最先进的骨干网模型相比,本发明专利技术实现了自注意力计算中参数量和计算量的有效权衡,成为解决图像识别领域问题的有效网络模型。图像识别领域问题的有效网络模型。图像识别领域问题的有效网络模型。

【技术实现步骤摘要】
一种多尺度孔洞邻域注意力计算骨干网络模型及其应用


[0001]本专利技术属于图像识别领域,具体地说,是一种多尺度孔洞邻域注意力计算骨干网络模型及其应用,以解决现阶段以Transformer模型为基础的骨干网普遍存在的问题,并将其应用于图像分类任务以及其他下游任务。

技术介绍

[0002]图像分类任务是计算机视觉领域的一个主流研究方向,它具有广泛的应用,是根据图像的语义信息对不同类别图像进行区分,是目标检测、图像分割、行为预测、人脸识别等其他高层次视觉任务的基础。图像分类在许多领域都有着广泛的应用,如:安防领域的人脸识别和智能视频分析等,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。本专利技术所研究的深度学习方法下的新型骨干网设计正是以图像分类任务作为主要任务。
[0003]近几年来,计算机视觉中骨干网的设计与研究大致分为两类:基于卷积神经网络(CNN)的算法研究和基于Transformer体系结构的算法研究。两种网络结构下的探索大致归纳如下:
[0004](1)CNN结构
[0005]自从AlexNet在ILSVRC

2012竞赛中获得冠军以来,CNN作为整个计算机视觉的中心网络模型,得到了广泛的应用。最初的计算机视觉任务是在CNN的基础上进行创新,例如VGG、GoogleNet、ResNet等工作,都取得了很大的成功。而随着在该领域研究的进一步加深,近几年来,基于CNN的算法性能逐渐到达了极限。伴随着Transformer体系结构的提出,研究重点已经转变为以Transformer结构为基础进行实践。
[0006](2)Transformer结构
[0007]Transformer结构体系自2017年被提出以来,得到了广泛的应用。与传统的CNN模型不同,它是一种典型的基于自注意力机制的深层神经网络,具有很好的表征能力,首先被应用于自然语言处理领域,而第一次将其用于CV(Computer Vision,计算机视觉)领域的是DETR(Detection Transformer,基于Transformer的端到端目标检测网络),随后便开始了在计算机视觉领域的飞速蓬勃发展,先后产出了以Transformer为基础的一系列有代表性的结构体系,在不同的视觉任务中取得了很好的效果。
[0008]为了更好的适应现实场景的需求,最近的研究热点如下:
[0009](1)以ViT(Vision Transformer,视觉Transformer)为例,它第一个直接将Transformer结构应用于非重叠图像块的图像分类任务,整个框架不包含局部卷积运算,通过大规模的预训练,实现了很好的性能;
[0010](2)以DeiT(Data

Efficient Image Transformers,数据高效的图像Transformer)为例,它第一个应用于大规模图像分类任务,但却没有使用任何大规模数据集,在不引入卷积的情况下,仅通过使用Transformer也能达到很好的效果,这证明了Transformer与精心调配的CNN设计相比的潜力;
[0011](3)以Swin Transformer(Hierarchical Vision Transformer using Shifted Windows,利用移位窗口的层次化Transformer)为例,它通过将自注意力计算限制为不重叠的局部窗口,同时允跨窗口连接,移位的窗口方案带来了更高的效率。这种分层体系结构具有在各种尺度上建模的灵活性,在图像分类任务上也具有很好的兼容性;
[0012](4)以DynamicViT(Efficient Vision Transformers with Dynamic Token Sparsification,动态图像块稀疏化的视觉Transformer)为例,它提出了一个轻量化的模型,来动态地决定哪个Token(一个完整的特征图所划分的每一个单独的部分)可以被剪枝掉。具体来说就是,对每个输入,模型都会生成一个二元决定掩码,来判断哪些Token不包含太多重要信息,对于这些对最终的预测结果影响不大的Token,可以丢弃掉,使其不再参与后续的计算,从而极大地减少了参数量和计算量;
[0013](5)以NAT(Neighborhood Attention Transformer,邻域注意力Transformer)为例,它通过将每个Query领域范围内固定数量的Token作为Key和Value,来实现局部的自注意力计算。其中查询(Q,Query)、键值(K,Key)、本值(V,Value)矩阵是通过对输入特征图进行线性投影产生的用于自注意力计算的矩阵,Query的作用是在Token(一个完整的特征图所划分的每一个单独的部分)之间搬运信息,而Value本身就是从当前Token中提取出来的所有信息。每一个Query的自注意力计算仅需在选定的Token内进行,类似Swin Transformer的加窗操作,但却无需将窗口固定,从而使得模型更具灵活性,能够更好的完成局部的特征信息交互,在图像分类以及其他下游任务上取得了很好的效果。
[0014]正如上述介绍中所总结的那样,近年来为了充分发掘和利用Transformer的力量,提出了许多解决方案,尽管上述方法都取得了很好的效果,但如今的研究体系中依然存在诸多问题,尤其是如何在实现Transformer模型高效运作的同时又可以保证提高模型预测精度,以使其更好的适用于工业应用,仍然是当前计算机视觉研究领域的一大热点和挑战。

技术实现思路

[0015]鉴于上述现有技术的缺陷与不足,本专利技术的目的旨在提出一种多尺度孔洞邻域注意力计算骨干网络模型及其应用,以增强模型对多尺度图像特征的提取能力,在保证局部和全局信息交互的同时实现模型参数量和计算复杂度的最佳平衡。
[0016]为达成上述目标,本专利技术的具体解决方案是:
[0017]一种多尺度孔洞邻域注意力计算骨干网络模型,整体采用层次化结构,这种分层体系结构具有在各种尺度上建模的灵活性,在网络加深过程中,图像块(Patch,当图像分辨率太大而难以有效处理时,可以将图像划分成一个个小块,这些小块就是Patch)的数量会随着层次化的网络搭建特征而逐渐减少,以使其更好应用于下游任务。整体由三部分组成:输入模块、图像特征提取模块和输出模块。作为骨干网的核心组件,本专利技术在四个连续的图像特征提取阶段内设计了孔洞Transformer(DT,Dilated Transformer)模块,其内部核心模块为孔洞邻域注意力计算(DNA,Dilated Neighborhood Attention)模块,它用来对输入到该部分的特征图进行自注意力的计算,同时获得多尺度图像信息。
[0018]在上述技术方案中,图像特征提取模块共有四个阶段:对于输入进骨干网的图像,在第一个图像特征提取阶段首先经过Patch嵌入层改变图像通道数和分辨率,使其适合层次化的结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多尺度孔洞邻域注意力计算骨干网络模型,整体采用层次化结构,其特征在于,整体由三部分组成:输入模块、图像特征提取模块和输出模块,在所述四个连续的图像特征提取模块阶段内设置了孔洞模块。2.根据权利要求1所述的多尺度孔洞邻域注意力计算骨干网络模型,其特征在于,所述模型采用层次化结构,所述层次化结构通过在模型的不同阶段进行不同倍率的下采样,产生一种逐层递进的不同尺度的特征图信息。3.根据权利要求2所述的多尺度孔洞邻域注意力计算骨干网络模型,其特征在于,所述孔洞模块包括孔洞邻域注意力计算模块,所述孔洞邻域注意力计算模块由三支路组成,以实现多尺度图像特征提取。4.根据权利要求3所述的多尺度孔洞邻域注意力计算骨干网络模型,其特征在于,所述图像特征提取模块共有四个阶段:对于输入进骨干网的图像,在第一个图像特征提取阶段首先经过Patch嵌入层改变图像通道数和分辨率,使其适合层次化的结构处理,然后经过DT模块进行特征图自注意力计算和获取多尺度图像信息,处理后的特征图传递到第二个图像特征提取阶段;在第二个图像特征提取阶段经过下采样层再次改变特征图通道数和分辨率,输出到DT模块进行与第一图像特征提取阶段同样的处理方式,处理后的特征图传递到第三图像特征提取阶段;紧随其后的第三第四图像特征提取阶段重复第二图像特征提取阶段的处理流程,将最后的输出特征图经过全连接层后得到最终的分类结果。5.一种多尺度孔洞邻域注意力计算骨干网络模型实现轻量化图像识别的方法,使用如权利要求4所述的多尺度孔洞邻域注意力计算骨干网络模型,其特征在于,包括以下步骤:S1、对输入原始图像在Patch嵌入层进行两个连续的重...

【专利技术属性】
技术研发人员:周全江晨风倪英豪莫玉玮樊亚文康彬张索非吴晓富
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1