当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于渐进采样的层级式图像分类方法技术

技术编号:38921342 阅读:12 留言:0更新日期:2023-09-25 09:32
本发明专利技术属于计算机视觉技术领域,具体涉及一种基于渐进采样的层级式图像分类方法。包括以下步骤:S1:将图片送入第一个阶段的分层模块中,利用特征金字塔的结构将图片的分辨率由低到高依次输出不同的特征图,分别作为阶段1,阶段2,阶段3,阶段4的特征图;S2:将各层的特征图分别送入到对应阶段中的渐进采样模块中,对判别位置进行定位;S3:将采样步长的嵌入馈送到Transformer编码层,预测下一组采样偏移,更新下一组的采样位置;S4:重复进行S2和S3,从最后一次迭代中得到最后的输出令牌;S5:将不同层的特征图分别通过分类器单元将最终的输出向量转化成概率表示,完成各层的图像分类;S6:利用最大值法,结合最后的分类结果,得出最后的图像分类。的图像分类。的图像分类。

【技术实现步骤摘要】
一种基于渐进采样的层级式图像分类方法


[0001]本专利技术属于计算机视觉
,具体涉及一种基于渐进采样的层级式图像分类方法。

技术介绍

[0002]从AlexNet在ImageNet分类挑战中取得革命性的表现开始,Transformer网络架构得到迅速的发展。此后,人们提出了更深、更有效的卷积网络结构进一步推动了计算机视觉领域深度学习的浪潮,例如CNN、Resnet、BERT、iGPT和ViT。Transformer及其变体成为了是计算机视觉应用的主要主干架构。现有技术在考虑到注意力结构的情况下,但是没有考虑到计算复杂度。

技术实现思路

[0003]本专利技术的目的在于解决上述问题,提供了一种基于渐进采样的层级式图像分类方法,通过Patch Embedding层和空间减少注意力SRA技术,能够大幅度降低Transformer模块的计算复杂度,通过渐进采样迭代更新采样位置去除背景等干扰因素,保护对象结构,并通过预测多层图像数据来增加分类准确性。
[0004]本专利技术为实现上述专利技术目的,采取的技术方案如下:
[0005]一种基于渐进采样的层级式图像分类方法,包括以下步骤:
[0006]S1:将图片送入第一个阶段的分层模块中,利用特征金字塔的结构将图片的分辨率由低到高依次输出不同的特征图,分别作为阶段1,阶段2,阶段3,阶段4的特征图;
[0007]S2:将各层的特征图分别送入到对应阶段中的渐进采样模块中,对判别位置进行定位;
[0008]S3:将采样步长的嵌入馈送到Transformer编码层,预测下一组采样偏移,更新下一组的采样位置;
[0009]S4:重复进行S2和S3,从最后一次迭代中得到最后的输出令牌;
[0010]S5:将不同层的特征图分别通过分类器单元将最终的输出向量转化成概率表示,完成各层的图像分类;
[0011]S6:利用最大值法,结合最后的分类结果,得出最后的图像分类。
[0012]进一步的作为本专利技术的优选技术方案,所述S1中引入的特征金字塔结构可以生成多尺度特征映射,总共分为四个阶段,分别生成不同尺度的特征图;每个阶段视为一层,分层级并行的进行后续操作。
[0013]进一步的作为本专利技术的优选技术方案,特征金字塔的结构由一个Patch Embedding层和具有Li层的Transformer编码层组成;在第一阶段,给定大小为H
×
W
×
3的输入图像,首先将其分为个patch,每个patch的大小为4
×4×
3;然后,将这些平整的小
块馈送到一个线性投影上,得到大小为的嵌入小块;之后,将嵌入的贴片与位置嵌入一起通过L1层的Transformer编码器,并将输出重塑为大小为的特征映射F1。
[0014]进一步的作为本专利技术的优选技术方案,Transformer编码器由空间减少注意力层SRA和前馈层组成;SRA接收一个查询Q、一个键K和一个值V作为输入,并输出一个精细的特征。在注意操作之前减少了K和V的空间尺度,这在很大程度上减少了计算/内存开销。
[0015]进一步的作为本专利技术的优选技术方案,所述S2,S3和S4中的渐进采样模块收敛到感兴趣的区域,减少背景噪音。
[0016]进一步的作为本专利技术的优选技术方案,给定输入图像,首先由特征提取器模块提取其特征映射F,并初始化采样位置P1,以及对应位置的标记T1';在特征映射F中的采样位置P1位置上对初始标记T1'进行采样,并与基于采样位置P1生成的位置编码P1和初始标记T1'相加;将相加后的结果馈送到Transformer编码层中预测当前第二次迭代的标记T1,并将标记T1经全连接层预测偏移矩阵ot,并将矩阵ot与采样位置P1相加得出第二次迭代的采样位置P2。
[0017]进一步的作为本专利技术的优选技术方案,所述S3中的最终输出令牌Tn,为其填充一个分类特征点Tcls,并进一步馈送到由空间减少注意力层SRA和前馈层组成的Transformer编码器中进行细化。
[0018]进一步的作为本专利技术的优选技术方案,所述S6,每个阶段各自预测出一个分类结果,对每个分类结果进行综合计算,出现分类结果次数最多的分类结果视为最终分类结果。
[0019]进一步的作为本专利技术的优选技术方案,所述S1中的特征向量会依次通过每一个阶段的分层模块和Transformer编码模块;所述每一个阶段中的特征向量的尺寸都是不同的,即能够得到多尺度的特征向量。
[0020]进一步的作为本专利技术的优选技术方案,所述S4中,将最后一个阶段中得到的特征向量,做平均池化,得到一个一维的向量;将该一维向量送入分类器中得到分类结果,作为第一阶段特征图预测出来的分类结果;将每个阶段预测出来的结果中重复率最高的分类结果与真实结果对比,优化模型,重复此过程进行模型训练;训练结束后,模型经过分类器即可输出对应输入图片的分类结果。
[0021]本专利技术所述的一种基于渐进采样的层级式图像分类方法,采用以上技术方案与现有技术相比,具有以下技术效果:
[0022](1)本专利技术利用分层模块与空间减少注意SRA层进行多尺度特征映射,共分为4个阶段,本专利技术在每个阶段分别生成不同尺度的特征图,可用来进行密集预测任务,减少计算复杂度/空间开销。
[0023](2)本专利技术利用渐进采样技术进行迭代采样,与其他技术不同的是:Transformer编码层中的多头注意用空间减少注意SRA代替。在收敛到感兴趣的区域,减少背景噪音,保持图片结构的完整性的同时减少计算复杂度。
[0024](3)本专利技术在每一个阶段都会对特征图进行预测,因此最后会得到多个不同尺度上的预测结果,通过对比个预测结果进行最后的预测,提高了预测结果的准确性。
附图说明
[0025]图1为本专利技术的方法步骤流程图;
[0026]图2为本专利技术的金字塔分层结构示意图;
[0027]图3为本专利技术的金字塔分层模块示意图;
[0028]图4为本专利技术的渐进采样模块示意图。
具体实施方式
[0029]下面结合附图详细的描述本专利技术的作进一步的解释说明,以使本领域的技术人员可以更深入地理解本专利技术并能够实施,但下面通过参考实例仅用于解释本专利技术,不作为本专利技术的限定。
[0030]如图1所示,本专利技术提出的一种基于渐进采样的层级式图像分类方法,其网络模型主体由四个不同的阶段组成,每个阶段由分层模块,渐进采样模块,Transformer编码模块和分类模块构成。首先分层模块利用金字塔结构得到多尺度的特征并实现分层级的特点进行处理;其次渐进采样模块将注意力集中到权重较大的地方,减少干扰因素。最后将每个层的特征图进行分类,将各层级分类结果进行汇总得到最后的预测分类结果。每一层的处理流程如图2所示。本专利技术提出了采用金字塔技术生成多尺度的特征图,每一阶段作为一层均进行分类预测,最后通过将各个层的预测结果进行综合,得出最后的图片分类结果,提高了分类预测的准确率。可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于渐进采样的层级式图像分类方法,其特征在于,包括以下步骤:S1:将图片送入第一个阶段的分层模块中,利用特征金字塔的结构将图片的分辨率由低到高依次输出不同的特征图,分别作为阶段1,阶段2,阶段3,阶段4的特征图;S2:将各层的特征图分别送入到对应阶段中的渐进采样模块中,对判别位置进行定位;S3:将采样步长的嵌入馈送到Transformer编码层,预测下一组采样偏移,更新下一组的采样位置;S4:重复进行S2和S3,从最后一次迭代中得到最后的输出令牌;S5:将不同层的特征图分别通过分类器单元将最终的输出向量转化成概率表示,完成各层的图像分类;S6:利用最大值法,结合最后的分类结果,得出最后的图像分类。2.根据权利要求1所述的一种基于渐进采样的层级式图像分类方法,其特征在于,所述S1中引入的特征金字塔结构可以生成多尺度特征映射,总共分为四个阶段,分别生成不同尺度的特征图;每个阶段视为一层,分层级并行的进行后续操作。3.根据权利要求2所述的一种基于渐进采样的层级式图像分类方法,其特征在于,特征金字塔的结构由一个Patch Embedding层和具有Li层的Transformer编码层组成;在第一阶段,给定大小为H
×
W
×
3的输入图像,首先将其分为个patch,每个patch的大小为4
×4×
3;然后,将这些平整的小块馈送到一个线性投影上,得到大小为的嵌入小块;之后,将嵌入的贴片与位置嵌入一起通过L1层的Transfo...

【专利技术属性】
技术研发人员:范文凤王可王楚越程实万杰何金凤
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1