当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于空间池化的轻量级ViT弱监督人群计数方法技术

技术编号:38708528 阅读:10 留言:0更新日期:2023-09-08 14:49
本发明专利技术公开了一种基于空间池化的轻量级ViT弱监督人群计数方法,属于深度学习和计算机视觉技术领域,具体包括以下步骤:首先,对输入的人群图像进行预处理和伪彩色处理,增强图像的对比度和细节信息;然后,使用PoolFormer作为主干网络,提取图像的特征表示,PoolFormer利用全局池化替代自注意力机制,有效降低了模型参数和计算复杂度;最后,使用深度回归器对特征进行人群数量的回归,深度回归器增强了模型的非线性表达能力。本发明专利技术相比现有的基于ViT的弱监督人群计数方法,在保证高准确率的同时,提升了计算效率和模型大小,并且具有更好的泛化能力。且具有更好的泛化能力。且具有更好的泛化能力。

【技术实现步骤摘要】
一种基于空间池化的轻量级ViT弱监督人群计数方法


[0001]本专利技术属于深度学习和计算机视觉
,具体涉及一种基于空间池化的轻量级ViT弱监督人群计数方法。

技术介绍

[0002]人群计数任务旨在帮助监控系统、智能交通和零售客流分析等领域通过图像或视频准确估计场景中的人数。如图1所示,图片来自某个集会现场,图中分布着很多行人,大部分行人受到遮挡,此时如果使用人工的方法去进行计数,不但消耗大量时间,准确率也无法得到保证,那么就需要使用深度学习去处理。另外人群计数部署后处理对象将是视频,这就要求模型不仅有很高的精度,也要有很快的速度。
[0003]伴随着深度学习技术的发展,基于卷积神经网络(Convolutional Neural Networks,CNN)的方法逐渐成为主流。这些方法可以学习更鲁棒的特征表示,使人群计数在光照变化、遮挡和拥挤场景下仍具有较好的性能。但这些基于CNN的方法在捕获复杂的图像特征和上下文信息方面仍存在短板,另外这些基于CNN的方法需要的真实值标注必须是点级注释需要耗费大量的人力物力,在没有点级注释的情况下准确率很难得到提升。
[0004]随着技术的发展,现有的视觉自注意力机制网络(Vision Transformer,ViT)为人群计数方法带来了新的机遇。ViT能够捕获图像中的长距离依赖关系,提高了在复杂场景下估计人群密度的能力,同时也赋予了模型更强的全局感知能力,减少了模型对于点级注释的依赖,节省了大量的人力。在遮挡、视角变化和拥挤场景中,ViT可以更好地处理这些挑战,提高人群计数的准确性。ViT的发展为人群计数任务创造了有利条件,基于ViT的人群计数方法《TransCrowd:weakly

supervised crowd counting with transformers》应运而生,使用了ViT作为主干网络,在回归时采用了一个浅层回归器,其具体的网络图如图2所示,训练流程如图3所示。此外《CCST:Crowd Counting with Swin Transformer》使用Swin Transformer作为主干网络,提出了一个多层特征融合的计数方法,在这些方法中,ViT可以更好地处理复杂场景,如复杂的光照变化、严重遮挡以及拥挤环境。然而,尽管ViT在这些任务上取得了显著的性能提升,但由于其采用了多头自注意力机制,多头自注意力机制允许模型在不同的表示子空间中学习不同的注意力权重,导致参数数量和计算复杂度相对较高,这限制了其在资源受限设备上的应用,使得模型在一些算力较低的设备上部署成了一个挑战。
[0005]近期,ViT在计算机视觉任务中取得了卓越的成绩,但有一些研究表明,ViT的自注意力模块可以被空间多层感知机(Multilayer Perceptron,MLP)替换,而替换后的模型性能仍然保持较高水平。同时Yu等人《MetaFormer Is Actually What You Need for Vision》通过使用池化操作代替自注意力网络,在不少任务上都取得了很好的成绩,而且保持了极低的资源占用,甚至在乘累加操作(Multiply

Accumulate Operations,MACs)指标上与ResNet追平。对于人群计数这项技术,首先需要考虑部署的问题,如果模型参数过多,会导致设备在计算和存储方面要求过高;其次在实际应用场景中,人群聚集是一个突发性
事件,需要模型在拥有很高精度的同时也能具有很快的反应速度,如果模型的训练以及推理速度过慢会导致无法及时处理。

技术实现思路

[0006]专利技术目的:针对现有的基于ViT的弱监督人群计数方法由于模型过于庞大以及参数量过多,在性能较弱的设备上无法部署,存在着很严重的应用局限,本专利技术提出一种基于空间池化的轻量级ViT弱监督人群计数方法(Low Cost Transformer based Crowd Counting,LCTrans

CC),保持高准确率的同时,提高计算效率、降低模型大小并增强模型的泛化能力。
[0007]技术方案:为实现本专利技术的目的,本专利技术所采用的技术方案是:一种基于空间池化的轻量级ViT弱监督人群计数方法,包括以下步骤:
[0008]步骤1:获取训练图像数据集并进行预处理,将数据集中的所有训练图像分割成不重叠的图像区域,并且将分割后的区域作为伪彩色处理的输入;
[0009]步骤2:对步骤1中分割后的图像区域进行伪彩色处理后,使用位置编码对图像区域进行平铺处理;
[0010]步骤3:从平铺后的数据中选取N张人群图像以及位置编码一起输入到ViT架构改进的PoolFormer网络,利用PoolFormer网络提取输入图像的特征;
[0011]步骤4:将提取的特征输入深度回归器中,预测人群数量,得到LCTrans

CC模型;
[0012]步骤5:设定迭代次数M及最终轮次,使用L1损失来衡量预测值与真实值之间的差距,清空优化器的梯度缓存,进行反向传播并更新LCTrans

CC模型参数;
[0013]步骤6:检查训练图像数据集中所有图像是否都已经全部通过LCTrans

CC模型,若没有则返回步骤3,否则进入步骤7;
[0014]步骤7:若当前轮次大于M且小于最终轮次,且为一定倍数时进入测试流程,若等于最终轮次,输出最优权重文件,得到训练完成的LCTrans

CC模型,否则返回步骤3;
[0015]步骤8:利用训练好的LCTrans

CC模型进行人群数量预测。
[0016]作为优选,步骤1具体包括:
[0017]步骤1

1:载入图像数据I
iinput
和人群数据标注GT
iinput
,对图像进行判定是否为横向,若横向则进入步骤1

3,否则进入步骤1

2;
[0018]步骤1

2:计算出步骤1

1输入的纵向图像的纵向和横向缩放比例,将所述纵向图像的横纵缩放比互换并调整至指定大小,此时图像数据变为I
iresize
,同时缩放数据标注为GT
iresize
,输入至步骤1

4;
[0019]步骤1

3:计算出步骤1

1输入的横向图像的纵向和横向缩放比例,将所述横向图像的横纵缩放比互换并调整至指定大小,此时图像数据变为I
iresize
,同时缩放数据标注为GT
iresize
,输入至步骤1

4;
[0020]步骤1

4:将步骤1

2和步骤1

3的图像路径进行判断,若为训练数据则将I
iresize
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,包括以下步骤:步骤1:获取训练图像数据集并进行预处理,将数据集中的所有训练图像分割成不重叠的图像区域,并且将分割后的区域作为伪彩色处理的输入;步骤2:对步骤1中分割后的图像区域进行伪彩色处理后,使用位置编码对图像区域进行平铺处理;步骤3:从平铺后的数据中选取N张人群图像以及位置编码一起输入到ViT架构改进的PoolFormer网络,利用PoolFormer网络提取输入图像的特征;步骤4:将提取的特征输入深度回归器中,预测人群数量,得到LCTrans

CC模型;步骤5:设定迭代次数M及最终轮次,使用L1损失来衡量预测值与真实值之间的差距,清空优化器的梯度缓存,进行反向传播并更新LCTrans

CC模型参数;步骤6:检查训练图像数据集中所有图像是否都已经全部通过LCTrans

CC模型,若没有则返回步骤3,否则进入步骤7;步骤7:若当前轮次大于M且小于最终轮次,且为一定倍数时进入测试流程,若等于最终轮次,输出最优权重文件,得到训练完成的LCTrans

CC模型,否则返回步骤3;步骤8:利用训练好的LCTrans

CC模型进行人群数量预测。2.根据权利要求1所述的一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,步骤1具体包括:步骤1

1:载入图像数据和人群数据标注GT
iinput
,对图像进行判定是否为横向,若横向则进入步骤1

3,否则进入步骤1

2;步骤1

2:计算出步骤1

1输入的纵向图像的纵向和横向缩放比例,将所述纵向图像的横纵缩放比互换并调整至指定大小,此时图像数据变为同时缩放数据标注为GT
iresize
,输入至步骤1

4;步骤1

3:计算出步骤1

1输入的横向图像的纵向和横向缩放比例,将所述横向图像的横纵缩放比互换并调整至指定大小,此时图像数据变为同时缩放数据标注为GT
iresize
,输入至步骤1

4;步骤1

4:将步骤1

2和步骤1

3的图像路径进行判断,若为训练数据则将及GT
iresize
一起进行切割,均匀切割为P块并对其编码为图像块标注其中j和k分别为图像的横向和纵向的相对位置编码,输出到新的文件夹,否则直接输出到新文件夹,进入步骤1

5;步骤1

5:读取步骤1

4生成新文件夹的地址,制作npy文件,将裁切后的和一一对应。3.根据权利要求2所述的一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,步骤2具体包括:步骤2

1:首先对进行伪彩色处理,对输入图像进行判定其色彩模式,若为灰度图或者黑白,则将图像的色彩通道扩充为3后进入步骤2

2,否则直接进入步骤2

2;步骤2

2:对图像的每个切块进行平铺,进入补丁嵌入,将图像分割成小块并
将它们嵌入到指定维度的向量空间,进入步骤2

3;步骤2

3:将每个块的位置进行编码后叠加到块上,得到转换后的图像块PE
(pos,2i)
和PE
(pos,2i+1)
,分别表示偶数块2i和奇数块2i+1,合并为补丁嵌入结果X。4.根据权利要求3所述的一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,补丁嵌入过程如公式(1)所示:其中pos是块在图中的位置,i是补丁嵌入的位置,d
model
是补丁嵌入的长度,变化后的其中N为图像数量,C为通道数量。5.根据权利要求3所述的一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,步骤3具体包括:步骤3

1:对于步骤2中输入的块和位置编码进行空间池化操作,完成块混合,将X变化为块混合结果Y,进入步骤3

2;步骤3

【专利技术属性】
技术研发人员:杨杨王进赵颖钏
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1