【技术实现步骤摘要】
一种基于空间池化的轻量级ViT弱监督人群计数方法
[0001]本专利技术属于深度学习和计算机视觉
,具体涉及一种基于空间池化的轻量级ViT弱监督人群计数方法。
技术介绍
[0002]人群计数任务旨在帮助监控系统、智能交通和零售客流分析等领域通过图像或视频准确估计场景中的人数。如图1所示,图片来自某个集会现场,图中分布着很多行人,大部分行人受到遮挡,此时如果使用人工的方法去进行计数,不但消耗大量时间,准确率也无法得到保证,那么就需要使用深度学习去处理。另外人群计数部署后处理对象将是视频,这就要求模型不仅有很高的精度,也要有很快的速度。
[0003]伴随着深度学习技术的发展,基于卷积神经网络(Convolutional Neural Networks,CNN)的方法逐渐成为主流。这些方法可以学习更鲁棒的特征表示,使人群计数在光照变化、遮挡和拥挤场景下仍具有较好的性能。但这些基于CNN的方法在捕获复杂的图像特征和上下文信息方面仍存在短板,另外这些基于CNN的方法需要的真实值标注必须是点级注释需要耗费大量的人力物力,在没有点级注释的情况下准确率很难得到提升。
[0004]随着技术的发展,现有的视觉自注意力机制网络(Vision Transformer,ViT)为人群计数方法带来了新的机遇。ViT能够捕获图像中的长距离依赖关系,提高了在复杂场景下估计人群密度的能力,同时也赋予了模型更强的全局感知能力,减少了模型对于点级注释的依赖,节省了大量的人力。在遮挡、视角变化和拥挤场景中,ViT可以更好地处理这些挑战 ...
【技术保护点】
【技术特征摘要】
1.一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,包括以下步骤:步骤1:获取训练图像数据集并进行预处理,将数据集中的所有训练图像分割成不重叠的图像区域,并且将分割后的区域作为伪彩色处理的输入;步骤2:对步骤1中分割后的图像区域进行伪彩色处理后,使用位置编码对图像区域进行平铺处理;步骤3:从平铺后的数据中选取N张人群图像以及位置编码一起输入到ViT架构改进的PoolFormer网络,利用PoolFormer网络提取输入图像的特征;步骤4:将提取的特征输入深度回归器中,预测人群数量,得到LCTrans
‑
CC模型;步骤5:设定迭代次数M及最终轮次,使用L1损失来衡量预测值与真实值之间的差距,清空优化器的梯度缓存,进行反向传播并更新LCTrans
‑
CC模型参数;步骤6:检查训练图像数据集中所有图像是否都已经全部通过LCTrans
‑
CC模型,若没有则返回步骤3,否则进入步骤7;步骤7:若当前轮次大于M且小于最终轮次,且为一定倍数时进入测试流程,若等于最终轮次,输出最优权重文件,得到训练完成的LCTrans
‑
CC模型,否则返回步骤3;步骤8:利用训练好的LCTrans
‑
CC模型进行人群数量预测。2.根据权利要求1所述的一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,步骤1具体包括:步骤1
‑
1:载入图像数据和人群数据标注GT
iinput
,对图像进行判定是否为横向,若横向则进入步骤1
‑
3,否则进入步骤1
‑
2;步骤1
‑
2:计算出步骤1
‑
1输入的纵向图像的纵向和横向缩放比例,将所述纵向图像的横纵缩放比互换并调整至指定大小,此时图像数据变为同时缩放数据标注为GT
iresize
,输入至步骤1
‑
4;步骤1
‑
3:计算出步骤1
‑
1输入的横向图像的纵向和横向缩放比例,将所述横向图像的横纵缩放比互换并调整至指定大小,此时图像数据变为同时缩放数据标注为GT
iresize
,输入至步骤1
‑
4;步骤1
‑
4:将步骤1
‑
2和步骤1
‑
3的图像路径进行判断,若为训练数据则将及GT
iresize
一起进行切割,均匀切割为P块并对其编码为图像块标注其中j和k分别为图像的横向和纵向的相对位置编码,输出到新的文件夹,否则直接输出到新文件夹,进入步骤1
‑
5;步骤1
‑
5:读取步骤1
‑
4生成新文件夹的地址,制作npy文件,将裁切后的和一一对应。3.根据权利要求2所述的一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,步骤2具体包括:步骤2
‑
1:首先对进行伪彩色处理,对输入图像进行判定其色彩模式,若为灰度图或者黑白,则将图像的色彩通道扩充为3后进入步骤2
‑
2,否则直接进入步骤2
‑
2;步骤2
‑
2:对图像的每个切块进行平铺,进入补丁嵌入,将图像分割成小块并
将它们嵌入到指定维度的向量空间,进入步骤2
‑
3;步骤2
‑
3:将每个块的位置进行编码后叠加到块上,得到转换后的图像块PE
(pos,2i)
和PE
(pos,2i+1)
,分别表示偶数块2i和奇数块2i+1,合并为补丁嵌入结果X。4.根据权利要求3所述的一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,补丁嵌入过程如公式(1)所示:其中pos是块在图中的位置,i是补丁嵌入的位置,d
model
是补丁嵌入的长度,变化后的其中N为图像数量,C为通道数量。5.根据权利要求3所述的一种基于空间池化的轻量级ViT弱监督人群计数方法,其特征在于,步骤3具体包括:步骤3
‑
1:对于步骤2中输入的块和位置编码进行空间池化操作,完成块混合,将X变化为块混合结果Y,进入步骤3
‑
2;步骤3
‑
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。