【技术实现步骤摘要】
一种基于空间金字塔注意力网络的人群计数方法
[0001]本申请涉及机器视觉中图像识别
,具体涉及一种基于空间金字塔注意力网络的人群计数方法。
技术介绍
[0002]随着世界人口的增长和人类社会性活动的增加,大规模的人群聚集性现象经常发生,特别是在体育场、商场、学校、会议厅等公共场所,这给公共安全带来了巨大隐患。因此,快速、准确地计算出不同密集场景下的人群数量对于行人流量分析和人群密度估计,具有重要参考价值,可以为有关部门对群体性异常事件预防、公共场所安全示警等提供有力的数据支撑。
[0003]人群分析是图像和视频分析领域的一项热门任务。在人群分析领域,人群计数是一个必不可少的分支,它专注于预测人数或估计人群场景的密度图,具有广泛的应用,如公共安全管理、城市规划和视频监控。此外,它还是人群行为分析、人群聚集检测等高级行为分析算法的关键技术。然而,现实世界的各种情况,例如严重的遮挡、杂乱的背景,以及因拍摄角度不同造成人的大小和形状的剧烈变化,对人群计数的实际解决方案提出了巨大的挑战。目前人群计数的方法主要有三类,包括:基于目标检测的方法、基于特征回归的方法和基于密度估计的方法。
[0004]基于目标检测方法通常采用滑动窗口检测器检测行人或通过检测头部、肩膀等身体的部分结构来进行行人检测并统计人群数量。这些基于目标检测的方法在人群分布较为稀疏的场景中取得了不错的效果,但在密集人群和遮挡严重的复杂场景中检测的准确性会急剧下降。
[0005]基于特征回归的方法一般通过从前景分割出的人群中提取纹理、 ...
【技术保护点】
【技术特征摘要】
1.一种基于空间金字塔注意力网络的人群计数方法,其特征在于,包括以下步骤:S1:获取的人群图像数据集,将获取的人群图像数据集划分为训练集和测试集,并针对获取的人群图像数据集的特点,使用高斯核对人群图像进行预处理,生成地面真实密度图;S2:选取拥挤场景识别算法CSRNet为基础结构,构建空间金字塔注意力网络;S3:将S1获取的人群计数数据集的训练集中不同分辨率的人群图像和对应的人群密度图输入到空间金字塔注意力网络进行训练验证,输出训练样本集对应的估计密度图,再计算与输入网络的地面真实人群密度图之间的损失,更新网络参数,确定迭代次数,得到优化后的空间金字塔注意力网络;S4:将S3训练好的网络权重进行保存,再对S1获取的人群计数数据集中对应的测试样本集进行测试,输出测试样本集对应的人群密度图和预测值,判断网络效果。2.根据权利要求1所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S1中获取的人群图像数据集中包括原始图片和标注文件,通过标注文件,使用高斯核对人群图像进行预处理,生成地面真实密度图;具体方法为:S11:当有一个人头位置在像素点,则将该人头位置进行标注,并记为x
i
,标注有N个人的头部位置的图像J(x)可表示为函数式:其中,δ(x
‑
x
i
)表示增量函数,x表示图像中像素的位置,i表示第i个人头标注点,N表示图像中人头标注点的数量,x
i
表示第i个人头标注点的位置;S12:通过高斯核模糊每个人头标注来生成对应的真实密度图D
gt
,即将增量函数δ(x
‑
x
i
)与标准偏差为σ
i
的高斯核函数进行卷积计算,真实密度图D
gt
的具体计算公式为:的具体计算公式为:其中,表示高斯核函数,β表示常数,表示图像中第i个人头标注点距离其k近邻人头标注点的欧式距离的平均值;针对拥挤程度不同的人群图像数据集,采用标准偏差不同的高斯核函数进行卷积计算;对于稀疏场景的人群计数数据集,使用固定高斯核生成密度图,对于密集场景的人群计数数据集,使用几何自适应高斯核生成密度图。3.根据权利要求2所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述S12中几何自适应高斯核选定标准偏差的方式为:取β=0.3,k=3,计算标准偏差σ
i
的值。4.根据权利要求1所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S2的具体方法如下:S21:搭建拥挤场景识别算法CSRNet的结构,选取预先训练好的VGG
‑
16的前10个卷积层,作为前端特征提取网络,采用空洞率为2的6层空洞卷积层为后端网络,最后采用一层卷积核大小为1
×
1的普通卷积层输出结果;S22:构建空间金字塔网络来应对连续的尺度变化,并将空间金字塔网络添加到步骤
S21搭建的拥挤场景识别算法CSRNet的前端特征提取网络和后端网络之间;S23:构建通道注意力网络来处理通道维度上特征信息的相互依赖关系,并将通道注意力网络添加到步骤S22构建的空间金字塔网络和步骤S21搭建的拥挤场景识别算法CSRNet的后端网络之间。5.根据权利要求4所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S21采用空洞率为2的6层空洞卷积层为后端网络,所述后端网络使用的二维空洞卷积定义为:其中,y(l,m)表示来自输入τ(l,m)和滤波器ρ(e,f)的二维空洞卷积的输出,r表示空洞率,L为空洞的卷积层的长度,M为空洞的卷积层的宽度,e的取值为1~L,表示第e行,f的取值为1~M,表示第f列。6.根据权利要求4所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S3输出估计密度图的具体方法如下:S31:将不同分辨率的人群图像输入到步骤S21搭建的拥挤场景识别算法CSRNet的前端特征提取网络,提取输入的人群图像的浅层特征;S32:将步骤S31提取的浅层特征输入到步骤S22构建的空间金字塔网络中,通过将步骤S31提取的浅层特征分组为大小分别为1、3、5、7的四个并行块,以提取不同尺度的上下文特征,并将提取的上下文...
【专利技术属性】
技术研发人员:熊李艳,易虎,丁韦华,邓慧子,胡竹逸,张雄,
申请(专利权)人:华东交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。