一种基于多尺度卷积神经网络的人群密度估计方法技术

技术编号:21630833 阅读:29 留言:0更新日期:2019-07-17 11:41
本发明专利技术公开了一种基于多尺度卷积神经网络的人群密度估计方法,在视频监控领域,为了可以提升人群密度估计的准确性,本方法提出了一种基于多尺度卷积神经网络的网络结构,可以在场景中准确地预测人群密度图。本方法通过利用空洞卷积与原始卷积进行不同感受野信息的特征融合,以及融合不同分辨率下特征图不同的层级语义信息,从而生成具有更高质量的人群密度图。实验在当前较为流行的ShanghaiTech数据集、UCF_CC_50数据集以及WorldExpo‘10数据集上进行测试,使用平均绝对误差(MAE)和均方误差(MSE)作为评价标准。结果表明,该网络模型与以往的方法进行对比,降低了MAE值和MSE值,提高了人群密度估计的准确性。

A Crowd Density Estimation Method Based on Multiscale Convolutional Neural Network

【技术实现步骤摘要】
一种基于多尺度卷积神经网络的人群密度估计方法
本专利技术涉及一种基于多尺度卷积神经网络的人群密度估计方法,属于计算机视觉

技术介绍
随着人类生活质量的提高,节日庆典、演唱会和体育赛事等大规模群体性活动日益频繁,近年来,由于人群密集所引发的群体性突发事件成为了社会的焦点。人群密度估计,作为一种人群控制和管理的重要方式,是当今智能监控领域的一个重要研究课题,它不仅能对当前场景下的人群进行统计从而帮助工作人员进行有效地管理,同时还可以通过预测人群的某些异常行为,对突发事件的发生进行预案,加强公众场所的安全。传统的研究方法主要可以分为两种,一种是基于检测的方法,另一种是基于回归的方法。检测法的核心思想是通过检测对应场景下的每个个体,对个体人数进行统计,具体方法有:采用梯度方向直方图HOG(HistogramsOfOrientedGradients)特征进行检测、提取人群的外观特征和运动特征进行检测。这类方法适用于低密度人群图像。基于回归的方法又被称作基于映射的方法,核心思想是将人群看成一个整体,通过回归模型求出人群特征与人数之间的函数或者利用分类器将人群特征映射到对应的人群密度等级从而判定人群密度。但该类方法更多的适用于存在遮挡、环境干扰的高密度人群,但如何使用人群特征以及建立回归模型,是此方法的难点。综上所述,传统研究方法在人群密度估计领域还存在着不稳定性。近年来,以卷积神经网络CNN(ConvolutionalNeuralNetwork)为主的深度学习方法迅速成为了计算机视觉领域的热门研究重点,目前已被广泛应用到目标检测与识别、图像分割等领域。由于深度学习在图像处理方面的显著成效,很多学者把深度学习的方法引入到人群密度分析领域,提出了一些基于卷积神经网络的人群密度估计算法。现有技术中提出了利用人群密度图来进行人群密度估计问题,人群密度图包含更多的信息,既可以获取人群数量,同时可以得到图像中人群的空间分布,这对于进行人群密度的应用奠定了更好的基础。还有一些文献提出了基于多任务卷积神经网络的人群密度估计算法,该方法中的网络框架包含了人群密度图估计和人数统计两个任务,这种通过可切换的学习方法能够将为这两个任务所得到的结果准确性提高。一些文献提出了基于多列卷积神经网络的人群密度估计算法(MCNN),该方法使用了尺寸自适应的高斯核函数从有人头标记的图像中得到人群密度图。MCNN网络的每一列并行的子网络深度相同,但是每列网络的卷积核大小各不相同,因此每一列子网络的感受野不同,能够抓取不同大小人头的特征,最后将三列子网络的特征图做线性加权得到该图像的人群密度图,类似模型融合的思想,这些多尺度的特征可以很大程度的提升人群密度估计和人群计数的准确率。在MCNN的基础之上,将输入图像分为了9个图像块,使用一个以CNN网络为基础的选择器对每个图像块进行分类并将分类出的图像块送入不同尺度的分支网络,这里所用到的分支网络结构与MCNN网络的每一路网络结构相同。在MCNN的基础上进行改进,提出了一种深层次的单列全卷积网络结构,输入图像尺寸可以是任意的,而输出的密度图根据输入尺寸自适应变化。综上所述,基于卷积神经网络的方法拥有非常强的非线性表征能力,可以通过自主学习适应场景的干扰、遮挡等问题。但是上述方法还存在很多不足,主要体现在以下几个方面:多列卷积神经网络由于结构较宽,在训练方面需要浪费更多的时间;在人群密度估计过程中需要用到密度分类器,在使用分类器的过程中,会有很大的计算量,并且在网络中很大一部分的参数用于密度分类器,而用于密度图估计的参数只占一小部分,因此会产生额外的工作量。
技术实现思路
考虑到上述
技术介绍
中提及的问题,本专利技术提出一种基于多尺度卷积神经网络的人群密度估计方法,通过对不同感受野下的特征及不同分辨率下的不同层级特征进行融合,进行人群密度估计。为实现上述目的,本专利技术采用的技术方案为:一种基于多尺度卷积神经网络的人群密度估计方法,该方法的实现过程如下:S1.1人群密度图的生成由于网络模型需要经过训练才能从输入图像中估计出人群密度图,因此训练数据中给出的密度图的质量很大程度上决定了该方法的性能。这里,首先介绍如何将带有人头标注的图像转换为人群密度图。如果在像素xi处存在标注,将xi处标记的人头用狄拉克(delta)函数表示为δ(x-xi),因此具有N个头部标注的图像可以表示为:为了使具有标注的图像可以转换为连续的密度图,将H(x)与高斯核函数进行卷积,得到结果即为最终的密度图:ρ(x)=H(x)*Gσ(x).但是,用此方法所生成密度图的前提是整张图像中的每个点在空间中独立存在的,而高密度人群图像存在着很多遮挡的问题,因此需要做一些改进。事实上,每个xi是在3D场景中一个独立的人群密度样本,并且由于透视失真,不同样本所对应的场景的位置的大小也是不同的。因此为了可以更加精确的得到人群密度ρ,需要考虑地平面与图像面之间引起的单应性失真问题。假设在标注的头部区域的周围,人群密度分布是均匀的,则该点与其最近的k个邻点之间的平均距离,给出了一个对于几何形变的合理估计。因此,通过图像中每个人头部大小,确认高斯核函数中的传播参数σ。然而,由于图像中头部的遮挡问题,很难精确的得到头部的大小,也很难找到头部大小与密度图之间的潜在联系。发现,在拥挤的人群图像中,头部大小与两个相邻的头部之间的距离有一定的关系,所以,根据最近的相邻的平均距离自适应地确定每一个人头的参数。对于给定的标注位置xi,将所有与其的k个最近邻的距离表示集合Di={d1i,d2i,...,dki}。平均距离与xi相关联的像素位置对应于场景中地面上的一个区域,这个区域的半径与di成正比。因此,为了估计出xi周围的人群密度,需要把H(x)卷积一个自适应的高斯核函数,这个高斯核的方差σi是可变的且与di成正比,假设设定比例系数为β,则这个人群密度图表示为:针对比例系数β,将带有密度核的标签H与每个标记点周围的局部几何相适应,称为几何自适应核。经过大量实验后,β=0.3是是目前所得到的最优解。通过上述处理后,便可以得到一个相对准确能够反映出人群空间信息的人群密度图,以此为标注从而完成整个网络的监督训练,使得最终生成的网络模型具备感知图像空间几何分布的能力。效果图1所示,图1的a为原始输入图像,图1的b为对应的人群密度图。S1.2网络结构与设计网络结构是人群密度估计的核心关键,为了可以更好的将浅层特征与深层特征融合,本方法设计了如图2所示网络结构。网络配置详细参数如表1所示。输入图像为3通道的RGB人群图像,首先通过4个卷积层和2个下采样层生成通道数为64、大小为原图1/4的特征图。对此时得到的特征图经过两种处理:一、经过2个卷积核为3X3的卷积层,将其结果保留并进行下采样;二、经过2个卷积核为3X3,扩张率为2的空洞卷积,将其结果保留连接至网络末端。将此操作重复两次至步骤此时,得到通道数为512,大小为原图1/32的特征图,对其进行上采样(反卷积)和卷积,将得到的特征图、上一阶段通过卷积生成的特征图及通过空洞卷积生成的特征图,进行特征融合,生成通道数为512,尺寸大小为1/16的特征图,以此类推,将每一层经过上采样层生成的特征图与上一阶段的两种特征图进行融合,重复本文档来自技高网
...

【技术保护点】
1.一种基于多尺度卷积神经网络的人群密度估计方法,其特征在于:该方法的实现过程如下,S1.1人群密度图的生成由于网络模型需要经过训练才能从输入图像中估计出人群密度图,因此训练数据中给出的密度图的质量很大程度上决定了该方法的性能;这里,首先介绍如何将带有人头标注的图像转换为人群密度图;如果在像素xi处存在标注,将xi处标记的人头用狄拉克函数表示为δ(x‑xi),因此具有N个头部标注的图像可以表示为:

【技术特征摘要】
1.一种基于多尺度卷积神经网络的人群密度估计方法,其特征在于:该方法的实现过程如下,S1.1人群密度图的生成由于网络模型需要经过训练才能从输入图像中估计出人群密度图,因此训练数据中给出的密度图的质量很大程度上决定了该方法的性能;这里,首先介绍如何将带有人头标注的图像转换为人群密度图;如果在像素xi处存在标注,将xi处标记的人头用狄拉克函数表示为δ(x-xi),因此具有N个头部标注的图像可以表示为:为了使具有标注的图像可以转换为连续的密度图,将H(x)与高斯核函数进行卷积,得到结果即为最终的密度图:ρ(x)=H(x)*Gσ(x).假设在标注的头部区域的周围,人群密度分布是均匀的,则该点与其最近的k个邻点之间的平均距离,给出了一个对于几何形变的合理估计;通过图像中每个人头部大小,确认高斯核函数中的传播参数σ;在拥挤的人群图像中,头部大小与两个相邻的头部之间的距离有一定的关系,所以,根据最近的相邻的平均距离自适应地确定每一个人头的参数;对于给定的标注位置xi,将所有与其的k个最近邻的距离表示集合Di={d1i,d2i,...,dki};平均距离与xi相关联的像素位置对应于场景中地面上的一个区域,这个区域的半径与di成正比;因此,为了估计出xi周围的人群密度,需要把H(x)卷积一个自适应的高斯核函数,这个高斯核的方差σi是可变的且与di成正比,假设设定比例系数为β,则这个人群密度图表示为:针对比例系数β,将带有密度核的标签H与每个标记点周围的局部几何相适应,称为几何自适应核;经过大量实验后,β=0.3是是目前所得到的最优解;得到一个相对准确能够反映出人群空间信息的人群密度图,以此为标注从而完成整个网络的监督训练,使得最终生成的网络模型具备感知图像空间几何分布的能力;S1.2网络结构与设计网络结构是人群密度估计的核心关键,为了更好的将浅层特征与深层特征融合;输入图像为3通道的RGB人群图像,首先通过4个卷积层和2个下采样层生成通道数为64、大小为原图1/4的特征图;对此时得到的特征图经过两种处理:一、经过2个卷积核为3X3的卷积层,将其结果保留并进行下采样;二、经过2个卷积核为3×3,扩张率为2的空洞卷积,将其结果保留连接至网络末端;将此操作重复两次,此时,得到通道数为512,大小为原图1/32的特征图,对其进行上采样和卷积,将得到的特征图、上一阶段通过卷积生成的特征图及通过空...

【专利技术属性】
技术研发人员:王素玉付宇豪杨滨于晨姬庆庆
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1