基于视频图像的人群计数方法技术

技术编号:25757293 阅读:19 留言:0更新日期:2020-09-25 21:06
本发明专利技术提供一种基于视频图像的人群计数方法。本发明专利技术方法输入数据为连续视频帧图像,通过对采集的连续视频帧与给定的背景图像做像素减法分离冗余信息得到预处理后的输入图像;将经过预处理的图像输入基于密度分类的编码‑解码网络模型中,使用主干网络提取多尺度特征,并对其进行特征融合用于密度回归给出权重;同时利用提取的多尺度特征上采样得到对应的密度估计图,最终实现不同尺度特征对应的密度图加权得到最终密度估计图。本发明专利技术提出的方法针对视频图像的人群计数,在一定程度上利用了行人间的相似性,并利用了冗余信息的过滤,不仅可以得到实时的行人计数,并且能够实时地保留背景图片。

【技术实现步骤摘要】
基于视频图像的人群计数方法
本专利技术属于计算机视觉中的人群图像处理领域,具体来说是一种涉及图像中的人群计数以及行人背景分割的方法。
技术介绍
人群计数,是对图像或是视频图像序列中的行人进行数量统计。在现实生活中,有效的行人计数在安全管控、区域规划、行为分析等领域有着重要的意义,比如在防止踩踏、交通线路设计、广告位投放、建筑选址等方面提供一定的数据支撑。目前的行人计数方法主要可以分为三大类:早期的基于检测的方式、基于回归的方式以及如今密度图回归的方式。基于检测的方式是通过一个滑动窗口,并利用边缘等特征进行行人的检测,此类方法受限于行人遮挡,适用于目标较为分散的场合。基于回归的方法在一定程度上提高了遮挡人群中的计数准确度,但是并不能很好地得到行人分布的空间信息。随着计算机视觉领域的不断发展,行人计数开始转向了密度图回归的方法。相较于上述两种方法,利用密度图回归的方式能够在处理遮挡问题的同时给出了行人的分布情况,从而获得具体的空间分布信息。如今,行人计数依旧保留着大量计算机视觉领域所共有的问题。例如,视角变换所带来的透视问题使得人群在不同尺度下的检测变得更加困难。现有的计数方法大多采用了深度学习提取多尺度特征的形式,其优势在于利用多层或是多列卷积提取不同尺度的行人特征,在一定程度上解决了透视问题,但是仍旧有提升的空间。事实上,在针对固定场景的行人计数情况下,常常会出现大量冗余信息。例如周围的环境建筑、停驻的车辆,往往在一定的时间段内都是不发生变化的。在现有的利用深度学习生成密度图的方法中,对干扰数据进行计算会占用一定的资源并导致计算速度变慢。针对这些背景信息的干扰,在处理视频流中可以通过在线背景更新以及背景分割的形式,事先过滤掉冗余信息。综合以上思路,本专利技术提出了一种基于视频图像和在线背景分割的人群计数方法。
技术实现思路
针对现有行人计数领域存在的问题,本专利技术提出一种基于视频图像的人群计数方法。该方法具有以下优点:在训练模型阶段,1)选择成熟的多层小卷积核神经网络(ConvolutionalNeuralNetwork,CNN),例如VGG-16结构,做初步特征提取,在保证对图像具有强大表征能力的同时减少参数,使得模型更为简洁,通用性强;2)利用获得的多尺度特征对图像进行密度估计。在行人间存在相似性,密集程度较大的情况下,以低级特征为主可以更有效地进行统计;在密集程度较小的情况下,行人的高级特征会使得计数更为精准。因此利用密度分类的形式,可以针对不同的遮挡情况进行统计,增加计数的准确度。在应用过程中,利用背景分割法分离环境干扰,保留关键信息,以稀疏矩阵的形式简化了图像参与计算的部分,加快了后续行人计数回归的速度;利用行人检测的空间信息以及背景分割法保留的信息实现背景的不断更新,最终实现完整背景的分离。一种基于视频图像的人群计数方法,步骤如下:步骤一、选取具有标注信息的行人图像数据集,测试集与训练集数量定为6:4,可以根据实际数据集对比例进行修改,然后根据图像自带的人头标注像素点进行高斯函数处理,生成原图像对应的初始真值密度图;步骤二、搭建基于密度分类的编码-解码卷积网络模型。所述的基于密度分类的编码-解码卷积网络模型分为一个骨干网络与两个分支:以VGG-16网络作为骨干网络,使用其全部层数提取对应不同尺度特征。通过密度回归分支对提取的不同尺度特征进行融合输入,通过回归实现密度分类,获得解码分支的权重;解码分支利用各尺度特征,上采样解码还原图像,生成各尺度特征对应的人群密度估计图,利用密度回归分支获得的权重进行加权,得到最终密度估计图。步骤三、通过训练集对步骤二搭建的基于密度分类的编码-解码卷积网络模型进行训练,采用随机梯度下降算法来优化参数,并使用欧几里德距离来计算密度估计图和真值密度图之间的损失。保留效果较优的完整模型,用于实际检测;步骤四、利用背景分离的预处理方法,实现输入图像的缩减,完成稀疏矩阵的生成,再通过步骤三得到的基于密度分类的编码-解码卷积网络模型,实现最终的计数结果。背景分离的方法:通过对采集的连续视频帧与给定的背景图像进行像素减法,采用阈值划分的形式保留所有无关背景的信息的图像内容,实现输入图像内容的缩减,提高卷积效率;并通过编码-解码卷积网络模型生成的最终密度估计图,对含有行人部分进行提取,其余部分以背景形式更新至背景图层,实现背景的实时更新。所述步骤一的具体内容为:利用二维高斯卷积核将数据集中的带有人头位置标注的行人图像转换为真值密度图,用于损失差计算。选择基于几何适应高斯核的密度图,公式表示如下:真值密度图通过delta脉冲函数与一个高斯函数卷积获得,先卷积后求和。xi表示人头在图像中的像素位置;δ(x-xi)表示图像中人头位置的冲激函数;N为图像中的人头总数;为距离xi人头最近m个人头的平均距离;β为定值,用于生成高斯函数的宽度参数。进一步的,β=0.3。通过以上运算将带有人头标注的行人图像转换成真值密度图,并作为卷积神经网络的输出比对进行后续训练。所述步骤三的具体内容为:利用测试集图像作为输入对步骤二搭建的基于密度分类的编码-解码卷积网络模型,进行训练,并保留模型参数。使用欧几里得距离计算最终密度估计图和真值密度图之间的损失。采用随机梯度下降算法优化参数,直到损失值收敛到预计值。采用欧氏距离测量生成的密度图与真实值的距离时,损失函数定义如下:其中,N表示输入编码-解码卷积网络模型的图片数量,Z(Xi;Θ)为第i幅输入图片对应的最终密度估计图,ZGT表示真值密度图。Θ表示网络待学习参数。采用均方误差(MSE)和平均绝对误差(MAE)对编码-解码卷积网络模型进行评估。MSE用来描述编码-解码卷积网络模型的准确度,MSE越小则准确度越高,MAE能反映出预测值的误差情况。其中,Ci表示对图片的预测人数,表示真实人数。测试过程:选择测试集输入到训练好的模型中进行测试,输出最终人群密度图,统计结果。取最佳结果作为模型参数进行封装。所述步骤四的具体内容为:利用背景分离方法,将背景图像从采集的连续视频帧中减去,即输入的初始图像与背景图像做像素减法的方式得到一张差异图。该差异图包含了所有无关背景的信息,所述的所有无关背景的信息包括来往的行人、车辆、光线照射导致的阴影变化。对差异图进行阈值划分滤去光照等细小干扰,得到分离背景的感兴趣区域(ROI,regionofinterest)。保留的ROI图像,即为输入步骤三模型中的有效图像。上述过程中实现了冗余信息的过滤,以稀疏矩阵的形式,提高了编码-解码卷积网络模型的卷积速率。得到ROI图像的最终密度估计图后,通过人工标定的形式(根据实际情况给定)构造行人掩膜模板,利用行人掩膜模板与最终密度估计图进行数字图像处理形态学变化的膨胀操作(密度图中的高亮点与掩膜模板进行卷积,得到一个扩大后的区域,代表这当前区域存在行人)得到行本文档来自技高网
...

【技术保护点】
1.一种基于视频图像的人群计数方法,其特征在于,步骤如下:/n步骤一、选取具有标注信息的行人图像数据集,测试集与训练集数量定为6:4,可以根据实际数据集对比例进行修改,然后根据图像自带的人头标注像素点进行高斯函数处理,生成原图像对应的初始真值密度图;/n步骤二、搭建基于密度分类的编码-解码卷积网络模型;/n所述的基于密度分类的编码-解码卷积网络模型分为一个骨干网络与两个分支:以VGG-16网络作为骨干网络,使用其全部层数提取对应不同尺度特征;通过密度回归分支对提取的不同尺度特征进行融合输入,通过回归实现密度分类,获得解码分支的权重;解码分支利用各尺度特征,上采样解码还原图像,生成各尺度特征对应的人群密度估计图,利用密度回归分支获得的权重进行加权,得到最终密度估计图;/n步骤三、通过训练集对步骤二搭建的基于密度分类的编码-解码卷积网络模型进行训练,采用随机梯度下降算法来优化参数,并使用欧几里德距离来计算密度估计图和真值密度图之间的损失;保留效果较优的完整模型,用于实际检测;/n步骤四、利用背景分离的预处理方法,实现输入图像的缩减,完成稀疏矩阵的生成,再通过步骤三得到的基于密度分类的编码-解码卷积网络模型,实现最终的计数结果;/n背景分离的方法:通过对采集的连续视频帧与给定的背景图像进行像素减法,采用阈值划分的形式保留所有无关背景的信息的图像内容,实现输入图像内容的缩减,提高卷积效率;并通过编码-解码卷积网络模型生成的最终密度估计图,对含有行人部分进行提取,其余部分以背景形式更新至背景图层,实现背景的实时更新。/n...

【技术特征摘要】
1.一种基于视频图像的人群计数方法,其特征在于,步骤如下:
步骤一、选取具有标注信息的行人图像数据集,测试集与训练集数量定为6:4,可以根据实际数据集对比例进行修改,然后根据图像自带的人头标注像素点进行高斯函数处理,生成原图像对应的初始真值密度图;
步骤二、搭建基于密度分类的编码-解码卷积网络模型;
所述的基于密度分类的编码-解码卷积网络模型分为一个骨干网络与两个分支:以VGG-16网络作为骨干网络,使用其全部层数提取对应不同尺度特征;通过密度回归分支对提取的不同尺度特征进行融合输入,通过回归实现密度分类,获得解码分支的权重;解码分支利用各尺度特征,上采样解码还原图像,生成各尺度特征对应的人群密度估计图,利用密度回归分支获得的权重进行加权,得到最终密度估计图;
步骤三、通过训练集对步骤二搭建的基于密度分类的编码-解码卷积网络模型进行训练,采用随机梯度下降算法来优化参数,并使用欧几里德距离来计算密度估计图和真值密度图之间的损失;保留效果较优的完整模型,用于实际检测;
步骤四、利用背景分离的预处理方法,实现输入图像的缩减,完成稀疏矩阵的生成,再通过步骤三得到的基于密度分类的编码-解码卷积网络模型,实现最终的计数结果;
背景分离的方法:通过对采集的连续视频帧与给定的背景图像进行像素减法,采用阈值划分的形式保留所有无关背景的信息的图像内容,实现输入图像内容的缩减,提高卷积效率;并通过编码-解码卷积网络模型生成的最终密度估计图,对含有行人部分进行提取,其余部分以背景形式更新至背景图层,实现背景的实时更新。


2.根据权利要求1所述的所述一种基于视频图像的人群计数方法,其特征在于,步骤一的具体内容为:
利用二维高斯卷积核将数据集中的带有人头位置标注的行人图像转换为真值密度图,用于损失差计算;选择基于几何适应高斯核的密度图,公式表示如下:



真值密度图通过delta脉冲函数与一个高斯函数卷积获得,先卷积后求和;xi表示人头在图像中的像素位置;δ(x-xi)表示图像中人头位置的冲激函数;N为图像中的人头总数;为距离xi人头最近m个人头的平均距离;β为定值,用于生成高斯函数的宽度参数;
通过以上运算将带有人头标注的行人图像转换成真值密度图,并作为卷积神经网络的输出比对进行后续训练。


3.根据权利要求2所述的所述一种基于视频图像的人群计数方法,其特征在于,所述步骤三的具体内容为:
利...

【专利技术属性】
技术研发人员:韩铠宇翁立王建中
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1