适于大景深的人群特征识别网络构建及训练方法技术

技术编号:28037630 阅读:28 留言:0更新日期:2021-04-09 23:20
一种适于大景深的人群特征识别网络构建及训练方法,网络包括:前端网络采用剔除了全连接层的VGG‑16网络,并且采用3×3的卷积核;前端的VGG‑16网络中,进行了三次最大池化,用以降低特征图的分辨率;后端网络为三层分支网络,它们分别采用空洞率为2和3的空洞卷积。网络的训练步骤包括:1)生成密度图,2)损失函数,3)评估标准。本方案中,加入先验信息的loss:在网络训练时,使用L2距离作为损失函数,传统L2距离作为损失函数存在高估低密度区人群、低估高密度去人群的问题,使用分块计算损失函数的方法,大大减小了这个问题带来的误差,有效的提升了计数准确率。

【技术实现步骤摘要】
适于大景深的人群特征识别网络构建及训练方法
本专利技术涉及计算机视觉中的人群计数领域,具体是一种基于卷积神经网络、针对大景深人群特征的模型构建及训练方法。
技术介绍
人群计数的主要任务是从图像中识别人群特征,准确的计算出图像中的人群数量。早期的人群计数分为基于检测和基于回归的方法。在基于检测的方法中,使用一个滑动窗口检测器来检测场景中人群,并统计相应的人数。基于检测的方法主要分为两大类,一种是基于整体的检测,另一种是基于部分身体的检测。基于整体的检测方法,例如,典型的传统方法,主要训练一个分类器,利用从行人全身提取的小波,HOG,边缘等特征去检测行人。学习算法主要有SVM,boosting和随机森林等方法。基于整体的检测方法主要适用于稀疏的人群计数,但是随着人群密度的提升,人与人之间的遮挡变得越来越严重。所以基于部分身体检测的方法,被用来处理人群计数问题,它主要通过检测身体的部分结构,例如头,肩膀等去统计人群的数量。这种方法比之基于整体的检测,在效果上有略微的提升。基于回归的方法,主要思想是通过学习一种特征到人群数量的映射,这类方法步骤主要分为两步,第一步提取低级的特征,例如前景特征,边缘特征,纹理和梯度特征;第二步是学习一个回归模型,例如线性回归,分段线性回归,岭回归和高斯过程回归等方法学习一个低级特征到人群数的映射关系。随着深度学习DL被广泛应用于各个研究领域(计算机视觉,自然语言处理等)。DL凭借其出色的特征学习能力,同样被研究人员用于人群计数的研究中。这类方法通过设计深度神经网络,多次提取图像中的人群特征,融合特征图生成人群密度图,最后求和得到图像中的人数,实现人群计数的目的。
技术实现思路
本专利技术解决的技术问题是一种基于卷积神经网络、针对大景深人群特征识别网络模型构建及训练方法,解决在密闭空间场景内进行人群计数时候,景深过大导致的人群尺度变化太大,常规网络无法适应及识别各种尺度的人群特征,故而影响计数的准确度的问题。具体是一种适于大景深的人群特征识别网络构建及训练方法,所述人群特征识别网络包括:网络前端:前端网络采用剔除了全连接层的VGG-16网络,并且采用3×3的卷积核;上采样层:前端的VGG-16网络中,进行了三次最大池化,用以降低特征图的分辨率;网络后端:后端网络为三层分支网络,它们分别采用空洞率为2和3的空洞卷积,空洞卷积的定义如下:其中:x(m,n)是长宽分别为m和n的输入图像信息,经过卷积核w(i,j)得到空洞卷积的输出y(m,n);参数r表示空洞率;如果r=1,则空洞卷积是普通卷积;所述人群特征网络的训练步骤包括:1)生成密度图生成密度图的方法采用脉冲函数卷积高斯核的方式来定义密度图,假设标注点的位置为xi,那么具有N个头的标签表示为:这里把它与高斯函数做卷积变成一个连续的函数;使用几何适应高斯核的密度图,由下式表示:对于每一个人头的标注点的位置xi,给出了k个近邻距离的平均值di,于是,与xi相关的像素对应于场景中地面上的一个区域,这个区域的半径与di成正比;为了估计像素xi周围的人群密度,把H(x)卷积一个自适应的高斯核,这个高斯核的方差σi是可变的并且和di成比例;2)损失函数在训练期间,随机梯度下降的学习率固定为1e-6;采用欧氏距离测量生成的密度图与真实值的距离;损失函数定义如下:N表示batchsize,Xi表示图片,Z表示生成的密度图,ZiGT表示密度图groundtruth;3)评估标准采用的均方误差MSE和平均绝对误差MAE;MSE用来描述模型的准确度,MSE越小则准确度越高,MAE能反映出预测值的误差情况;N表示一次测试序列中图片的数量,Ci表示对图片Xi的预测人数,CiGT表示真实人数;Zl,w表示在长为L宽为W的密度图中(l,w)处的像素值。所述网络前端的VGG-16网络采用10层卷积层和3层池化层的组合。本方案中,加入先验信息的loss:在网络训练时,使用L2距离作为损失函数,传统L2距离作为损失函数存在高估低密度区人群、低估高密度去人群的问题,使用分块计算损失函数的方法,大大减小了这个问题带来的误差,有效的提升了计数准确率。附图说明图1是空洞卷积示意图;图2是网络结构及训练流程示意图。具体实施方式下面结合附图对本技术方案进行说明:参考图2,一种基于多尺度感知深度神经网络的人群计数模型,包括:1.网络前端:采用剔除了全连接层的VGG-16网络,并且采用3×3的卷积核。研究表明,对于相同大小的感知域,卷积核越小,卷积层数越多的模型要优于那些有着更大卷积核且卷积层数较少的模型。为了平衡准确性和资源开销,这里的VGG-16网络采用10层卷积层和3层池化层的组合。2.上采样层前端采用VGG-16网络中,进行了三次最大池化,使得得到特征图的分辨率降低,这里采用上采样的方法恢复特征图分辨率。3.网络后端后端网络为三层分支网络,分别采用空洞率为2和3的空洞卷积,空洞卷积的定义如下:x(m,n)是长宽分别为M和N的输入图像信息,经过卷积核w(i,j)得到空洞卷积的输出y(m,n),其中参数r表示空洞率。如果r=1则空洞卷积就是普通卷积。实验证明,空洞卷积利用稀疏的卷积核,实现交替卷积和池化操作,在没有增加网络参数和计算规模的前提下增大了感知域,更适合人群密度估计任务。而普通的卷积操作需要增加卷积层数才能获得更大的感知域,而且也增加了更多的数据操作。空洞率为r的空洞卷积操作,KxK的卷积核会被扩大为K+(K-1)(r-1)。图1中卷积核大小为3×3的感知域分别被扩大为5×5和7×7。4.训练方法4.1)生成密度图生成密度图的方法参考的MCNN(CVPR2016)中的方法。采用脉冲函数卷积高斯核的方式来定义密度图。假设标注点的位置为xi,那么具有N个头的标签可以被表示为这里把它与高斯函数做卷积变成一个连续的函数。但是这种密度函数假设每个xi在图像空间中是独立的。然而事实上,每个xi是在3D场景中一个人群密度的样本,并且由于透视失真,不同样本xi相关的像素与场景中区域的不同尺度一致。于是为了精确估计群体密度,需要考虑透视变换。如果假设在一个人头区域的周围,人群的密度是均匀的,它的最近邻给出了一个对于几何形变的合理的估计。为了使得密度图能够更好地与不同视角(不同人头大小)且人群很密的图像对应起来,使用几何适应高斯核的密度图,由下式表示:对于每一个人头的xi点,给出了k个近邻距离的的平均值di,于是,与xi相关的像素对应于场景中地面上的一个区域,这个区域的半径与di成正比。于是,为了估计像素xi周围的人群密度,为我们需要把H(x)卷积一个自适应的高斯核的,这个高斯核的的方差σi是可变的本文档来自技高网
...

【技术保护点】
1.一种适于大景深的人群特征识别网络构建及训练方法,其特征是/n所述人群特征识别网络包括:/n网络前端:前端网络采用剔除了全连接层的VGG-16网络,并且采用3×3的卷积核;/n上采样层:前端的VGG-16网络中,进行了三次最大池化,用以降低特征图的分辨率;/n网络后端:后端网络为三层分支网络,它们分别采用空洞率为2和3的空洞卷积,空洞卷积的定义如下:/n

【技术特征摘要】
1.一种适于大景深的人群特征识别网络构建及训练方法,其特征是
所述人群特征识别网络包括:
网络前端:前端网络采用剔除了全连接层的VGG-16网络,并且采用3×3的卷积核;
上采样层:前端的VGG-16网络中,进行了三次最大池化,用以降低特征图的分辨率;
网络后端:后端网络为三层分支网络,它们分别采用空洞率为2和3的空洞卷积,空洞卷积的定义如下:



其中:x(m,n)是长宽分别为M和N的输入图像信息,经过卷积核w(i,j)得到空洞卷积的输出y(m,n);参数r表示空洞率;如果r=1,则空洞卷积是普通卷积;
所述人群特征网络的训练步骤包括:
1)生成密度图:
采用脉冲函数卷积高斯核的方式来定义密度图;
假设标注点的位置为xi,则具有N个头的标签设为H(x);如果假设在一个人头区域的周围,人群的密度是均匀的,它的最近邻给出了一个对于几何形变的合理的估计;
为了使得密度图能够...

【专利技术属性】
技术研发人员:田青唐绍鹏
申请(专利权)人:苏州玖合智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1