当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于多等级特征融合的人群计数方法及装置制造方法及图纸

技术编号:33132382 阅读:34 留言:0更新日期:2022-04-17 00:52
本发明专利技术公开了一种基于多等级特征融合的人群计数方法及装置,该方法包括:根据公开数据集生成真实人群密度图;将作为训练集的人群图像输入多等级特征融合网络中,多等级特征融合网络分为前端部分和后端部分,前端负责提取细节特征,并根据网络深度分为三个不同等级细节特征提取层,后端负责提取语义特征,并根据网络深度分为三个不同等级语义特征提取层,将不同等级细节特征不同程度地融合到不同等级语义特征中,通过卷积操作得到预测人群密度图;通过欧几里得损失函数得到网络损失,使用反向传播对网络参数进行更新;将需要估计行人数量的人群图像输入训练好的网络模型中,得到人群密度图及预测的人群总数。本发明专利技术提高了人群计数准确性。群计数准确性。群计数准确性。

【技术实现步骤摘要】
一种基于多等级特征融合的人群计数方法及装置


[0001]本专利技术涉及人群计数领域,尤其涉及一种基于多等级特征融合的人群计数方法及装置。

技术介绍

[0002]人群计数主要用于估计人群数量以及人群分布情况,通常可以分为传统的人群计数方法以及基于卷积神经网络的方法。传统的人群计数方法又可细分为基于检测的人群计数方法和基于回归的人群计数方法。在基于检测的人群计数方法中,主要做法是先通过人群图像提取到行人的特征,之后用提取到的特征去训练分类器,从而可以识别出人群图像中的行人,之后对其进行统计,便可以估算出人群图像中的人群数量。该方法在人群极为稀疏的场景下会有较好的效果,但一旦场景中行人增多,行人身体部位存在遮挡时,计数效果就会急剧下降。在基于回归的人群计数中,通过回归模型的学习,直接将图像特征与人群数量进行映射来得到图像的人群数量。基于卷积神经网络的人群计数方法是目前人群计数的主流方法。虽然目前基于卷积神经网络的人群计数方法取得了不错的成绩,但是仍然存在背景干扰的问题。Zhang等人提出的MCNN中,使用三列卷积核去提取大、中、小三种不同尺度大小的行人特征,之后将它们融合得到最终的人群特征去生成人群密度图。Sam等人提出的Switch

CNN中先将人群图像分割为3*3的9个部分,然后通过一个switch网络将这些图像块根据密度大小分为三类,并分别放入对应的网络中进行训练学习。但是上述方法由于多次使用卷积操作,丢失了很多的细节特征,使得网络对小目标的识别准确度比较低。

技术实现思路

[0003]为了克服已有技术存在的缺点,本专利技术提供了一种基于多等级特征融合的人群计数方法及装置,本专利技术将不同等级的细节特征融合到不同等级的语义特征的优点,有效的提高人群计数的准确性。
[0004]为了达到上述目的,本专利技术采用以下技术方案:
[0005]根据本专利技术的第一方面,提供一种基于多等级特征融合的人群计数方法,包括以下步骤:
[0006]数据预处理:根据用于人群计数的公开数据集中图像以及其对应的人头中心点二维坐标标记生成真实人群密度图,所述真实人群密度图用于网络训练;
[0007]构建多等级特征融合网络,将需要进行行人数量估计的人群图像输入到所述多等级特征融合网络中,输出预测人群密度图;
[0008]所述多等级特征融合网络分为前端和后端两部分,所述前端部分用于提取细节特征,并根据网络深度将前端分为三个不同等级细节特征提取层去提取不同等级的细节特征,所述后端部分用于提取语义特征,并根据网络深度将后端分为三个不同等级语义特征提取层去提取不同等级的语义特征,将不同等级的细节特征不同程度地融合到不同等级的语义特征中,最终通过卷积操作得到预测人群密度图;
[0009]所述前端部分基于VGG16网络,并且根据网络深度分为三个不同等级细节特征提取层,第一等级细节特征提取层为VGG16网络的1到4层,提取得到第一等级细节特征A1,第二等级细节特征提取层为VGG16网络的1到7层,提取得到第二等级细节特征A2,第三等级细节特征提取层为VGG16网络的1到10层,提取得到第三等级细节特征A3;
[0010]所述后端部分由3个融合层和6个残差块(Residual Block,RB)组成,并且根据网络深度分为三个不同等级语义特征提取层,第一等级语义特征提取层是前端网络后接一个残差块构成,提取得到第一等级语义特征B1,之后通过第一个融合层将第一等级细节特征提取层提取的第一等级细节特征A1与第一等级语义特征提取层提取的第一等级语义特征B1进行融合,得到融合特征H1,所述融合层为通道拼接操作,H1过程如下:
[0011]H1=C
cat
(A1,B1)
[0012]其中C
cat
表示通道拼接操作;第二等级语义特征提取层是第一个融合层后接两个残差块构成,提取得到第二等级语义特征,之后通过第二个融合层将第二等级语义特征、第二等级细节特征、第三等级细节特征进行融合,得到融合特征H2,H2过程如下:
[0013]H2=C
cat
(A2,A3,C
RB
(H1))
[0014]其中C
RB
表示残差块特征映射关系;第三等级语义特征提取层是第二个融合层后接三个残差块构成,提取得到第三等级语义特征,之后通过第三个融合层将第三等级语义特征、第一等级细节特征、第二等级细节特征进行融合,得到融合特征H3,H3过程如下:
[0015]H3=C
cat
(A1,A2,C
RB
(H2))
[0016]将融合特征H3通过1
×
1的卷积层操作后生成预测人群密度图;
[0017]通过欧几里得损失函数将所述预测人群密度图和所述真实人群密度图进行比较得到网络损失大小,使用反向传播对网络参数进行不断更新,直到得到合适的网络参数,训练得到最终的网络模型;
[0018]将需要估计行人数量的人群图像输入训练好的网络模型中,得到人群密度图,对该图进行逐像素积分,即将该图中所有像素点的数值进行加和,得到图像中行人数量的估计值,即预测的人群总数。
[0019]进一步地,所述真实人群密度图表示为:
[0020][0021]其中,N代表人群图像中标记人数,x
i
代表第i个人的人头中心点二维坐标标记位置,x代表人群图像中除人头之外的其他像素的位置,δ(x

x
i
)表示冲击函数,表示标准差为σ
i
的自适应高斯核,其中β是权重参数,表示x
i
与其近邻的几个人头之间的平均距离。
[0022]进一步地,所述方法还包括数据增强步骤,具体为:首先将数据集中的图像进行灰度化处理,然后在每一张灰度图随机裁剪出9张四分之一原图大小的子样本图像,并将它们进行随机旋转和翻转后作为训练集。
[0023]进一步地,所述使用反向传播对网络参数进行不断更新,训练得到最终的网络模型,具体步骤包括:
[0024]基于pytorch深度学习框架训练,使用欧几里得损失函数得到网络训练误差,欧几
里得损失函数定义为:
[0025][0026]其中,M表示所用训练集的大小,θ表示网络参数,X
k
表示输入的第k张图片,D
k
,D(X
k
;θ)分别表示图像X
k
的真实人群密度图和通过网络训练后生成的预测人群密度图;
[0027]通过反向传播以及梯度下降对网络模型参数进行更新;
[0028]设置适当大小的训练轮次,当训练轮次达到设定大小时,训练结束,获得最终的网络模型参数。
[0029]根据本专利技术的第二方面,提供一种基于多等级特征融合的人群计数装置,包括数据处理模块、多等级特征融合网络构建模块、网络训练模块和行人数量统计模块;
[0030]所述数据处理模块用于进行数据处理:根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多等级特征融合的人群计数方法,其特征在于,包括以下步骤:数据预处理:根据用于人群计数的公开数据集中图像以及其对应的人头中心点二维坐标标记生成真实人群密度图,所述真实人群密度图用于网络训练;构建多等级特征融合网络,将需要进行行人数量估计的人群图像输入到所述多等级特征融合网络中,输出预测人群密度图;所述多等级特征融合网络分为前端和后端两部分,所述前端部分用于提取细节特征,并根据网络深度将前端分为三个不同等级细节特征提取层去提取不同等级的细节特征,所述后端部分用于提取语义特征,并根据网络深度将后端分为三个不同等级语义特征提取层去提取不同等级的语义特征,将不同等级的细节特征不同程度地融合到不同等级的语义特征中,最终通过卷积操作得到预测人群密度图;所述前端部分基于VGG16网络,并且根据网络深度分为三个不同等级细节特征提取层,第一等级细节特征提取层为VGG16网络的1到4层,提取得到第一等级细节特征A1,第二等级细节特征提取层为VGG16网络的1到7层,提取得到第二等级细节特征A2,第三等级细节特征提取层为VGG16网络的1到10层,提取得到第三等级细节特征A3;所述后端部分由3个融合层和6个残差块组成,并且根据网络深度分为三个不同等级语义特征提取层,第一等级语义特征提取层是前端网络后接一个残差块构成,提取得到第一等级语义特征B1,之后通过第一个融合层将第一等级细节特征提取层提取的第一等级细节特征A1与第一等级语义特征提取层提取的第一等级语义特征B1进行融合,得到融合特征H1,所述融合层为通道拼接操作,H1过程如下:H1=C
cat
(A1,B1)其中C
cat
表示通道拼接操作;第二等级语义特征提取层是第一个融合层后接两个残差块构成,提取得到第二等级语义特征,之后通过第二个融合层将第二等级语义特征、第二等级细节特征、第三等级细节特征进行融合,得到融合特征H2,H2过程如下:H2=C
cat
(A2,A3,C
RB
(H1))其中C
RB
表示残差块特征映射关系;第三等级语义特征提取层是第二个融合层后接三个残差块构成,提取得到第三等级语义特征,之后通过第三个融合层将第三等级语义特征、第一等级细节特征、第二等级细节特征进行融合,得到融合特征H3,H3过程如下:H3=C
cat
(A1,A2,C
RB
(H2))将融合特征H3通过1
×
1的卷积层操作后生成预测人群密度图;通过欧几里得损失函数将所述预测人群密度图和所述真实人群密度图进行比较得到网络损失大小,使用反向传播对网络参数进行不断更新,直到得到合适的网络参数,训练得到最终的网络模型;将需要估计行人数量的人群图像输入训练好的网络模型中,得到人群密度图,对该图进行逐像素积分,即将该图中所有像素点的数值进行加和,得到图像中行人数量的估计值,即预测的人群总数。2.根据权利要求1所述的基于多等级特征融合的人群计数方法,其特征在于,所述真实人群密度图表示为:
其中,N代表人群图像中标记人数,x
i
代表第i个人的人头中心点二维坐标标记位置,x代表人群图像中除人头之外的其他像素的位置,δ(x

x
i
)表示冲击函数,表示标准差为σ
i
的自适应高斯核,其中β是权重参数,表示x
i
与其近邻的几个人头之间的平均距离。3.根据权利要求1所述的基于多等级特征融合的人群计数方法,其特征在于,所述方法还包括数据增强步骤,具体为:首先将数据集中的图像进行灰度化处理,然后在每一张灰度图随机裁剪出9张四分之一原图大小的子样本图像,并将它们进行随机旋转和翻转后作为训练集。4.根据权利要求1所述的基于多等级特征融合的人群计数方法,其特征在于,所述使用反向传播对网络参数进行不断更新,训练得到最终的网络模型,具体步骤包括:基于pytorch深度学习框架训练,使用欧几里得损失函数得到网络训练误差,欧几里得损失函数定义为:其中,M表示所用训练集的大小,θ表示网络参数,X

【专利技术属性】
技术研发人员:柳昌涛史治国
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1