一种基于语义细化的空间金字塔人群计数方法技术

技术编号:34511351 阅读:21 留言:0更新日期:2022-08-13 20:57
本发明专利技术请求保护一种基于语义细化的空间金字塔人群计数方法,属于计算机视觉技术领域。所述方法提出了一种新的编解码器模型,称为语义细化空间金字塔网络。所述方法主要包括以下步骤:首先,利用一系列的卷积神经层作为网络前端,在不增加额外计算成本的情况下获得更深层次的特征。此外,空间金字塔多尺度模块是拥有多个感受野的空间金字塔结构,用于捕捉多尺度特征。接着,语义增强模块用来细化网络捕获的多尺度特征,其利用深层语义信息来优化并且融合多尺度特征。最后,利用浅层纹理信息对特征图的细节进行补偿,以提高密度图的质量。本发明专利技术旨在建立一个尺度感知的计数网络来准确地估计人群中个体的数量。准确地估计人群中个体的数量。准确地估计人群中个体的数量。

【技术实现步骤摘要】
一种基于语义细化的空间金字塔人群计数方法


[0001]本专利技术属于计算机视觉
,具体属于一种人群计数方法。

技术介绍

[0002]人群计数在计算机视觉领域中起着至关重要的作用,它旨在准确预测出现在密集场景中的个体数量。人群计数算法可广泛应用于许多领域,包括城市规划、公共安全和监控。然而,由于严重的遮挡、规模变化和背景杂波,精确地评估人群的数量成为一项非常具有挑战性的任务。随着人群密度的增加,上述所有问题都变得尤为困难。
[0003]近年来,基于卷积神经网络(Convolutional Neural Network,CNN)的人群计数算法达到了令人兴奋的性能,因为CNN模型具有压倒性的特征提取性能能力。不幸的是,人群计数的尺度变化还没有得到很好的解决。这些方法通常使用多列架构来处理尺度变化来增强特征学习,这意味着输入被输入到每列中以捕获多尺度特征。Zhang设计了一种基于CNN的三个分支方法,采用了三个尺度的卷积核。然而,模型中会引入许多冗余参数,使得网络更加复杂,难以训练。Sam等人训练了一个分类器,为每个图像补丁选择最合适的回归路径,这导致网络不能进行端到端训练。此外,Sindagi等人设计了一个网络结构来捕获局部和全局特征并将它们合并,可以产生误差更小的密度图。虽然多尺度卷积核在多列网络结构中被广泛应用,但所得到的特征图仍然存在严重的信息损失。流行的分割方法通过连接不同层的输出特征图来解决上述问题,这表明通过跳跃连接在不同层融合多个特征具有很大的有效性。受上述方法的启发,我们的目标是设计一种新的多列结构网络,每个列具有不同大小的接受域,并使用深度语义信息来细化多尺度特征。继Chen等人之后,我们的方法侧重于避免特征提取过程中图像细节的丢失。当网络层越来越深入时,所提取出的特征往往是难以理解的。由于网络主干内的池化或卷积,与头边界相关的详细信息被忽略。因此,该方法通过融合浅层细节特征和高级语义特征,保证了网络提取特征的全面性。最后,对从主干网络和分支中提取的特征进行串联融合,以获得特征的完整性。
[0004]经过检索,申请公开号CN111242036A,一种基于编码

解码结构多尺度卷积神经网络的人群计数方法,其特征在于,包括以下步骤:考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图;采用编码

解码结构,搭建多尺度卷积神经网络模型,所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述;对搭建的多尺度卷积神经网络模型进行训练和测试,获得训练好的多尺度卷积神经网络模型;将待估图像输入训练好的多尺度卷积神经网络模型,预测获得人群密度图;对人群密度图进行回归估计,获得待估图像的人员数量。该专利专利技术的方法,能够保留尺度特征和图像的上下文信息,可提升密度图的输出质量。该方法利用了多列的平行结构来捕获多尺度特征,确实可以在一定程度上解决尺度变化的问题,但是该方法忽略了在捕获多尺度特征的过程中,会有不少细节信息的丢失,这对最终生成密度图是有影响的。我们方法提出的语义增强模块,利用骨干网络和提取的多尺度进行像素级别的相减操作,从而得到丢失的细节信息,再通过Sigmoid激活函数得到丢失细节信息的权重图。之后把权重图与提取到的多尺度特征进行
相乘,以此增强多尺度特征的表达。
[0005]CN113011329A,一种基于多尺度特征金字塔网络及密集人群计数方法,目的在于解决复杂拥挤场景中密度图估计和人群计数问题,本专利技术利用特征提取模块对人群图像进行特征提取;利用特征金字塔融合模块有效捕获人群图像中多尺度上下文信息,进一步获取更好的特征表达;利用特征注意力感知模块聚焦人群图像中高密度位置,降低背景干扰;使用双线性差值将图像恢复到原始尺寸;输出预测密度图并统计人头数量,有效解决了密集场景中由于人头尺度变化较大、人群遮挡严重、光照条件差造成人群计数困难的问题,并且提高了模型对于噪声的鲁棒性,能够实现人群精确计数以及密度图的高质量预测,由于本专利技术利用分组卷积模块,因此具有较快的推理速度。该方法利用了不同空洞率的空洞卷积来捕获多尺度特征,并且利用到了注意力机制来降低背景的干扰,但是该方法忽略了浅层的纹理信息对于最终生成的密度图是很有帮助的。我们的方法利用到了骨干网络在浅层提取的纹理特征对提取到的多尺度特征进行细节信息的弥补,这能丰富特征图的完备性,使最终生成密度图更加精细。

技术实现思路

[0006]本专利技术旨在解决以上现有技术的问题。提出了一种基于语义细化的空间金字塔人群计数方法。本专利技术的技术方案如下:
[0007]一种基于语义细化的空间金字塔人群计数方法,其包括以下步骤:
[0008]步骤1:获取人群图像数据集,并分为训练集和测试集,将训练集进行裁剪得到输入图像,输入图像进入基于VGG

16的骨干网络提取基础特征;
[0009]步骤2:设计空间金字塔多尺度模块(SpatialPyramidMulti

scaleModule,SPMM),SPMM拥有多个具有不同的感受野的平行分支,这些拥有不同感受野的平行分支组成了空间金字塔结构,在步骤1的基础特征上捕获人群图像中的多尺度特征;
[0010]步骤3:设计语义增强模块(SemanticEnhancementModule,SEM),SEM将骨干网络提取出来的基础特征与SPMM提取出来的多尺度特征进行像素级别的相减操作,之后再经过降维和激活函数后,得到丢失细节信息的权重图,再把权重图与对应的多尺度特征进行相乘,得到增强特征;
[0011]步骤4:利用步骤1骨干网络在浅层提取的纹理特征对步骤3得到的增强特征的细节信息进行补偿,用于丰富特征图的细节信息;
[0012]步骤5:将步骤4得到的特征图输入由一系列空洞卷积组成的解码结构,从而生成最终的密度图,将密度图进行积分操作,就能得到网络预测的个体数。
[0013]进一步的,所述步骤1:获取人群图像数据集,并分为训练集和测试集,将训练集进行裁剪得到输入图像,输入图像进入基于VGG

16的骨干网络提取基础特征,具体包含以下步骤:
[0014]A1:从数据集中的训练集中将人群图像,裁剪为576
×
768尺寸大小的输入图像I;
[0015]A2:将图像I输入到由VGG

16的前13层构成的骨干网络中提取特征,从第7层提取的特征F7,从第13层提取的特征称为基础特征,用F
v
表示,则F
v
可以定义为:
[0016]F
v
=f
vgg
(I)(4)
[0017]其中f
vgg
骨干网络,F
v
是通过骨干网络提取到的基础特征。
[0018]进一步的,所述步骤2设计空间金字塔多尺度模块(SpatialPyramidMulti

scaleModule,SPMM),SPMM拥有多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义细化的空间金字塔人群计数方法,其特征在于,包括以下步骤:步骤1:获取人群图像数据集,并分为训练集和测试集,将训练集进行裁剪得到输入图像,输入图像进入基于VGG

16的骨干网络提取基础特征;步骤2:设计空间金字塔多尺度模块SPMM,SPMM拥有多个具有不同的感受野的平行分支,这些拥有不同感受野的平行分支组成了空间金字塔结构,在步骤1的基础特征上捕获人群图像中的多尺度特征;步骤3:设计语义增强模块SEM,SEM将骨干网络提取出来的基础特征与SPMM提取出来的多尺度特征进行像素级别的相减操作,之后再经过降维和激活函数后,得到丢失细节信息的权重图,再把权重图与对应的多尺度特征进行相乘,得到增强特征;步骤4:利用步骤1骨干网络在浅层提取的纹理特征对步骤3得到的增强特征的细节信息进行补偿,用于丰富特征图的细节信息;步骤5:将步骤4得到的特征图输入由一系列空洞卷积组成的解码结构,从而生成最终的密度图,将密度图进行积分操作,就能得到网络预测的个体数。2.根据权利要求1所述的一种基于语义细化的空间金字塔人群计数方法,其特征在于,所述步骤1:获取人群图像数据集,并分为训练集和测试集,将训练集进行裁剪得到输入图像,输入图像输入卷积神经层提取特征,具体包含以下步骤:A1:从数据集中的训练集中将人群图像,裁剪为576
×
768尺寸大小的输入图像I;A2:将图像I输入到由VGG

16的前13层构成的骨干网络中提取特征,从第7层提取的特征F7,从第13层提取的特征称为基础特征,用F
v
表示,则F
v
可以定义为:F
v
=f
vgg
(I)(1)其中f
vgg
骨干网络,F
v
是通过骨干网络提取到的基础特征。3.根据权利要求2所述的一种基于语义细化的空间金字塔人群计数方法,其特征在于,所述步骤2设计SPMM,SPMM拥有多个具有不同的感受野的平行分支,这些拥有不同感受野的平行分支组成了空间金字塔结构,在步骤A2的基础特征上捕获人群图像中的多尺度特征,具体包含以下步骤:B1:根据步骤A2,将基础特征F
v
输入到拥有四个平行分支的SPMM模块,具体地,SPMM第一个分支是卷积核大小3
×
3且空洞率为6的空洞卷积、第二个分支是卷积核大小3
×
3且空洞率为12的空洞卷积、第三个分支是卷积核大小3
×
3且空洞率为18的空洞卷积、第四个分支是输出特征图尺寸为1
×
1的全局自适应平均池化层;B2:拥有四个分支的SPMM能够利用不同分支拥有的不同尺寸的感受野来捕获多尺度特征,以F
si
表示,其中的s表示尺度的意思,i的取值范围是1、2、3、4,分别对应了SPMM四个不同分支,F
s1
、F
s2
、F
s3
、F
s4
分别表示SPMM从第一个分支到第四分支提取到的特征。4.根据权利要求3所述的一种基于语义细化的空间金字塔人群计数方法,其特征在于,所述步骤3设计SEM,SEM将骨干网络提取出来的基础特征与SPMM提取出来的多尺度特征进行像素级别的相减操作,之后再经过降维和激活函数后,得到丢失细节信息的权重图,再把权重图与对应的多尺度特征进行相乘,得到增强特征,具体包含以下步骤:C1:将在A2步骤中提取到基础特征F
v
输入到1
×
1卷积层进行...

【专利技术属性】
技术研发人员:周丽芳王佩雯罗俊丁相
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1