当前位置: 首页 > 专利查询>四川大学专利>正文

一种结合层聚合机制的人群计数方法技术

技术编号:38251590 阅读:7 留言:0更新日期:2023-07-27 10:16
本发明专利技术公布了一种结合层聚合机制的人群计数方法,属于计算机视觉领域,主要包括以下步骤:首先对数据集中的图片进行预处理,得到用于网络训练的图像块;再利用VGG16主干网络提取图像的低层特征,并且对特征通道数进行降维,以降低网络复杂度;然后利用5个级联的LAM获得丰富的多尺度信息,并且通过通道注意力模进一步优化特征;最后通过后端网络利用前面得到的精炼的特征生成人群密度图。密度图中像素相加便可得到图像中的总人数。本发明专利技术方法一定程度上解决了人群尺度变化等人群计数难点。经实验表明,在包含各种人群密度场景及环境中,本发明专利技术的计数精度优于现有已知的一定方法,能够适用于拥挤、稀疏等各种场景的人群计数与密度估计。度估计。

【技术实现步骤摘要】
一种结合层聚合机制的人群计数方法


[0001]本专利技术涉及计算机视觉领域中的人群计数技术,尤其涉及一种结合层聚合机制的人群计数方法。

技术介绍

[0002]人群计数旨在估计图片中的人群数量以及密度分布。这项研究在视频监控,交通管制,公共安全,城市规划,体育赛事,疫情防控,细胞计数等方面都有广泛应用。因此,近年来,人群计数已经成为计算机视觉领域的研究热点。然后,由于图片中的人存在剧烈的尺度变化,精确地估计人群数量与密度分布仍然是一个有挑战性的问题。
[0003]传统的方法尝试通过检测和回归来直接估计人群数量,但是他们都很容易受到人群中的遮挡问题干扰,计数性能较差,难以满足实际应用中对计数准确性的要求。基于卷积神经网络(CNN)的方法通过学习图像中特征和人群密度分布的映射,直接回归输出能反映人群空间分布信息的密度图,密度图中像素之和即为图片中的总人数。
[0004]尽管已经取得了令人鼓舞的计数性能,但这些方法还是难以解决图像中人头的尺度变化问题。之前的很多研究者利用多列卷积神经或者具有不同卷积核大小的多分支结构来提取多尺度信息。有文献提出利用多列卷积神经网络(MCNN)的具有不同卷积核大小的多列子网络来提取不同感受野的特征,同样,有文献提出了使用分类器根据图片中人群的拥挤程度将图像分类为不同的密度水平,进而送入到不同的网络回归密度图的Switch

CNN。此外,现有技术还提出了一种融合多分支卷积核提取的特征的网络(SANet),该网络通过设计不同卷积核数量与卷积核大小的分支分别提取出具有不同感受野的特征,最后在通道上拼接,以得到多尺度的特征。
[0005]多列或者多分支网络结构需要大量的参数量与计算资源,且捕获多尺度信息的能力有限。空洞卷积在获得与普通卷积相同大小的感受野时,拥有更少的参数,现有技术提出了结合空洞卷积的单列网络来关注于不同感受野与捕获多尺度特征的一种高密度拥挤人群计数的网络(CSRNet)。也有文献提出多层级密度图网络(MLCNN),通过结合网络中特定的某些层,以获得关注于不同尺度的信息,并分别输出3个中间密度图,再融合成最终的人群密度图。
[0006]基于视觉注意力机制的方法使神经网络有选择地关注更有用的信息,以提高模型性能。有文献提出了一种注意力模块(CBAM),可以在通道和空间维度上生成注意力权重,以根据信息的重要性调整特征图。
[0007]本专利技术旨在通过结合层聚合机制来解决人群计数问题,并提出可行的实现方法。

技术实现思路

[0008]本专利技术要解决的技术问题是提供一种结合层聚合机制的人群计数方法来解决多列和多分支人群计数网络冗余和多尺度信息提取能力不足的问题。
[0009]解决上述技术问题采用如下技术措施:一种结合层聚合机制的人群计数方法,主
要包括一下步骤:
[0010](1)图像预处理:首先从网络上下载公开数据集,将其中分辨率过大的图像在纵横比不变的情况下调整最大边为1024像素。以裁剪的方式获得四张大小为原图四分之一的互不重叠的图像块,再以随机裁剪的方式获得另外四张图像块,并采取水平翻转,使得有限的图像样本能得到充分地利用。最后再对得到的所有图像块进行直方图均衡,以增强图像。
[0011](2)图像的低层特征提取:首先加载VGG16的前10层卷积层的预训练参数,将之作为主干网络,其具体结构如图1所示。将所述图像块输入到主干网络中,提取包含丰富空间信息的低层特征f
v
,其通道数为512。该特征图经过VGG16中3个最大值池化层(MaxPooling)处理后被下采样到原图八分之一大小,以降低计算复杂度。之后通过一个带ReLU激活函数,输入通道数为512,输出通道数为128,核大小为1,步长为1的1
×
1卷积降低特征图通道数,得到特征图f
l
,使得网络参数和计算量进一步减小,具体结构如图1所示。
[0012](3)多尺度特征的提取:级联5个层聚合机制(LAM),LAM通过聚合具有不同感受野和语义水平的层,以得到用于密度图回归的丰富的多尺度信息。LAM具体结构如图2所示,其主要包括卷积层的逐步聚合,聚合特征的迭代融合与通道信息注意力模块,具体结构如下:
[0013]卷积层的逐步聚合:LAM中包含3个卷积层,输出通道数均为128,核大小均为3
×
3,空洞率分别为互质的1,2,3。首先将输入特征图f
l
送入第一个卷积c1,之后将该卷积的输入与经过ReLU函数激活的输出在通道上拼接,得到聚合特征图b1,此为一次聚合操作,然后将b1送入第二个卷积c2进行第二次聚合操作的得到聚合特征图b2,并将b2送入第三个卷积c3进行第三次聚合操作得到聚合特征图b3,该过程可表示为:
[0014][0015]其中σ表示ReLU激活函数,cat表示通道拼接操作。为了进一步重用网络中固有的信息,在聚合特征图b1,b2,b3的基础上进行迭代融合:首先将b1与b2输入第一个融合结点,经过融合结点选择和映射后得到特征图x1,再将x1与b3输入第二个融合结点,得到特征图x2,其中融合结点具体为后接ReLU激活函数的1
×
1卷积,输入通道数为640,输出通道数为128,该过程可表示为:
[0016][0017]最后将x2送入通道信息注意力模块来衡量不同通道的重要性,通过学习得到特征图各通道权重w,并将权重与原特征图相乘,选择性地关注更重要的通道,削弱相对不重要的通道,以得到更优的特征图A1。其中通道注意力模块由全局平均池化GAP与后接ReLU激活函数,输入通道数为128,输出通道数为128的1
×
1卷积构成,该过程可表示为:
[0018]w=σ(conv(GAP(x2)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0019]A1=x2×
w
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0020]此外,在A1和LAM输入特征之间还建立了一个残差连接以增强特征和梯度的传导,得到输出特征图f
l1
。此特征图将会被送入下一个LAM继续提取多尺度特征,得到更细化的特征。在堆叠5个LAM后,将第一个LAM的输入f
l
与第五个LAM的输出f
l5
相加,以融合包含丰富空
间信息的低层特征和包含人群密度估计的语义信息的高层特征,得到用于后端网络回归的包含丰富多尺度信息的特征f
o
,其通道数为128。
[0021](4)密度图的生成:后端网络利用LAM输出的包含丰富多尺度信息的特征图预测人群密度图,其由3个带ReLU激活函数,核大小为3
×
3,输出通道数分别为128,64,32的卷积层和3个核大小为2
×
2,步长为2,输出通道数分别为64,32,32的转置卷积层构成。其中转置卷积每次把特征图上采样两倍,逐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合层聚合机制的人群计数方法,其特征在于包括以下步骤:(1)图像预处理:以裁剪的方式获得四张大小为原图四分之一的互不重叠的图像块,再以随机裁剪的方式获得另外四张图像块,并采取水平翻转,使得有限的图像样本能得到充分地利用,最后再进行图像增强;(2)图像的低层特征提取:以VGG16的前10层卷积层作为主干网络提取包含丰富空间信息的低层特征f
v
,降低特征图通道数,使得网络参数和计算量减小,得到特征图f
l
;(3)多尺度特征的提取:级联5个层聚合机制(LAM),LAM通过聚合具有不同感受野和语义水平的层,以得到用于密度图回归的丰富的多尺度信息,其主要包括卷积层的逐步聚合,聚合特征的迭代融合与通道信息注意力模块,具体结构如下:卷积层的逐步聚合:首先将输入特征图f
l
送入第一个卷积c1,之后将该卷积的输入与经过ReLU函数激活的输出在通道上拼接,得到聚合特征图b1,此为一次聚合操作,然后将b1送入第二个卷积c2进行第二次聚合操作的得到聚合特征图b2,并将b2送入第三个卷积c3进行第三次聚合操作得到聚合特征图b3,该过程可表示为:其中σ表示ReLU激活函数,cat表示通道拼接操作,为了进一步重用网络中固有的信息,在聚合特征图b1,b2,b3的基础上进行迭代融合:首先将b1与b2输入第一个融合结点,经过融合结点选择和映射后得到特征图x1,再将x1与b3输入第二个融合结点,得到特征图x2,其中融合结点具体为后接ReLU激活函数的1
×
1卷积,该过程可表示为:最后将x2送入通道信息注意力模块来衡量不同通道的重要性,通过学习得到特征图各通道权重w,并将权重与原特征图相乘,选择性地关注更重要的通道,削弱相对不重要的通道,以得到更优的特征图A1,其中通道注意力模块由全局平均池化GAP与后接ReLU激活函数的1
×
1卷积构成,该过程可表示为:w=σ(conv(GAP(x2)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)A1=x2×
w
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)此外,在A1和LAM输入特征之间还建立了一个残差连接以增强特征和梯度的传导;(4)密度图的生成:后端网络利用LAM输出的包含丰富多尺度信息的特征图预测人群密度图,由3个卷积层和3个转置卷积层构成,其中转置卷积将特征图上采样到和原图一样的大小,最后由1
×
1卷积回归得到最终密度图。2.如权利要求1所述的一种结合层聚合机制的人群计数方法...

【专利技术属性】
技术研发人员:严华席梦园
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1