多尺度注意力机制的双路人群计数方法技术

技术编号:37715997 阅读:14 留言:0更新日期:2023-06-02 00:12
本发明专利技术公开了一种多尺度注意力机制的双路人群计数方法,为了解决人群尺度变化大的问题,提出了一种多尺度特征提取方法,将多尺度模块、扩张卷积、特征金字塔有机结合;为了抑制背景干扰问题,设计了一种注意力掩膜网络和新的密度图生成方式;为了进一步提高预测密度图的质量,结合背景注意力掩膜损失,给出了自适应的多重损失函数。通过生成高质量的密度图,对生成的密度图进行积分来精确计数。对生成的密度图进行积分来精确计数。对生成的密度图进行积分来精确计数。

【技术实现步骤摘要】
多尺度注意力机制的双路人群计数方法


[0001]本专利技术公开涉及计算机视觉的
,尤其涉及一种多尺度注意力机制的双路人群计数方法及其网络模型。

技术介绍

[0002]密集人群计数的任务是估计图像或视频中包含的人物数量。随着全球人口数量的持续增长和人类社会活动的增加,各地公共场所经常会出现人群大量聚集的情况,如交通枢纽和娱乐场所等,这给公共安全带来了巨大的隐患。密集人群计数任务在视频监视、交通控制和大都市安全方面应用广泛,各国研究人员均进行了大量研究。
[0003]一些早期的方法是通过检测人群中的每个行人来解决人群计数问题,取得了一定的效果;但是在人群密集场景和严重遮挡场景下该方法的效果会急剧下降。因此,基于特征回归的方法被用来解决此问题。回归方法通常学习一种从特征到人数的映射关系,通过提取前景特征学习一个线性回归或高斯过程回归来计数。然而,这种回归方法学习到的是低级特征映射,当场景尺度和视角急剧变化时效果不佳。
[0004]近年来,卷积神经网络在计算机视觉领域的成功应用,为解决上述问题开拓了新的方法。基于卷积神经网络的人群计数算法能够自动提取特征,避免手工设计特征的局限性和复杂性,已成为人群计数的主流算法。文献(Single

image crowd counting via multi

column convolutional neural network)提出用多列卷积神经网络进行人群计数,不同的列使用不同大小的卷积核,分别处理大、中、小3种不同尺度的人,此后多列网络结构常用来解决多尺度问题。然而,多列结构使得网络臃肿并加重了计算资源的消耗,更多的研究者通过加深网络结构或者融合不同层次的特征来改进计数网络的性能。文献(CSRNET:Dilated convolutional neural networks for understanding the highly congested scenes)选择利用去除全连接层的VGG网络作为前端网络,并引入空洞卷积来扩大感受野,生成高质量的人群密度图,提高了计数精度。文献(基于特征金字塔网络的人群计数算法)受目标检测领域特征金字塔网的启发,提出基于特征金字塔的全卷积网络,实现了不同层次特征图的融合,但在公开数据集上的实验结果有待提升。文献(Scale aggregation network for accurate and efficient crowd counting)设计一种编码解码结构人群计数网络,由编码器中的尺度聚合模块提取多尺度特征,再经过解码器生成高分辨率的人群密度图。文献(Adcrowdnet:An attention

injective deformable convolutional network for crowd understanding)从复杂背景干扰的角度出发,将视觉注意机制应用于人群计数,通过生成注意力图指导网络进行密度图估计,但该模型的双列子网络的参数量冗余,并且不是端到端的可训练网络。此外,研究者还从多任务学习、非监督学习等角度进行了人群计数研究,但人群尺度变化大问题和背景干扰问题仍是影响人群计数的关键因素。

技术实现思路

[0005]鉴于此,本专利技术提供了一种多尺度注意力机制的双路人群计数方法,以有效地解决拥挤场景中人群计数和密度图预测困难的问题。
[0006]本专利技术提供的技术方案,具体为,一种多尺度注意力机制的双路人群计数方法,其该方法包括如下步骤:
[0007]获取待估计人群数量的图像,并采用VGG特征提取器进行特征提取,获得Conv5

3、Conv4

3、Conv3

3以及Conv2

2这些不同尺度的特征图;
[0008]将所述不同尺度的特征图进行多尺度融合,获得人群密度特征图;
[0009]将所述人群密度特征图中各像素点进行阈值筛选,获得背景密度特征图;
[0010]将所述Conv5

3特征图通过注意力掩膜模块处理后,获得人群注意力掩膜图;
[0011]将所述人群注意力掩膜图中各像素点进行阈值筛选,获得背景注意力掩膜图;
[0012]将所述人群注意力掩膜图与所述人群密度特征图按位相乘,获得精确密度特征图;
[0013]将所述背景注意力掩膜图与所述背景密度特征图按位相乘,获得精确背景密度特征图;
[0014]依据所述精确密度特征图与所述精确背景密度特征图,获得最终密度特征图;
[0015]依据所述最终密度特征图,获得人群计数。
[0016]优选,所述VGG特征提取器为VGG16网络结构中的前13层。
[0017]进一步优选,所述将所述不同尺度的特征图进行多尺度融合,获得人群密度特征图,具体为:
[0018]1)将Conv5

3的特征图进行因子为2的上采样,并将结果与Conv4

3的特征图进行Concat操作后,获得第一结果,将所述第一结果经过多尺度模块的处理,在不改变特征图通道数,尺寸的情况下,提取特征图的多尺度特征并级联获得全局上下文信息;
[0019]2)将步骤1)结果进行1
×
1的卷积处理,减少特征图的通道数后,再进行3
×
3的卷积处理,提取特征信息;
[0020]3)将步骤2)提取的特征信息进行因子为2的上采样,并将结果与Conv3

3的特征图进行Concat操作,获得第二结果,将所述第二结果经过多尺度模块的处理,在不改变特征图通道数,尺寸的情况下,提取特征图的多尺度特征并级联获得全局上下文信息;
[0021]4)将步骤3)结果进行1
×
1的卷积处理,减少特征图的通道数后,再进行3
×
3的卷积处理,提取特征信息;
[0022]5)将步骤4)提取的特征信息进行因子为2的上采样,并将结果与Conv2

2的特征图进行Concat操作,获得第三结果,将所述第三结果经过多尺度模块的处理,在不改变特征图通道数,尺寸的情况下,提取特征图的多尺度特征并级联获得全局上下文信息;
[0023]6)将步骤5)结果进行1
×
1的卷积处理,减少特征图的通道数后,再进行两个3
×
3的卷积处理,提取特征信息,最终获得具有原始输入1/2大小的人群密度特征图。
[0024]进一步优选,所述将所述Conv5

3特征图通过注意力掩膜模块处理后,获得人群注意力掩膜图,具体为:
[0025]将提取的Conv5

3特征图首先送入输入通道数512,输出通道数512的3
×
3卷积,然后通过因子为2的上采样,获得第四结果;
[0026]将第四结果送入输入通道数512,输出通道数256的3
×
...

【技术保护点】

【技术特征摘要】
1.一种多尺度注意力机制的双路人群计数方法,其特征在于,所述方法包括如下步骤:获取待估计人群数量的图像,并采用VGG特征提取器进行特征提取,获得Conv5

3、Conv4

3、Conv3

3以及Conv2

2这些不同尺度的特征图;将所述不同尺度的特征图进行多尺度融合,获得人群密度特征图;将所述人群密度特征图中各像素点进行阈值筛选,获得背景密度特征图;将所述Conv5

3特征图通过注意力掩膜模块处理后,获得人群注意力掩膜图;将所述人群注意力掩膜图中各像素点进行阈值筛选,获得背景注意力掩膜图;将所述人群注意力掩膜图与所述人群密度特征图按位相乘,获得精确密度特征图;将所述背景注意力掩膜图与所述背景密度特征图按位相乘,获得精确背景密度特征图;依据所述精确密度特征图与所述精确背景密度特征图,获得最终密度特征图;依据所述最终密度特征图,获得人群计数。2.根据权利要求1所述多尺度注意力机制的双路人群计数方法,其特征在于,所述VGG特征提取器为VGG16网络结构中的前13层。3.根据权利要求1所述多尺度注意力机制的双路人群计数方法,其特征在于,所述将所述不同尺度的特征图进行多尺度融合,获得人群密度特征图,具体为:1)将Conv5

3的特征图进行因子为2的上采样,并将结果与Conv4

3的特征图进行Concat操作后,获得第一结果,将所述第一结果经过多尺度模块的处理,在不改变特征图通道数,尺寸的情况下,提取特征图的多尺度特征并级联获得全局上下文信息;2)将步骤1)结果进行1
×
1的卷积处理,减少特征图的通道数后,再进行3
×
3的卷积处理,提取特征信息;3)将步骤2)提取的特征信息进行因子为2的上采样,并将结果与Conv3

3的特征图进行Concat操作,获得第二结果,将所述第二结果经过多尺度模块的处理,在不...

【专利技术属性】
技术研发人员:石祥滨吕浩杰刘翠微刘芳张德园蒋有志杨丹刘家鸣黄盛
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1