一种基于多尺度动态图卷积的弱监督人群计数方法技术

技术编号:37226419 阅读:16 留言:0更新日期:2023-04-20 23:10
一种基于多尺度动态图卷积网络的弱监督人群计数方法属于人群计数在公共安全、城市规划和交通调度等领域。由于交通场景的复杂性和多样性,对大量人群进行点级标注非常困难,而且需要大量人力。弱监督人群计数更适合这些场景,因为它们只需要计数级别的注释。现有的弱监督人群计数忽略了交叉距离人群密度分布的不均匀性和多尺度人群头部,无法获得与全监督人群计数方法相似的准确计数结果。本发明专利技术提出了一种多级区域动态图卷积模块来提取不同人群区域之间的内在关系,从而学习动态区域得分,进而优化区域特征表示,还设计了一个粗粒度的多级特征融合模块来提取多尺度人群头部信息。本发明专利技术具有较高的回归精度的端到端人群计数能力。计数能力。计数能力。

【技术实现步骤摘要】
一种基于多尺度动态图卷积的弱监督人群计数方法


[0001]本专利技术基于深度学习技术,研究了一种针对密集场景人群计数的弱监督方法。首先利用Transfomer网络提取密集人群中深层的特征表示;然后通过多尺度特征融合模块去解决弱监督人群计数任务中的人群尺度问题,并且利用特征增强模块去增大感受野和增强人群语义信息;最后利用多尺度动态图卷积网络优化区域人群特征,建立相似人群区域间的关联关系,并且使用此偏置在区域之间互相监督。本专利技术属于计算机视觉领域,具体涉及深度学习,模式识别等技术。

技术介绍

[0002]人群计数是人群分析领域的一个热门话题,用于估计图像中的人数。它在社会保障、异常情况预警和交通管制方面发挥着至关重要的作用。随着人口的增长和城市化的趋势,地铁站、公交车站、机场、旅游景点、码头等交通场景越来越多,同时,严重的人群聚集可能导致拥堵和踩踏事故。
[0003]根据标签的内容,现有主流人群统计方法可分为两类:强监督人群计数和弱监督人群计数。其中,完全监督的方法需要点级标注(图像中对象框或头部的标注)和计数级标注(图像中人群的数量)。此外,现有的完全监督人群计数方法可分为目标检测、密度估计、点监督和框回归方法。近年来,随着深度学习的快速发展,基于密度估计的方法取得了最新的成果。这些方法可以对图像的预测密度图进行回归,以反映图像的密度变化。然而,这些方法需要精确的点级注释来生成密度地图标签,这在复杂的交通场景中非常困难。此外,通过对密度图进行积分得到最终计数结果。但是这些方法无法实现端到端的人群计数。/>[0004]交通场景的复杂性和多样性使得很难准确定位物体的坐标。弱监督方法可以解决这个问题,并且只需要计数级注释即可实现回归计数。然而,对于弱监督人群计数,由于缺乏点级注释,很难获得与完全监督方法一样精确的计数结果。应该从图像本身中找到更多有用的信息。人群图像包含区域尺度和目标尺度的变化。考虑到多尺度区域信息和相似图像区域之间的内部关系,可以建立不同区域之间的交叉距离关系。通过学习基于多层次特征图的区域动态计数分数,建立了计数分数相似的不同区域之间的关系,以优化区域的特征。这在一定程度上克服了没有点级注释的问题。此外,提出了一个粗粒度的多层次特征融合模块来解决多规模人群头部的问题。

技术实现思路

[0005]弱监督的人群计数任务可以看作是一个离散值回归问题。该任务的目标是回归图像中的人群数,可以用以下公式表示:
[0006]Count=F(IM)
[0007]其中F表示的方法,IM表示图像,Count是预测的人群数。该方法主要考虑了两个问题:跨距离人群密度的不均匀分布和多尺度人群头部的不均匀分布。由于缺乏点级标注,弱监督的人群计数不知道人群的确切位置,也不能学习复杂场景中的密度变化信息。发现区
域尺度信息可以反映一定的密度信息。而区域尺度的信息与图像中的位置并不相关。如附图1所示,非相邻区域的密度可能很接近。特别是,在其他图像区域之间存在着许多内部连接。为了更好地利用人群区域之间的内部关系与区域尺度信息之间的内部关系,设计了一个多层区域动态图卷积模块来实现相似区域之间的相关性。这个模块可以建立跨距离的关系。此外,目前弱监督人群计数方法中的多层次特征融合模块通常只关注细粒度的特征信息,而忽略了弱监督人群计数的特点。基于上述思想,提出了一种新的弱监督方法来实现端到端人群计数。模型的整体结构如附图2所示,:
[0008]Swin

Transformer特征提取网络;粗粒度的多尺度特征融合模块;特征增强模块;多尺度动态图卷积回归模块;
[0009](1)Swin

Transformer特征提取网络
[0010]Transformer独特的长短距离注意力机制是解决缺乏点级注释的一个很好的解决方案,并对图像中的人群区域有积极的关注。它有效地解决了卷积神经网络接受域有限的问题。这意味着Transformer比卷积神经网络更适合用于弱监督人群计数任务的骨干网络。此外,由于Swin

Transformer的窗口注意机制是在图像斑块中处理的,它在一定程度上缓解了人群分布不均匀的问题。所以选择Swin

Transformer作为特征提取网络。
[0011](2)粗粒度的多尺度特征融合模块
[0012]现有的弱监督人群计数方法通常使用来自一般上游任务的多级特征融合模块。这些上游任务通常对对象有精确的坐标注释,但弱监督的人群计数没有这样的标签。与完全监督的方法不同,弱监督的人群计数可以从没有点级注释的图像中回归一个数字。但是,由于缺少点级注释,不能知道每个对象的确切位置,无法监督细粒度的高分辨率多层次人群特征。因此,粗粒度特征更适合用于弱监督的人群计数。因此,设计了一个粗粒度的多层次特征融合模块来解决弱监督人群计数任务中的对象尺度问题。然而,不适当的特征分辨率会导致严重的人群头部分割问题。因此,进行了广泛的消融实验来确定融合特征的大小。此外,高级特征具有足够的特征表示来瞄准图像中的一个区域。低级特征具有丰富的详细信息,但缺乏语义信息。构建了一个金字塔结构来融合高层特征和低级特征。
[0013](3)特征增强模块
[0014]为了增强特征图中的人群语义信息,在粗粒度的多层次特征融合模块之后添加了该模块。特征增强模块由一个多层扩展卷积模块和一个多层全局池化模块组成。其中,多层扩展卷积模块的灵感是基于CCTrans开发的。该模块可以构建多层次的感受野,增强感受野,检测密度变化。扩张卷积是计算机视觉中常用的方法之一,它可以在不引入额外参数的情况下扩展接受域,同时捕获上下文信息。多层次全局池模块使用不同尺度下的全局池操作来提取群体区域特征。由于图像包含不同尺度的区域,一个单个分辨率的特征图不能满足所有的场景。因此,认为能够在不同区域尺度上的计数会更有益。
[0015](4)多尺度动态图卷积回归模块
[0016]发现,在不同的人群区域之间存在着很强的内在关系。具体来说,在相似规模的区域之间的人群特征应该是相似的。可以使用这个偏移量在区域之间相互监督,以提高计数精度。从以上角度出发,提出了多层区域动态图卷积回归模块来利用内部关系信息。在这个模块中,设计了一个多多层动态图卷积模块来建立不同区域之间的关系。它可以通过自我的区域特征来学习图像区域的分数。使用该区域得分来建立得分相似的区域之间的关联,
并使用图卷积网络来优化人群区域的特征。此外,还设计了一个简单的线性回归磁头来回归最终结果。
[0017]图结构的构造是GCN的基础,弱监督人群计数没有先验信息来构造图。利用内部关系来构造人群区域图。对于区域特征图,想学习图像区域在整个图像中的计数百分比。首先通过Con2d(3
×
3)将特征简化为低维空间,得到图像中每个区域的低维特征图表示。然后,由于Sigmoid能够将一个连续的值转换为一个在0到1之间的值(这可以看作是概率),所以它被用来将低维特征映射到非线性分数水本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于多尺度动态图卷积的弱监督人群计数方法,其特征在于,包括以下步骤:步骤1:数据预处理首先使用四个经典的人群计数数据库来构建输入样本点:a)将图像的大小调整为1152
×
768或768
×
1152;b)然后将每张图像分割为6张384
×
384的图像块;c)对数据集采用随机数据增强;步骤2:模型训练步骤2.1模型参数设定对于特征提取主干网络,采用Swin

L模型,并利用ImageNet

22K的预训练参数作为初始参数来加快模型的收敛速度;训练批处理参数的大小为30;学习率最初设置为10
‑5,在100个批次后衰减到10
‑6;训练总批次设置为200;在模型的评估阶段,使用MSE和MAE作为度量标准,计算公式如下:在模型的评估阶段,使用MSE和MAE作为度量标准,计算公式如下:其中,N为图像数,P
i
和G
i
分别表示预测值和真实值;平均绝对误差MAE是目标值与预测值之间的差值的绝对值之和;它只测量预测值误差的平均值;均方误差MSE是最常用的回归损失函数;它是通过计算预测值与目标值之间的距离的平方来计算的;步骤2.2Swin

Transformer主干网络特征提取对于一张图像X∈R
384*384*3
,第一维度和第二维度表示特征图的长和宽,第三维度代表特征图的通道数;要想输入到Swin

Transformer主干网络,首先需要将二维图像信息转换为符合主干网络输入的一维序列信息;因此,特征提取主干网络中包括图像块分区和图像块合并的操作,能够解决输入的问题;值得注意的是,此特征提取主干网络包含四个阶段,每个阶段都降低了输入特征图的分辨率,并像卷积神经网络一样扩展了特征图的感受野;因此,此步骤能够提取四种不同尺度的图像特征图即X1∈R
96*96*192
、X2∈R
48*48*384
、X3∈R
24*24*768
、X4∈R
12*12*1536
;步骤2.3多尺度特征融合基于步骤2.2输出的多尺度图像特征图,将融合主干网络输出的四种不同尺度的特征图;具体来说,融合X1、X2、X3、X4特征,使得最后输出的特征能够包含多尺度的信息;选择原图像的1/16即24*24作为特征图输出的最佳分辨率;因此X3不需要改变大小,X1、X2使用全局平均池化操作将分辨率降低到24*24;然而X4则利用双线性上采样操作将分辨率调整为24*24;最后,针对X1、X2、X3、X4都使用利用卷积核为3*3的2D卷积在特征图上滑动来消除平均池化和上采样对特征图产生的消极效应并且统一特征图的通道数为384;最后,将多尺度的特征图相加融合为最终包含多尺度信息的特征表示Z∈R
24*24*384
;步骤2.4特征增强特征增强包含多尺度空洞卷积模块和多尺度全局池化模块;多尺度空洞卷积模块包含四个通道,其中包含三个空洞卷积通道和一个额外的普通卷积通道,此模块通过不同空洞率的卷积能够提取大的感受野并且能够学习到图像中不同尺度的人群信息;具体来说,三
个空洞卷积通道分别采用空洞率为1、空洞率为2、空洞率为3的空洞...

【专利技术属性】
技术研发人员:张勇苗壮壮孙艳丰胡永利尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1