一种基于多尺度动态图卷积的弱监督人群计数方法技术

技术编号:37226419 阅读:19 留言:0更新日期:2023-04-20 23:10
一种基于多尺度动态图卷积网络的弱监督人群计数方法属于人群计数在公共安全、城市规划和交通调度等领域。由于交通场景的复杂性和多样性,对大量人群进行点级标注非常困难,而且需要大量人力。弱监督人群计数更适合这些场景,因为它们只需要计数级别的注释。现有的弱监督人群计数忽略了交叉距离人群密度分布的不均匀性和多尺度人群头部,无法获得与全监督人群计数方法相似的准确计数结果。本发明专利技术提出了一种多级区域动态图卷积模块来提取不同人群区域之间的内在关系,从而学习动态区域得分,进而优化区域特征表示,还设计了一个粗粒度的多级特征融合模块来提取多尺度人群头部信息。本发明专利技术具有较高的回归精度的端到端人群计数能力。计数能力。计数能力。

【技术实现步骤摘要】
一种基于多尺度动态图卷积的弱监督人群计数方法


[0001]本专利技术基于深度学习技术,研究了一种针对密集场景人群计数的弱监督方法。首先利用Transfomer网络提取密集人群中深层的特征表示;然后通过多尺度特征融合模块去解决弱监督人群计数任务中的人群尺度问题,并且利用特征增强模块去增大感受野和增强人群语义信息;最后利用多尺度动态图卷积网络优化区域人群特征,建立相似人群区域间的关联关系,并且使用此偏置在区域之间互相监督。本专利技术属于计算机视觉领域,具体涉及深度学习,模式识别等技术。

技术介绍

[0002]人群计数是人群分析领域的一个热门话题,用于估计图像中的人数。它在社会保障、异常情况预警和交通管制方面发挥着至关重要的作用。随着人口的增长和城市化的趋势,地铁站、公交车站、机场、旅游景点、码头等交通场景越来越多,同时,严重的人群聚集可能导致拥堵和踩踏事故。
[0003]根据标签的内容,现有主流人群统计方法可分为两类:强监督人群计数和弱监督人群计数。其中,完全监督的方法需要点级标注(图像中对象框或头部的标注)和计数级标注(图像中人群的数量)本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于多尺度动态图卷积的弱监督人群计数方法,其特征在于,包括以下步骤:步骤1:数据预处理首先使用四个经典的人群计数数据库来构建输入样本点:a)将图像的大小调整为1152
×
768或768
×
1152;b)然后将每张图像分割为6张384
×
384的图像块;c)对数据集采用随机数据增强;步骤2:模型训练步骤2.1模型参数设定对于特征提取主干网络,采用Swin

L模型,并利用ImageNet

22K的预训练参数作为初始参数来加快模型的收敛速度;训练批处理参数的大小为30;学习率最初设置为10
‑5,在100个批次后衰减到10
‑6;训练总批次设置为200;在模型的评估阶段,使用MSE和MAE作为度量标准,计算公式如下:在模型的评估阶段,使用MSE和MAE作为度量标准,计算公式如下:其中,N为图像数,P
i
和G
i
分别表示预测值和真实值;平均绝对误差MAE是目标值与预测值之间的差值的绝对值之和;它只测量预测值误差的平均值;均方误差MSE是最常用的回归损失函数;它是通过计算预测值与目标值之间的距离的平方来计算的;步骤2.2Swin

Transformer主干网络特征提取对于一张图像X∈R
384*384*3
,第一维度和第二维度表示特征图的长和宽,第三维度代表特征图的通道数;要想输入到Swin

Transformer主干网络,首先需要将二维图像信息转换为符合主干网络输入的一维序列信息;因此,特征提取主干网络中包括图像块分区和图像块合并的操作,能够解决输入的问题;值得注意的是,此特征提取主干网络包含四个阶段,每个阶段都降低了输入特征图的分辨率,并像卷积神经网络一样扩展了特征图的感受野;因此,此步骤能够提取四种不同尺度的图像特征图即X1∈R
96*96*192
、X2∈R
48*48*384
、X3∈R
24*24*768
、X4∈R
12*12*1536
;步骤2.3多尺度特征融合基于步骤2.2输出的多尺度图像特征图,将融合主干网络输出的四种不同尺度的特征图;具体来说,融合X1、X2、X3、X4特征,使得最后输出的特征能够包含多尺度的信息;选择原图像的1/16即24*24作为特征图输出的最佳分辨率;因此X3不需要改变大小,X1、X2使用全局平均池化操作将分辨率降低到24*24;然而X4则利用双线性上采样操作将分辨率调整为24*24;最后,针对X1、X2、X3、X4都使用利用卷积核为3*3的2D卷积在特征图上滑动来消除平均池化和上采样对特征图产生的消极效应并且统一特征图的通道数为384;最后,将多尺度的特征图相加融合为最终包含多尺度信息的特征表示Z∈R
24*24*384
;步骤2.4特征增强特征增强包含多尺度空洞卷积模块和多尺度全局池化模块;多尺度空洞卷积模块包含四个通道,其中包含三个空洞卷积通道和一个额外的普通卷积通道,此模块通过不同空洞率的卷积能够提取大的感受野并且能够学习到图像中不同尺度的人群信息;具体来说,三
个空洞卷积通道分别采用空洞率为1、空洞率为2、空洞率为3的空洞...

【专利技术属性】
技术研发人员:张勇苗壮壮孙艳丰胡永利尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1