一种基于注意力和空间变换网络结合的视频人群计数方法技术

技术编号:38137328 阅读:9 留言:0更新日期:2023-07-08 09:49
本发明专利技术公开了一种基于注意力和空间变换网络结合的视频人群计数方法,首先获取摄像头采集的两帧连续图像,并将其输入至网络的前端encoder模型中,并输出当前帧以及当前帧的上一帧的密度图,其次将输出的当前帧以及当前帧的上一帧的密度图进行特征融合,并传到网络的后端decoder模型中,输出人流图。然后建立损失函数,并通过获取的真实密度图训练集对网络进行训练。最后将待处理的视频帧作为输入,网络输出待预测视频帧中人数量的计算结果。本发明专利技术使得解决人群计数问题的角度更加全面、有效减轻深层网络很难训练且容易梯度消失和爆炸的问题,并且分别学习了通道的重要性和空间的重要性。空间的重要性。空间的重要性。

【技术实现步骤摘要】
一种基于注意力和空间变换网络结合的视频人群计数方法


[0001]本专利技术涉及计算机视觉
,具体指一种基于注意力和空间变换网络结合的视频人群计数方法。

技术介绍

[0002]由于机器学习的惊人进步,特别是深度学习在计算机视觉领域得以广泛应用之后,计算机视觉领域也在近几年取得了前所未有的发展,比如在物体检测和人脸识别等领域取得了巨大的成功。随着近几年智慧城市的兴起,城市监控摄像头的比例越来越高,加上近些年频繁踩踏事件的发生,使得人们不得不关注人群计数这一领域。在对于图像中包含单个或多个目标的稀疏场景,通过目标定位检测技术可以轻松、准确地进行人群计数和识别。由于深度学习的逐渐发展,基于卷积神经网络(CNN)的方法在图像分类、行人检测、语音识别等任务上取得了显著的成功。因此研究者将CNN引入人群计数领域,并且在学习图像与密度图之间的映射中,取得了很好的人群密度估计结果。近年来,研究人员设计了多种基于CNN的人群计数算法,以克服规模变化、非均匀分布、遮挡和复杂背景等挑战。这些算法主要包括单分支网络模型、多分支网络模型、注意机制和特征融合方法等。
[0003]现有技术在人群识别与计数中主要存在以下三个问题:
[0004]1、在视频领域人群计数中,首先需要解决如何结合视频中多帧的信息这个问题,当加入多帧的时候,能将时间维度的信息也考虑进去,所以问题也就是说怎样把时间信息这个维度考虑进去。
[0005]2、在人群计数领域中,需要解决最常见的空间不变性的问题,比如视频帧中人的各种姿势变化,摄像头的移动导致的人的旋转等问题。此外随着网络深度的加深,网络出现了退化的问题,反向传播的梯度容易弥散,可能会导致梯度消失或是梯度爆炸也是一个常见的问题。
[0006]3、由于摄像机拍摄视角的问题,在拍摄结果图片上首先显示的就是透视失真的问题,这对人群计数的精度有较大影响。

技术实现思路

[0007]本专利技术根据现有技术的不足,利用连续帧之间的人流推断出人的密度,提出一种基于注意力和空间变换网络结合的视频人群计数方法,回归出人群数量,提高计数的准确性和鲁棒性。
[0008]为了解决上述技术问题,本专利技术的技术方案为:
[0009]这是一种基于视频的计数方案,它不直接从图像中估计人群密度,而是从两个连续帧之间所谓的人流中推断。
[0010]具体是将给定连续的两个图像作为输入,输出人流为f
t

1,t
。其中f
t

1,t
代表人们在两个连续的帧I
t
‑1和I
t
之间人的流动量,这里也将其叫做人流。所谓的人流是将行人运动向量与框架空间中的每一点关联起来的向量场。
[0011]一旦人们在两个连续的帧I
t
‑1和I
t
之间流动量f
t
‑1,f
t
被预测出来,该帧的密度图的第j个空间位置可以通过将前一帧邻近位置进入j的所有人流贡献相加来重建,表示为:
[0012][0013]其中第j个位置的相邻位置记作N(j),在时间t

1和t之间从地点i移动到地点j的人数记作将得到的密度图的所有像素值相加,得到t时刻的最终人数:
[0014]特别地,人流是通过施加人员守恒约束来构建的,人员守恒约束是指如果不在某一个帧边缘,人就不能在连续帧之间出现或消失。这里仅使用连续时间步长(t

1,t)的地面真实密度映射和来估计人流。具体来说,约束条件可以表示为以下两个:
[0015][0016][0017]其中,上述第一个约束条件在连续的帧间隔内对位置j附近的人员进行了守恒约束,上述第二个约束条件强化了流的时空对称性,即当时间倒流时,人应该朝相反的方向移动。
[0018]在以上学习框架中选择合适的回归流的函数,这里选择一个深度学习神经网络作为这个函数,其中I
t
‑1,I
t
指的是两个连续的帧I
t
‑1和I
t
。给定连续的两个输入的图像,它输出流为f
t

1,t
。其中参数θ在训练过程中通过S1

2中加强等式的约束进行优化。这里使用注意力和空间变换网络结合的方法作为其中分为前端encoder模型和后端decoder模型。
[0019]一种基于注意力和空间变换网络结合的视频人群计数方法,包括如下步骤:
[0020]S1、获取摄像头采集的当前帧和当前帧的上一帧,得到两帧连续图像。
[0021]S2、将当前帧和当前帧的上一帧分别输入至网络的前端encoder模型中,并输出当前帧的密度图以及当前帧的上一帧的密度图,其中encoder模型由空间转换网络(STN),残差网络,注意力机制等组成,具体如下:
[0022]作为优选,上述步骤具体分为S2

1,S2

2和S2

3:
[0023]S2

1、将当前帧输入到空间转换网络(STN)中,整个空间转换网络包含三个部分,回归网络、网格生成器和采样器。
[0024]回归网络是一个用来回归变换参数θ的网络,它的输入U为特征图像,然后经过一系列的隐藏网络层(全连接或者卷积网,再加一个回归层)输出变换参数。θ的形式可以多样,如需实现2D仿射变换,就是一个6维(2x3)向量的输出,公式如下:
[0025]θ=f
loc
(U)
[0026]其中θ为变换参数,输入U为特征图像,f
loc
为回归网络。
[0027]网格生成器是依据预测的变换参数来构建的一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出。网格生成器其实得到的是一种映射关系Γ
θ
,假设特征图像U每个像素的坐标为输出V的每个像素坐标为空间变换函数Γ
θ
为二维仿射变换函数,A
θ
表示由变换参数θ构成的矩阵。那么和的对应关系可以写为:
[0028][0029]采样器利用网格生成器的输出和输入的特征图同时作为输入产生输出,得到了特征图经过变换之后输出的特征图结果,公式如下:
[0030][0031]其中为输出特征图上第c个通道某一点的灰度值,为输入特征图上第c个通道点(n,m)的灰度。当或者大于1时,对应的max()项将取0,也就是说,只(x
i
,y
i
)周围4个点的灰度值决定目标像素点的灰度。并且当和越小,影响越大(即离点(n,m)越近),权重越大。
[0032]S2

2、将空间转换网络的输出作为输入,传到一个前项特征提取网络F
forward
中,该网络模型用于提取当前帧的特征,输出的特征通过映射表示为:
[0033]x=F
forwa本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力和空间变换网络结合的视频人群计数方法,其特征在于,包括如下步骤:S1、获取摄像头采集的当前帧和当前帧的上一帧,得到两帧连续图像;S2、将当前帧和当前帧的上一帧图像,分别输入至网络的前端编码encoder模型中,并输出当前帧的密度图以及当前帧的上一帧的密度图,其中encoder模型由空间转换网络STN、残差网络和注意力机制组成;S3、将S2中前端encoder模型输出的当前帧的密度图,以及当前帧的上一帧的密度图进行拼接concat形式的特征融合,则concat后的单个输出通道如下:其中Z
concat
表示concat后的单个输出通道,X
i
对应于输出的当前帧的密度图的通道,Y
i
对应于当前帧的上一帧的密度图的通道,*表示卷积,K
i
表示相应地卷积核,i为特征图的通道,c为特征图的总通道数;S4、将Z
concat
作为输入,传到网络的后端decoder模型中,输出人流图;所述decoder模型由四个空洞卷积组成;S5、建立损失函数,并通过获取的真实密度图训练集对网络进行训练;S5

1、真实密度图的获取,真实密度图是由对真实图像中人群区域内人头中心位置进行坐标标记,通过高斯平滑操作生成真实的人群密度图,真实密度图生成过程如下:在每个输入的第t帧图像I
t
中,注释了一组s
t
个二维的点表示场景中人头的位置;将包含这些点的位置在密度图中置为1,不包含这些点的位置在密度图中置为的0,将该密度图与具有平均值μ和标准差σ的高斯核卷积,获得相应的地面真实密度图公式如下所示:其中P
j
表示位置j的中心;S5

2、损失函数为:2、损失函数为:2、损失函数为:其中,是在时间t和位置j的人数,即地面真实的密度图,α为权重,为在时间t

1和t之间从地点i移动到位置j的人数,N(j)为第j个位置的相邻位置;
S6、将待处理的视频帧作为输入,重复步骤S2

S5,输出待预测视频帧中人数量的计算结果。2.根据权利要求1所述的一种基于注意力和空间变换网络结合的视频人群计数方法,其特征在于,S2具体过程如下:S2

1、将当前帧输入到空间转换网络STN中,整个空间转换网络包含三个部分:回归网络、网格生成器和采样器;S2

2、将空间转换网络的输出作为输入,传到一个前项特征提取网络F
forward
中,输出的特征通过映射表示为:x=F
forward
其中,x表示在当前帧图像中捕获的特征,F
forward
表示前项特征提取网络由多个卷积层和最大池化层构成;S2

3、将由前项特征提取网络提取到的特征作为输入,传到连续的三个注意力残差网络CBARM中,CBARM由一维通道注意力机制M
c
∈R
C
×1×1和一个二维空间注意力机制M
s
∈R1×
H
×
W
以及残差网络构成,把由前项特征提取网络提取到的特征图输入记作F∈R
C
×
H
×
W
,整个注意力机制过程归纳如下公式所示:力机制过程归纳如下公式所示:其中表示按位相乘,按位相乘时,注意力值被广播,通道注意力值沿着空间维度广播,反之亦然;F

是沿着通道注意力网络的输出,F

是细化的输出。3.根据权利要求2所述的一种基于注意力和空间变换网络结合的视频人群计数方法,其特征在于,在S2

1中,所述回归网络是一个回归变换参数θ的网络,输入U为特征图像,然后经过隐藏网络层输出变换参数θ;所述网格生成器是依据预测的变换参数θ构建的一个采样网格,是...

【专利技术属性】
技术研发人员:俞勇郑小青孔亚广
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1