一种基于注意力和空间变换网络结合的视频人群计数方法技术

技术编号：38137328 阅读：9 留言：0更新日期：2023-07-08 09:49

本发明专利技术公开了一种基于注意力和空间变换网络结合的视频人群计数方法，首先获取摄像头采集的两帧连续图像，并将其输入至网络的前端encoder模型中，并输出当前帧以及当前帧的上一帧的密度图，其次将输出的当前帧以及当前帧的上一帧的密度图进行特征融合，并传到网络的后端decoder模型中，输出人流图。然后建立损失函数，并通过获取的真实密度图训练集对网络进行训练。最后将待处理的视频帧作为输入，网络输出待预测视频帧中人数量的计算结果。本发明专利技术使得解决人群计数问题的角度更加全面、有效减轻深层网络很难训练且容易梯度消失和爆炸的问题，并且分别学习了通道的重要性和空间的重要性。空间的重要性。空间的重要性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力和空间变换网络结合的视频人群计数方法

[0001]本专利技术涉及计算机视觉
，具体指一种基于注意力和空间变换网络结合的视频人群计数方法。

技术介绍

[0002]由于机器学习的惊人进步，特别是深度学习在计算机视觉领域得以广泛应用之后，计算机视觉领域也在近几年取得了前所未有的发展，比如在物体检测和人脸识别等领域取得了巨大的成功。随着近几年智慧城市的兴起，城市监控摄像头的比例越来越高，加上近些年频繁踩踏事件的发生，使得人们不得不关注人群计数这一领域。在对于图像中包含单个或多个目标的稀疏场景，通过目标定位检测技术可以轻松、准确地进行人群计数和识别。由于深度学习的逐渐发展，基于卷积神经网络(CNN)的方法在图像分类、行人检测、语音识别等任务上取得了显著的成功。因此研究者将CNN引入人群计数领域，并且在学习图像与密度图之间的映射中，取得了很好的人群密度估计结果。近年来，研究人员设计了多种基于CNN的人群计数算法，以克服规模变化、非均匀分布、遮挡和复杂背景等挑战。这些算法主要包括单分支网络模型、多分支网络模型、注意机制和特征融合方法等。
[0003]现有技术在人群识别与计数中主要存在以下三个问题：
[0004]1、在视频领域人群计数中，首先需要解决如何结合视频中多帧的信息这个问题，当加入多帧的时候，能将时间维度的信息也考虑进去，所以问题也就是说怎样把时间信息这个维度考虑进去。
[0005]2、在人群计数领域中，需要解决最常见的空间不变性的问题，比如视频帧中人的各种姿势变化，摄像头的移动导...

【技术保护点】

【技术特征摘要】
1.一种基于注意力和空间变换网络结合的视频人群计数方法，其特征在于，包括如下步骤：S1、获取摄像头采集的当前帧和当前帧的上一帧，得到两帧连续图像；S2、将当前帧和当前帧的上一帧图像，分别输入至网络的前端编码encoder模型中，并输出当前帧的密度图以及当前帧的上一帧的密度图，其中encoder模型由空间转换网络STN、残差网络和注意力机制组成；S3、将S2中前端encoder模型输出的当前帧的密度图，以及当前帧的上一帧的密度图进行拼接concat形式的特征融合，则concat后的单个输出通道如下：其中Z
concat
表示concat后的单个输出通道，X
i
对应于输出的当前帧的密度图的通道，Y
i
对应于当前帧的上一帧的密度图的通道，*表示卷积，K
i
表示相应地卷积核，i为特征图的通道，c为特征图的总通道数；S4、将Z
concat
作为输入，传到网络的后端decoder模型中，输出人流图；所述decoder模型由四个空洞卷积组成；S5、建立损失函数，并通过获取的真实密度图训练集对网络进行训练；S5
‑
1、真实密度图的获取，真实密度图是由对真实图像中人群区域内人头中心位置进行坐标标记，通过高斯平滑操作生成真实的人群密度图，真实密度图生成过程如下：在每个输入的第t帧图像I
t
中，注释了一组s
t
个二维的点表示场景中人头的位置；将包含这些点的位置在密度图中置为1，不包含这些点的位置在密度图中置为的0，将该密度图与具有平均值μ和标准差σ的高斯核卷积，获得相应的地面真实密度图公式如下所示：其中P
j
表示位置j的中心；S5
‑
2、损失函数为：2、损失函数为：2、损失函数为：其中，是在时间t和位置j的人数，即地面真实的密度图，α为权重，为在时间t
‑
1和t之间从地点i移动到位置j的人数，N(j)为第j个位置的相邻位置；
S6、将待处理的视频帧作为输入，重复步骤S2
‑
S5，输出待预测视频帧中人数量的计算结果。2.根据权利要求1所述的一种基于注意力和空间变换网络结合的视频人群计数方法，其特征在于，S2具体过程如下：S2
‑
1、将当前帧输入到空间转换网络STN中，整个空间转换网络包含三个部分：回归网络、网格生成器和采样器；S2
‑
2、将空间转换网络的输出作为输入，传到一个前项特征提取网络F
forward
中，输出的特征通过映射表示为：x＝F
forward
其中，x表示在当前帧图像中捕获的特征，F
forward
表示前项特征提取网络由多个卷积层和最大池化层构成；S2
‑
3、将由前项特征提取网络提取到的特征作为输入，传到连续的三个注意力残差网络CBARM中，CBARM由一维通道注意力机制M
c
∈R
C
×1×1和一个二维空间注意力机制M
s
∈R1×
H
×
W
以及残差网络构成，把由前项特征提取网络提取到的特征图输入记作F∈R
C
×
H
×
W
，整个注意力机制过程归纳如下公式所示：力机制过程归纳如下公式所示：其中表示按位相乘，按位相乘时，注意力值被广播，通道注意力值沿着空间维度广播，反之亦然；F
′
是沿着通道注意力网络的输出，F
″
是细化的输出。3.根据权利要求2所述的一种基于注意力和空间变换网络结合的视频人群计数方法，其特征在于，在S2
‑
1中，所述回归网络是一个回归变换参数θ的网络，输入U为特征图像，然后经过隐藏网络层输出变换参数θ；所述网格生成器是依据预测的变换参数θ构建的一个采样网格，是...

【专利技术属性】
技术研发人员：俞勇，郑小青，孔亚广，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人