一种视频人群计数系统及方法技术方案

技术编号:26172413 阅读:22 留言:0更新日期:2020-10-31 13:49
本发明专利技术公开了一种视频人群计数系统及方法,其中:前端编码器对给定视频序列中的一帧图像进行特征提取;共同监督模块利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰;空间注意力模块利用浅层结构特征,选择注意力区域,引导系统区分前景人群和背景干扰;多尺度自我监督模块利用深层语义特征,通过多分支结构提取图像中人群的不同尺度特征,并通过自注意力机制对上下文特征信息进行自适应整合,自主选取最合适的尺度分支特征;后端解码器,将上述三个模块提取的特征融合并输出预测人群密度图,进而计算出待测视频帧中所含人数。本发明专利技术根据视频序列对包含的每一帧图像进行人群数量估计,实现针对视频序列的密集人群计数。

【技术实现步骤摘要】
一种视频人群计数系统及方法
本专利技术涉及监控视频下的密集人群计数
,具体地,涉及一种视频人群计数系统及方法。
技术介绍
密集人群计数和人群密度估计在计算机视觉中具有重要的意义,因为它在包括物理安全、公共空间管理和公共场所建筑设计在内的应用中发挥着举足轻重的作用。密集人群计数问题旨在估计一张图片指定目标区域(regionofinterest,ROI)中人的数量。近年来已经有很多类方法应用至密集人群计数问题。最初,研究人员提出基于检测的方法,但检测器在那些具有剧烈场景、尺度变换以及严重的遮挡现象的图片时性能较差。所以,基于回归任务的方法成为了研究的主流。回归任务的目标是学习一个函数来表征全局人群特征。在测试时,将输入图片通过学习的函数映射到一个具体的计数值。具体地,设定目标是估计输入图像的人群密度图,密度图中的每个像素值代表了输入图像对应位置的人群密度,进而通过求和运算来得到最终的人群计数值。一般地,任务给定的训练数据包含两部分:输入图像以及图像中所有出现的人头二维坐标值。在密集人群计数研究中,一些早期的回归方法使用了人为构造的特征本文档来自技高网...

【技术保护点】
1.一种视频人群计数系统,其特征在于,包括:/n前端编码器,所述前端编码器对给定视频序列中的一帧图像进行特征提取,其中,所提取的特征包括浅层结构特征和深层语义特征;/n共同监督模块,所述共同监督模块利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰,得到视频序列帧间相关特征,其中所述视视频序列帧间相关特征包括帧间时间相关特征以及帧间空间相关特征;/n空间注意力模块,所述空间注意力模块利用浅层结构特征,选择注意力区域,引导系统区分前景人群和背景干扰,得到单帧空间特征;/n多尺度自我监督模块,所述多尺度自我监督模块利用深层语义特征,通过多分支结构提取图像中人群的不同尺度特征,并通过...

【技术特征摘要】
1.一种视频人群计数系统,其特征在于,包括:
前端编码器,所述前端编码器对给定视频序列中的一帧图像进行特征提取,其中,所提取的特征包括浅层结构特征和深层语义特征;
共同监督模块,所述共同监督模块利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰,得到视频序列帧间相关特征,其中所述视视频序列帧间相关特征包括帧间时间相关特征以及帧间空间相关特征;
空间注意力模块,所述空间注意力模块利用浅层结构特征,选择注意力区域,引导系统区分前景人群和背景干扰,得到单帧空间特征;
多尺度自我监督模块,所述多尺度自我监督模块利用深层语义特征,通过多分支结构提取图像中人群的不同尺度特征,并通过自注意力机制对上下文特征信息进行自适应整合,自主选取最合适的尺度分支特征,得到单帧尺度特征;
后端解码器,所述后端解码器将共同监督模块、空间注意力模块和多尺度自我监督模块提取的视频序列帧间相关特征、单帧空间特征和单帧尺度特征融合并输出预测人群密度图,进而计算出待测视频帧中所含人数。


2.根据权利要求1所述的视频人群计数系统,其特征在于,所述前端编码器,包括两路特征提取网络,分别用于提取视频序列中当前待测帧及前续帧的视觉特征;其中每一路特征提取网络均包括一个深度卷积神经网络DCNN,所述深度卷积神经网络DCNN包括五个卷积块以及与卷积块级联的四组空洞率为2的二维卷积层,两个深度卷积神经网络DCNN之间参数共享;输入图像通过深度卷积神经网络DCNN的前三个卷积块所得到的特征定义为浅层结构特征,经过完整的深度卷积神经网络DCNN所提取到的特征定义为深层语义特征。


3.根据权利要求1所述的视频人群计数系统,其特征在于,所述共同监督模块利用共同监督机制中的对称监督机制计算前续帧与待测帧之间的相关特征,并利用当前测试帧作为全局基础进行特征提取与融合,得到视频序列帧间相关特征;利用门函数机制,通过加权层调节输出共同监督后的特征来抑制特征提取单元所提取特征中潜在的帧间差异、遮挡以及噪声干扰;其中:
所述对称监督机制包括:
通过前端编码器得到前续帧与待测帧各自的深层语义特征来计算关联矩阵A:



W=P-1DP
其中,Fa为目标帧的图像特征,Fb为查询帧的图像特征,其中目标帧定义为当前待测图片,查询帧则为视频序列基于当前待测帧的前续帧;为权重矩阵;将Fa与Fb转换为二维矩阵表示形式,维度大小为C×(WH),P为可逆矩阵,D为对角矩阵;
限制权重矩阵W为对称矩阵,则投影矩阵为正交矩阵,满足PTP=I,其中I为单位矩阵,维度大小为(C,C);对称共同监督由公式导出:



其中,将特征Fa与Fb投影至正交空间并且保证Fa与Fb在新空间中的范数保持不变,进而消除不同通道之间的相关性,改善系统的普适性;
所述门函数用于生成置信度矩阵;其中,门函数fg如下所示:
fg(Fa)=σ(wfFa+bf)∈[0,1]WH,fg(Fb)=σ(wfFb+bf)∈[0,1]WH,
其中,σ为logisticsigmoid激活函数,Ca和Cb分别为经过朴素共同监督或者对称共同监督输出的目标帧特征和查询帧特征;
所述门函数使用全连接层来实现,wf为门函数的权重值,bf为偏差值;通过已经计算的关联矩阵A,Ca与Cb使用下述公式得到,其中Ac=softmax(A):






将门函数的输出fg与之前得到的输出的特征C做哈达玛乘积,即得到共同监督后的特征C′:
Ca′=Ca⊙fg(Fa),Cb′=Cb⊙fg(Fb)。


4.根据权利要求1所述的视频人群计数系统,其特征在于,所述空间注意力模块包括多个级联的二维卷积层和最后激活层;其中:
所述二维卷积层的输出端生成预测分割图So;
将浅层结构特征F作为空间注意力模块的输入,空间注意力模块的输出为密度权重图Fs,则密度权重图Fs为浅层结构特征F与预测分割图So的哈达玛乘积:
Fs=F⊙So
所述最后激活层采用二分类logistic激活函数,利用得到的密度权重图Fs,通过注意力机制指导系统分辨前景人群和背景干扰。


5.根据权利要求1所述的视频人群计数系统,其特征在于,所述多尺度自我监督模块还包括如下任意一项或任意多项:
-所述多尺度自我监督模块包括瓶颈层以及设置于瓶颈层后端的四分支结构,其中每一个分支均包括具有不同滤波器大小的卷积层的多个块,所述瓶颈层用于降低特征维度;
-所述多尺度自我监督模块采用自适应特征选择机制,将多尺度特征进行加权融合;其中,自适应特征选择机制能够与上下文特征信息、前背景特征信息和/或图像深度特征信息相结合;
-所述多尺度自我监督模块采用自注意力机制对上下文特征信息进行自适应整合,自主选取最合适的尺度分支特征,包括:
计算一种相关程度,表示为:查询向量Q以及键值对向量K通过一个函数映射到输出上,且输出是键值对中值向量的加权平均值,权重由查询向量Q与键值对向量K计算出来;
所选取的键值对向量和查询向量均来至同一输入特征矩阵;对于目标帧的输入深层语义特征矩阵Fa,使用三个独立的空洞二维卷积层分别提取查询向量Q、键值对向量K、值向量V。


6.根据权利要求1-5任一项所述的视频人群计数系统,其特征在于,利用整体损失之和对系统进行训练;其中:
所述整体损失包括主损失函数Lden和辅助正则损失函数Lλ、辅助分割损失函数Ls以及辅助计数损失函数Lcount:



Lλ=λ1|WWT-I|,






其中,参数λ1、λ3用于平衡相应损失,根据实验选取;
整体损失之和L为:
L=Lden+Lλ+λ2Ls+Lcount;
其中,参数λ2用于平衡相应损失,根据实验选取;
采用分阶段训练的方法,包括:
第一阶段,首先预训练空间注意力模块以及多尺度自我监督模块,当空间注意力模块的分割误差不再显著下降,即预测精度达到一定程度时,空间注意力模块结束第一阶段训练;同样地,当多尺度自我监督模块的损失误差收敛时则结束第一阶段预训练;所述空间注意力模块预训练时的损失函数选取为Lden+λ2Ls,所述多尺度自我监督模块预训练时的损失函数选取主损失函数Lden;
第二阶段为联合训练,将系统的所有模块均加入训练,经过了第一阶段的预训练,且前端编码器的参数初始化采用深度卷积神经网络DNCC在ImageNet预训练完毕的权重值,系统训练速度和收敛性将得到一定保证;当训练误差陷入平台期时将学习了降低一个数量级,平台期最大长度为五个周期;此阶段训练时损失函数为L=Lden+Lλ+λ2Ls+Lcount,当损失误差收敛时则结束此阶段训练;

【专利技术属性】
技术研发人员:吴祺尧张重阳
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1