密集场景下的人群检测方法技术

技术编号:34799859 阅读:16 留言:0更新日期:2022-09-03 20:06
本申请公开了一种密集场景下的人群检测方法。该密集场景下的人群检测方法包括:将RGB图像输入到主干网络中以提取得到特征图;对所述特征图进行处理以得到置信度图;对所述置信度图进行处理以得到二值图,并利用所述二值图处理得到人群定位和计数信息;对所述特征图进行处理以得到尺寸图;利用所述二值图和所述尺寸图解算得到每个检测框的大小及位置,其中,每个连通域的中心点为人头部定位点,所述连通域的个数为所述RGB图像中人的个数。本申请可以解决群密集场景下人群检测困难的问题。以解决群密集场景下人群检测困难的问题。以解决群密集场景下人群检测困难的问题。

【技术实现步骤摘要】
密集场景下的人群检测方法


[0001]本申请涉及图像处理
,具体而言,涉及一种密集场景下的人群检测方法。

技术介绍

[0002]近年来,安防监控在智慧城市中扮演的角色越来越重要,监控视角下的人群分析对于构建智慧城市的重要性日渐显现。人群计数、定位和检测作为其中的基础任务,服务于人流预测、城市规划、空间设计等高阶任务。
[0003]其中,人群检测是指在人群场景中检测人的头部,实现了检测就能够同时实现人群定位和计数的功能。有些人群检测方法是对传统目标检测领域的延伸,比如文献“R.Stewart,M.Andriluka,and A.Y.Ng,

End

to

end peopledetection in crowded scenes

in Proc.IEEE Conferenceon Computer Vision and Pattern Recognition,2016,pp.2325

2333.”中所提到的检测方法,这种方法对于低密度场景下的人群检测能够达到很好的效果,但是这种检测方法对于高密度人群场景(比如一张图片中有超过1000个人)和小目标(小于100像素)的检测效果较差。
[0004]文献“S.Yang,P.Luo,C.

C.Loy,and X.Tang,

Wider face:A facedetection benchmark

Proc.IEEE Conference on Computer Vision andPattern Recognition,2016,pp.5525

5533.”集WIDER FACE.Hu等人在文献“P.Hu and D.Ramanan,

nding tiny faces,

Proc.IEEE Conference on Computer Vision and Pattern Recognition,2017,pp.951

959.”中通过分析图像分辨率、头部尺度和环境的影响,提出了一种小型的目标检测框架,显著的提升了密集人群中的检测性能。但是这种方法是针对单视角设计的,在极拥挤的人群中,由于难以提取密集人群目标的脸部特征,从而会丢失很多的小目标。

技术实现思路

[0005]本申请的主要目的在于提供一种密集场景下的人群检测方法,以解决群密集场景下人群检测困难的问题。
[0006]根据本申请实施例的一个方面,提供了一种密集场景下的人群检测方法,包括:
[0007]步骤S1:将RGB图像输入到主干网络中以提取得到特征图;
[0008]步骤S2:对所述特征图进行处理以得到置信度图;
[0009]步骤S3:对所述置信度图进行处理以得到二值图,并利用所述二值图处理得到人群定位和计数信息;
[0010]步骤S4:对所述特征图进行处理以得到尺寸图;
[0011]步骤S5:利用所述二值图和所述尺寸图解算得到每个检测框的大小及位置,其中,每个连通域的中心点为人头部定位点,所述连通域的个数为所述RGB图像中人的个数。
[0012]进一步地,在所述步骤S1中,所述主干网络包括VGG

16或者HRNet。
[0013]进一步地,在所述步骤S1中,所述主干网络提取得到的特征图满足关系式:
[0014]F=Φ(I;θ
e
)
[0015]其中,F为所述特征图,Φ为关于特征提取器的函数,θ
e
为所述特征提取器所处神经网络的权重,I为所述RGB图像,I∈R
H
×
W
×3,R为实数,c为所述特征图的通道数,H和W分别为所述RGB图像的高和宽。
[0016]进一步地,所述步骤S2包括:
[0017]步骤S21:通过1
×
1的卷积层将所述特征图的通道数变为720;
[0018]步骤S22:通过2
×
2,步长为2的反卷积层将所述特征图的大小变成(H/2,w/2);
[0019]步骤S23:通过3
×
3的卷积层将所述特征图的通道数降为32;
[0020]步骤S24:通过反卷积层将所述特征图的尺寸变为(H,W);
[0021]步骤S25:通过1
×
1的卷积层输出单通道的所述置信度图,所述置信度图满足关系式:
[0022]C=ψ(F;θ
c
)
[0023]其中,C为所述置信度图,C∈R
H
×
W
,ψ为关于置信度预测器的函数,θ
c
为所述置信度预测器所处神经网络的权重。
[0024]进一步地,所述步骤S3包括:
[0025]步骤S31:将所述特征图和所述置信度图通过点积运算得到一个新特征图;
[0026]步骤S32:将得到的所述新特征图送入阈值学习器学习到一个阈值图;
[0027]步骤S33:根据得到所述阈值图和所述置信度图得到所述二值图;
[0028]步骤S34:通过所述二值图得到所述人群计数和定位的结果。
[0029]进一步地,所述新的特征图满足关系式:
[0030][0031]其中,F
filter
为所述新特征图,R为实数,c为所述特征图的通道数,H和W分别为所述RGB图像的高和宽,表示点积运算,D为下采样运算,C为所述置信度图。
[0032]进一步地,所述阈值图满足关系式:
[0033]T=Φ1(F
filter
;θ
t
)
[0034]其中,T为所述阈值图,T∈R
H
×
w
,Φ1为关于阈值学习器的函数,θ
t
为所述阈值学习器所处神经网络的权重。
[0035]进一步地,所述二值图满足关系式:
[0036][0037]其中,B
iij
为所述二值图,η为关于所述阈值图和所述置信度图的函数,C为所述置信度图,T为所述阈值图。
[0038]进一步地,所述步骤S4包括:
[0039]步骤S41:将所述特征图依次送入4个残差块中,将所述特征图的通道数变为32;
[0040]步骤S44:通过两个反卷积层得到一张和所述RGB图像一样大的所述尺度图,所述尺度图,满足关系式:
[0041]S=X(F;θ
s
)
[0042]其中,S为所述尺度图,S∈R
H
×
W
,R为实数,H和W分别为所述RGB图像的高和宽,X为关
于尺度图预测器的函数,F为所述特征图,θ
s
为所述尺度图预测器所处神经网络的权重。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种密集场景下的人群检测方法,其特征在于,包括:步骤S1:将RGB图像输入到主干网络中以提取得到特征图;步骤S2:对所述特征图进行处理以得到置信度图;步骤S3:对所述置信度图进行处理以得到二值图,并利用所述二值图处理得到人群定位和计数信息;步骤S4:对所述特征图进行处理以得到尺寸图;步骤S5:利用所述二值图和所述尺寸图解算得到每个检测框的大小及位置,其中,每个连通域的中心点为人头部定位点,所述连通域的个数为所述RGB图像中人的个数。2.根据权利要求1所述的密集场景下的人群检测方法,其特征在于,在所述步骤S1中,所述主干网络包括VGG

16或者HRNet。3.根据权利要求1所述的密集场景下的人群检测方法,其特征在于,在所述步骤S1中,所述主干网络提取得到的特征图满足关系式:F=Φ(I;θ
e
)其中,F为所述特征图,Φ为关于特征提取器的函数,θ
e
为所述特征提取器所处神经网络的权重,I为所述RGB图像,I∈R
H
×
W
×3,R为实数,c为所述特征图的通道数,H和W分别为所述RGB图像的高和宽。4.根据权利要求3所述的密集场景下的人群检测方法,其特征在于,所述步骤S2包括:步骤S21:通过1
×
1的卷积层将所述特征图的通道数变为720;步骤S22:通过2
×
2,步长为2的反卷积层将所述特征图的大小变成(H/2,w/2);步骤S23:通过3
×
3的卷积层将所述特征图的通道数降为32;步骤S24:通过反卷积层将所述特征图的尺寸变为(H,W);步骤S25:通过1
×
1的卷积层输出单通道的所述置信度图,所述置信度图满足关系式:C=ψ(F;θ
c
)其中,C为所述置信度图,C∈R
H
×
W
,ψ为关于置信度预测器的函数,θ
c
为所述置信度预测器所处神经网络的权重。5.根据权利要求1所述的密集场景下的人群检测方法,其特征在于,所述步骤S3包括:步骤S31:将所述特征图和所述置信度图通过点积运算得到一个新特征图;步骤S32:将得到的所述新特征图送入阈值学习器学习到一个阈值图;步骤S33:根据得到所述阈值图和所述置信度图得到所述二值图;步骤S34:通过所述二值图得到所述人群计数和定位的结果。6.根据权利要求5所述的密集场景下的人群检测方法,其特征在于,所述新的特征图满足关系式:其中,...

【专利技术属性】
技术研发人员:王琦王宇泽韩滔李学龙
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1