当前位置: 首页 > 专利查询>中南大学专利>正文

一种港口场景下的行人检测方法、装置、设备及介质制造方法及图纸

技术编号:29286575 阅读:10 留言:0更新日期:2021-07-16 23:59
本发明专利技术公开了一种港口场景下的行人检测方法、装置、设备及介质,其方法为:获取若干已知行人框的预处理图像,计算行人框中心在行人检测网络输出端的映射值;在行人检测网络的所有预测框中,选择与映射值匹配的预测框为正样本,其余预测框为负样本;以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;计算负样本预测框与预处理图像中所有行人框的交并比,若最大值大于0.5,则该负样本不参与训练;将待检测的预处理图像输入到行人检测系统,提取检测框;去掉行人置信度低于阈值的检测框以及重叠框,剩余的检测框即为待检测的行人框。本发明专利技术可解决目前检测方法中需要人为设计anchor的问题。目前检测方法中需要人为设计anchor的问题。目前检测方法中需要人为设计anchor的问题。

Pedestrian detection method, device, equipment and medium in port scene

【技术实现步骤摘要】
一种港口场景下的行人检测方法、装置、设备及介质


[0001]本专利技术属于图像信息处理领域,具体涉及一种港口场景下的行人检测的方法。

技术介绍

[0002]行人检测技术是指通过图像处理及模式识别等算法从给定的图像数据中检测出行人坐标位置并给予此检测结果的置信度。行人检测是计算机视觉中一个重要的研究热点,是众多实际应用中核心技术之一,例如,人类行为分析,行人姿态估计,行人属性分析,智能监控,自动驾驶等。因此行人检测技术具有极高的科研价值和商业价值,并有大量的学者从事行人检测的研究,众多有效的行人检测算法被提出来。
[0003]尽管近几年计算机视觉研究者致力于行人检测的研究中,但是行人检测问题依旧挑战性很大。这主要是因为有两个原因:其一,由于行人与摄像机的距离是不固定的,行人的尺度有很大的变化;其二,在实际环境中,大部分的行人距离摄像机较远,这些小目标的特征不明显,容易被误认为是背景,从而造成大量的漏检和误检。
[0004]为了获取给定图片中所有行人的坐标,行人检测器通常有以下三步:第一,对整张图片进行一系列的操作(梯度计算,卷积等),获取对应的特征;其次,使用不同尺度和形状的预选框遍历整张图;最后基于预选框中的特征,判断其中是否存在行人目标,如存在目标则调整预选框的坐标和大小,从而得到最后的行人检测框。其中,提取特征这一步骤是行人检测技术中最重要的一步,所以,现如今主要的研究方法可以被分为两类:基于手工特征的方法和基于深度特征学习的方法。
[0005]基于手工特征的方法主要考虑了行人的先验信息,对输入图像进行一系列的计算和投影,然后得到行人特征。例如,HOG(Histogram of Oriented Gradient,方向梯度直方图算法),挖掘行人的形状信息。对图像进行不同的变化,颜色空间转换,梯度计算,边缘检测等(LUV,Gabor,edges),并提出利用积分通道特征将其融合,从而获得更丰富的特征集。DPM(Deformable Part Model,可变形部件模型的检测算法)针对人体部件建立一定形式的空间约束,根据模型与部件模型的共同作用检测人体目标。上述传统行人检测方法的优点是计算速度快且不需要昂贵的计算资源如GPU和大量内存。但是,虽然这些行人检测算法能够在简单的环境中达到应用要求,在实际复杂的环境中,存在大量的误检和漏检。
[0006]相比之下,基于深度学习的行人检测系统通过大量的数据自主学习得到具有强大语义表述能力的特征,从而显著性地降低误检和漏检率,使得行人技术能够应用于真实场景。目前基于深度学习的行人检测算法大致可分为两类,其中一类算法是两阶段行人检测算法,如RCNN、SPPNet、Faster RCNN、Mask RCNN等,这类算法在第一阶段使用RPN(Region Proposal Network)或者FPN(Feature Pyramid Network)等预选框提取网络获取行人预选框,然后将第一阶段获得的行人预选框送入第二阶段网络进行二次分类和回归,两阶段行人检测算法的优点是性能好,能够满足大多数场景的性能需求,但缺点是速度慢,在对实时性有要求的场景下基本无法使用。另一类算法是一阶段行人检测算法,如YOLO、SSD、RetinaNet等,这类算法相当于两阶段算法的第一阶段,即直接使用一个网络回归出行人
框,一阶段算法的优点是速度快,基本能够满足实时性要求,但性能不如两阶段算法。这两类算法都是基于anchor的,而使用anchor就存在需要人为设计的问题,目前的解决方法是在训练集上使用kmeans聚类出anchor,但这种聚类出来的anchor仍然不能跨数据集使用。
[0007]在此背景下,研究一种不需要anchor,且可以解决尺度变化问题的行人检测算法尤为重要。

技术实现思路

[0008]本专利技术所要解决的技术问题是提供一种港口场景下的行人检测方法,解决了已有行人检测方法需要人为设计anchor的问题。
[0009]为实现上述技术目的,本专利技术采用如下技术方案:
[0010]一种港口场景下的行人检测方法,包括以下步骤:
[0011]步骤1,获取若干已知行人框的、有关港口场景的预处理图像,并根据行人检测网络的步长设置,计算预处理图像中每个行人框中心在行人检测网络输出端的映射值;
[0012]步骤2,在行人检测网络输出端的所有预测框中:选择与步骤1得到的映射值匹配的预测框作为正样本,设置其标签为将其余预测框作为负样本,设置其标签为
[0013]样本的标签中,表示第(i,j)个预测框是否参与训练,conf
ij
表示第(i,j)个预测框的行人置信度预测目标,(x
ij,min
,y
ij,min
)和(x
ij,max
,y
ij,max
)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标,分别表示预处理图像中第k个行人框的左上角和右下角坐标;
[0014]步骤3,以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;
[0015]在训练过程中计算损失时,计算被标记为负样本的预测框与预处理图像中所有行人框的交并比,如果最大交并比大于0.5,则该负样本不参与训练,即设置其第一位标签值为
[0016]步骤4,将行人框待检测的、有关港口场景的预处理图像,输入至步骤3得到的行人检测系统中,获取预处理图像中的检测框;
[0017]步骤5,对步骤4中得到的检测框,去掉其中行人置信度低于阈值的检测框以及重叠框,剩余的检测框即为待检测的行人框。
[0018]进一步地,训练行人检测网络所采用的损失函数为:
[0019][0020]式中,L表示行人检测网络在当前训练迭代时的总损失,分别表示第(i,j)个预测框Θ
ij
的置信度损失和坐标回归损失;h、w分别表示行人检测网络的中间输出特征图的高和宽;表示预测框Θ
ij
的行人置信度预测值,conf
ij
表示预测框Θ
ij
的标签值中的行人置信度;表示预测框Θ
ij
的行人框坐标预测值,B
ij
表示预测框Θ
ij
的标签值中的行人框坐标,G
ij
表示和B
ij
的最小闭包区域;表示置信度损失的权重,表示坐标回归损失的权重,λ为行人检测网络中的超参数;h
img
、w
img
分别表示预处理图像的高和宽。
[0021]进一步地,所述行人检测网络包括:由backbone和FPN组成的特征提取网络模块、特征图融合模块、尺度attention模块、分类子网络和回归子网络;
[0022]所述backbone采用轻量化网络mobileNetV2,对输入大小为512
×
512
×
3的预处理图像进行特征提取,获取大小分别为64<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种港口场景下的行人检测方法,其特征在于,包括以下步骤:步骤1,获取若干已知行人框的、有关港口场景的预处理图像,并根据行人检测网络的步长设置,计算预处理图像中每个行人框中心在行人检测网络输出端的映射值;步骤2,在行人检测网络输出端的所有预测框中:选择与步骤1得到的映射值匹配的预测框作为正样本,设置其标签为将其余预测框作为负样本,设置其标签为样本的标签中,表示第(i,j)个预测框是否参与训练,conf
ij
表示第(i,j)个预测框的行人置信度预测目标,(x
ij,min
,y
ij,min
)和(x
ij,max
,y
ij,max
)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标,和分别表示预处理图像中第k个行人框的左上角和右下角坐标;步骤3,以预处理图像作为输入、预测框的标签值作为学习目标,训练行人检测网络,得到行人检测系统;在训练过程中计算损失时,计算被标记为负样本的预测框与预处理图像中所有行人框的交并比,如果最大交并比大于0.5,则该负样本不参与训练,即设置其第一位标签值为步骤4,将行人框待检测的、有关港口场景的预处理图像,输入至步骤3得到的行人检测系统中,获取预处理图像中的检测框;步骤5,对步骤4中得到的检测框,去掉其中行人置信度低于阈值的检测框以及重叠框,剩余的检测框即为待检测的行人框。2.根据权利要求1所述的方法,其特征在于,训练行人检测网络所采用的损失函数为:式中,L表示行人检测网络在当前训练迭代时的总损失,分别表示第(i,j)个预测框Θ
ij
的置信度损失和坐标回归损失;h、w分别表示行人检测网络的中间输出特征图的高和宽;表示预测框Θ
ij
的行人置信度预测值,conf
ij
表示预测框Θ
ij
的标签值中的行人置信度;表示预测框Θ
ij
的行人框坐标预测值,B
ij
表示预测框Θ
ij
的标签值中的行人框坐标,G
ij
表示和B
ij
的最小闭包区域;表示置信度损失的权重,表示坐标回归损失的权重,λ为行人检测网络中的超参数;h
img
、w
img
分别表示预处理图像的高和宽。3.根据权利要求1所述的方法,其特征在于,所述行人检测网络包括:由backbone和FPN组成的特征提取网络模块、特征图融合模块、尺度attention模块、分类子网络和回归子网
络;所述backbone采用轻量化网络mobileNetV2,对输入大小为512
×
512
×
3的预处理图像进行特征提取,获取大小分别为64
×
64
×
32、32
×
32
×
96、16
×
16
×
1280的特征图C3、C4、C5;所述FPN的结构为:首先是在特征图C5后面使用一个输出通道为96的bottleneck模块,得到大小为16
×
16
×
96的特征图P5;然后在特征图P5后面使用一个最近邻插值层,得到大小为32
×
32
×
96的特征图P5*,之后将特征图C4和P5*相加得到特征图C4*,然后在C4*后面使用一个输出通道为32的bottleneck模块,得到大小为32
×
32
×
32的特征图P4,然后在特征图P4后面使用一个最近邻插值层,得到大小为64
×
64
×
32的特征图P4*,之后将特征图C3和特征图P4*相加得到特征图C3*,最后在C3*后面使用一个输出通道为16的bottleneck模块,得到大小为64
×
64
×
16的特征图P3;所述特征图融合模块的结构为:在特征图P5后面接一个步长为4、输出通道为16的转置卷积层,得到大小为64
×
64
×
16的特征图PL;在P4后面接一个步长为2、输出通道为16的转置卷积层,得到大小为64
×
64
×
16的特征图PM;在P3后面接一个步长为1、输出通道为16的普通卷积层,得到大小为64
×
64
×
16的特征图PS;最后将特征图PS、PM、PL级联起来,得到大小为64
×
64
×
48的特征图P_concat;所述尺度attention模块的结构为:在特征图P_concat后面使用一个步长为1、输出通道为3的3
×
3卷积层和sigmoid激活层,得到大小为64
×
64
×
3的特征图P_concat*;之后将特征图P_concat*沿通道维复制16次,得到大小为64
×
64
×
48的特征图P_scale_attention;然后将特征图P_...

【专利技术属性】
技术研发人员:邹逸群肖志红吴志虎唐琎汤松林张泳祥邹双李江涛
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1