一种港口场景下的行人检测方法、装置、设备及介质制造方法及图纸

技术编号：29286575 阅读：10 留言：0更新日期：2021-07-16 23:59

本发明专利技术公开了一种港口场景下的行人检测方法、装置、设备及介质，其方法为：获取若干已知行人框的预处理图像，计算行人框中心在行人检测网络输出端的映射值；在行人检测网络的所有预测框中，选择与映射值匹配的预测框为正样本，其余预测框为负样本；以预处理图像作为输入、预测框的标签值作为学习目标，训练行人检测网络，得到行人检测系统；计算负样本预测框与预处理图像中所有行人框的交并比，若最大值大于0.5，则该负样本不参与训练；将待检测的预处理图像输入到行人检测系统，提取检测框；去掉行人置信度低于阈值的检测框以及重叠框，剩余的检测框即为待检测的行人框。本发明专利技术可解决目前检测方法中需要人为设计anchor的问题。目前检测方法中需要人为设计anchor的问题。目前检测方法中需要人为设计anchor的问题。

Pedestrian detection method, device, equipment and medium in port scene

全部详细技术资料下载

【技术实现步骤摘要】
一种港口场景下的行人检测方法、装置、设备及介质

[0001]本专利技术属于图像信息处理领域，具体涉及一种港口场景下的行人检测的方法。

技术介绍

[0002]行人检测技术是指通过图像处理及模式识别等算法从给定的图像数据中检测出行人坐标位置并给予此检测结果的置信度。行人检测是计算机视觉中一个重要的研究热点，是众多实际应用中核心技术之一，例如，人类行为分析，行人姿态估计，行人属性分析，智能监控，自动驾驶等。因此行人检测技术具有极高的科研价值和商业价值，并有大量的学者从事行人检测的研究，众多有效的行人检测算法被提出来。
[0003]尽管近几年计算机视觉研究者致力于行人检测的研究中，但是行人检测问题依旧挑战性很大。这主要是因为有两个原因：其一，由于行人与摄像机的距离是不固定的，行人的尺度有很大的变化；其二，在实际环境中，大部分的行人距离摄像机较远，这些小目标的特征不明显，容易被误认为是背景，从而造成大量的漏检和误检。
[0004]为了获取给定图片中所有行人的坐标，行人检测器通常有以下三步：第一，对整张图片进行一系列的操作(梯度计算，卷积等)，获取对应的特征；其次，使用不同尺度和形状的预选框遍历整张图；最后基于预选框中的特征，判断其中是否存在行人目标，如存在目标则调整预选框的坐标和大小，从而得到最后的行人检测框。其中，提取特征这一步骤是行人检测技术中最重要的一步，所以，现如今主要的研究方法可以被分为两类：基于手工特征的方法和基于深度特征学习的方法。
[0005]基于手工特征的方法主要考虑了行人的先验信息，...

【技术保护点】

【技术特征摘要】
1.一种港口场景下的行人检测方法，其特征在于，包括以下步骤：步骤1，获取若干已知行人框的、有关港口场景的预处理图像，并根据行人检测网络的步长设置，计算预处理图像中每个行人框中心在行人检测网络输出端的映射值；步骤2，在行人检测网络输出端的所有预测框中：选择与步骤1得到的映射值匹配的预测框作为正样本，设置其标签为将其余预测框作为负样本，设置其标签为样本的标签中，表示第(i,j)个预测框是否参与训练，conf
ij
表示第(i,j)个预测框的行人置信度预测目标，(x
ij,min
,y
ij,min
)和(x
ij,max
,y
ij,max
)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标，和分别表示预处理图像中第k个行人框的左上角和右下角坐标；步骤3，以预处理图像作为输入、预测框的标签值作为学习目标，训练行人检测网络，得到行人检测系统；在训练过程中计算损失时，计算被标记为负样本的预测框与预处理图像中所有行人框的交并比，如果最大交并比大于0.5，则该负样本不参与训练，即设置其第一位标签值为步骤4，将行人框待检测的、有关港口场景的预处理图像，输入至步骤3得到的行人检测系统中，获取预处理图像中的检测框；步骤5，对步骤4中得到的检测框，去掉其中行人置信度低于阈值的检测框以及重叠框，剩余的检测框即为待检测的行人框。2.根据权利要求1所述的方法，其特征在于，训练行人检测网络所采用的损失函数为：式中，L表示行人检测网络在当前训练迭代时的总损失，分别表示第(i,j)个预测框Θ
ij
的置信度损失和坐标回归损失；h、w分别表示行人检测网络的中间输出特征图的高和宽；表示预测框Θ
ij
的行人置信度预测值，conf
ij
表示预测框Θ
ij
的标签值中的行人置信度；表示预测框Θ
ij
的行人框坐标预测值，B
ij
表示预测框Θ
ij
的标签值中的行人框坐标，G
ij
表示和B
ij
的最小闭包区域；表示置信度损失的权重，表示坐标回归损失的权重，λ为行人检测网络中的超参数；h
img
、w
img
分别表示预处理图像的高和宽。3.根据权利要求1所述的方法，其特征在于，所述行人检测网络包括：由backbone和FPN组成的特征提取网络模块、特征图融合模块、尺度attention模块、分类子网络和回归子网
络；所述backbone采用轻量化网络mobileNetV2，对输入大小为512
×
512
×
3的预处理图像进行特征提取，获取大小分别为64
×
64
×
32、32
×
32
×
96、16
×
16
×
1280的特征图C3、C4、C5；所述FPN的结构为：首先是在特征图C5后面使用一个输出通道为96的bottleneck模块，得到大小为16
×
16
×
96的特征图P5；然后在特征图P5后面使用一个最近邻插值层，得到大小为32
×
32
×
96的特征图P5*，之后将特征图C4和P5*相加得到特征图C4*，然后在C4*后面使用一个输出通道为32的bottleneck模块，得到大小为32
×
32
×
32的特征图P4，然后在特征图P4后面使用一个最近邻插值层，得到大小为64
×
64
×
32的特征图P4*，之后将特征图C3和特征图P4*相加得到特征图C3*，最后在C3*后面使用一个输出通道为16的bottleneck模块，得到大小为64
×
64
×
16的特征图P3；所述特征图融合模块的结构为：在特征图P5后面接一个步长为4、输出通道为16的转置卷积层，得到大小为64
×
64
×
16的特征图PL；在P4后面接一个步长为2、输出通道为16的转置卷积层，得到大小为64
×
64
×
16的特征图PM；在P3后面接一个步长为1、输出通道为16的普通卷积层，得到大小为64
×
64
×
16的特征图PS；最后将特征图PS、PM、PL级联起来，得到大小为64
×
64
×
48的特征图P_concat；所述尺度attention模块的结构为：在特征图P_concat后面使用一个步长为1、输出通道为3的3
×
3卷积层和sigmoid激活层，得到大小为64
×
64
×
3的特征图P_concat*；之后将特征图P_concat*沿通道维复制16次，得到大小为64
×
64
×
48的特征图P_scale_attention；然后将特征图P_...

【专利技术属性】
技术研发人员：邹逸群，肖志红，吴志虎，唐琎，汤松林，张泳祥，邹双，李江涛，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人