【技术实现步骤摘要】
基于改进YOLOv3和改进NMS的行人检测方法
[0001]本专利技术属于行人检测
,具体涉及一种基于改进YOLOv3算法的复杂环境下行人检测方法。
技术介绍
[0002]随着我国城市化进程的加快,越来越多的大型公共建筑应运而生,与此同时也出现了越来越多如车站、地铁、商场等人员密集场所,因此,实时、准确的行人识别与检测方法在密集场所寻找走失人员等有着极为重要的应用价值。传统的行人检测方法主要采用人工设计特征进行全局特征行人检测,通过Haar小波特征、HOG特征、Shapelet与Edgelte特征等训练分类器进行行人检测,并在现有的数据集上取得了许多令人瞩目的效果。由于标准数据集中的样本分布并不均衡,例如目标区域与非目标区域、易分目标与难分目标分布不均衡,目前的主流检测方法只专注于目标区域与非目标区域的分布不均衡,在训练的过程中,通过手动将两者的比例调整为1:3克服目标区域与非目标区域分布不均衡的缺陷,但这种操作使数据集的制作过程变得耗时且费力。
技术实现思路
[0003]针对现有技术的不足,本专利技术提出了基于改进YOLOv3和改进NMS的行人检测方法,将行人检测问题转化为回归问题,利用卷积神经网络对整个图像进行处理,提供预测的类别和位置,同时通过降低易分样本的权重,提高难分样本的权重使样本分布均衡。
[0004]基于改进YOLOv3和改进NMS的行人检测方法,包括以下步骤:
[0005]步骤一、数据集采集
[0006]采集客观环境中行人在摄像头下拍摄的各种姿势和不同位 ...
【技术保护点】
【技术特征摘要】
1.基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:具体包括以下步骤:步骤一、数据集采集采集客观环境中行人在摄像头下拍摄的各种姿势和不同位置的图像形成行人图像数据集;步骤二、数据预处理2.1、对步骤一采集获取的行人图像数据集进行扩充;2.2、对扩充后的行人图像数据集进行标注用标注工具生成对应目标的标注信息及标签信息,类别为人的目标标签信息为person;2.3、将标注后的行人图像数据集分为训练集和测试集;步骤三、对训练集图像进行调整、聚类3.1、对步骤二获得的训练集中的图像进行尺寸调整,作为YOLOv3网络的输入图像,并设置IoU阈值、置信度阈值与距离阈值;3.2、通过YOLOv3网络结构提取输入图像的特征,并使用组归一化Group Normalization对提取到的图像特征进行归一化操作;3.3、使用K-means聚类方法对输入图像进行聚类,得到最有可能的检测目标形状;步骤四、计算预测框的回归损失使用CIoU函数代替YOLOv3中原有的预测框回归损失函数IoU Loss,计算预测框的回归损失,计算公式为:其中其中,Pos表示一张图片中检测出的物体中心点总数,p为某一中心点的索引,λ用于抑制离散点的程度,l和g为数组,分别包括预测框和实际框的宽度、高度以及左上角的横、纵坐标,c
x
和c
y
为预测框左上角的横、纵坐标,b,b
gt
分别为预测框中心和实际框中心,w、h为预测框的宽度和高度,w
gt
、h
gt
为实际框的宽度和高度;ρ(.)表示欧式距离,c表示预测框和实际框的最小外界矩形的对角线距离,α是用于调整权重的参数;步骤五、解决样本分布不均衡
在分类损失函数和预测框回归损失函数中引入GHM思想,以解决样本分布不均衡的问题;计算得到均衡化后的检测框回归损失函数L
CIoU_GHM-R
步骤六、计算总损失函数根据步骤四与步骤五的计算结果,得到总损失函数:L
total
=L
pre
+L
GHM_class
+L
CIoUI_GHM_R
步骤七、融合提取特征过程中产生的多尺度信息7.1、利用特征金字塔网络提取YOLOv3网络内的特征层次结构;7.2、引入PANet思想对具有横向连接的自顶向下路径进行扩展,创建自底向上的路径,利用准确的低层定位信号增强整个特征层次;步骤八、冗余预测框抑制采用结合了CIoU的软化非极大值抑制算法函数进行冗余预测框抑制,通过降低CIoU函数指标大于阈值的预测框的置信度,输出精确度更高的预测框,计算公式如下:数指标大于阈值的预测框的置信度,输出精确度更高的预测框,计算公式如下:其中,M为当前得分最高的预测框,b为待处理框,当IoU-R
CIoU
(M,b)小于阈值N
t
时,检测得分分值为s,反之为s(1-IoU+R
CIoU
(M,b))。b和M的CIoU越大,b的得分s下降的越多。2.如权利要求1所述基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:步骤一所述各种姿势的图像包括躺、坐、蹲、行走、站立和跑步的行人图像;所述不同位置的图像包括与摄像头不同距离的行人图像和存在不同遮挡情况的行人图像。3.如权利要求1所述基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:步骤二中所述标注信息为数据集中目标的位置信息,标签信息为数据集中目标所属的类别;行人图像数据集的扩充包括:
①
对图像进行水平和垂直翻转、随机裁剪、随...
【专利技术属性】
技术研发人员:何志伟,张华佳,董哲康,林辉品,高明煜,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。