基于改进YOLOv3和改进NMS的行人检测方法技术

技术编号:27201506 阅读:25 留言:0更新日期:2021-01-31 12:11
本发明专利技术公开了基于改进YOLOv3和改进NMS的行人检测方法。具体包括采集行人图像、图像预处理、构建训练集与测试集、利用YOLOv3网络提取训练集中的行人特征、通过K

【技术实现步骤摘要】
基于改进YOLOv3和改进NMS的行人检测方法


[0001]本专利技术属于行人检测
,具体涉及一种基于改进YOLOv3算法的复杂环境下行人检测方法。

技术介绍

[0002]随着我国城市化进程的加快,越来越多的大型公共建筑应运而生,与此同时也出现了越来越多如车站、地铁、商场等人员密集场所,因此,实时、准确的行人识别与检测方法在密集场所寻找走失人员等有着极为重要的应用价值。传统的行人检测方法主要采用人工设计特征进行全局特征行人检测,通过Haar小波特征、HOG特征、Shapelet与Edgelte特征等训练分类器进行行人检测,并在现有的数据集上取得了许多令人瞩目的效果。由于标准数据集中的样本分布并不均衡,例如目标区域与非目标区域、易分目标与难分目标分布不均衡,目前的主流检测方法只专注于目标区域与非目标区域的分布不均衡,在训练的过程中,通过手动将两者的比例调整为1:3克服目标区域与非目标区域分布不均衡的缺陷,但这种操作使数据集的制作过程变得耗时且费力。

技术实现思路

[0003]针对现有技术的不足,本专利技术提出了基于改进YOLOv3和改进NMS的行人检测方法,将行人检测问题转化为回归问题,利用卷积神经网络对整个图像进行处理,提供预测的类别和位置,同时通过降低易分样本的权重,提高难分样本的权重使样本分布均衡。
[0004]基于改进YOLOv3和改进NMS的行人检测方法,包括以下步骤:
[0005]步骤一、数据集采集
[0006]采集客观环境中行人在摄像头下拍摄的各种姿势和不同位置的图像形成行人图像数据集。
[0007]所述各种姿势的图像包括躺、坐、蹲、行走、站立和跑步的行人图像。
[0008]所述不同位置的图像包括与摄像头不同距离的行人图像和存在不同遮挡情况的行人图像。
[0009]步骤二、数据预处理
[0010]2.1、对步骤一采集获取的行人图像数据集进行扩充,包括以下步骤:
[0011]①
对图像进行水平和垂直翻转、随机裁剪、随机角度旋转、改变图像对比度和亮度;
[0012]②
用Random Erasing方法随机选择图像中的一个任意大小的矩形区域,擦除选定区域内的像素值并对擦除的像素值赋0至255之间的随机值;
[0013]2.2、对扩充后的行人图像数据集进行标注
[0014]用标注工具生成对应目标的标注信息及标签信息。
[0015]所述标注信息为数据集中目标的位置信息,标签信息为数据集中目标所属的类别,类别为人的目标标签信息为person。
[0016]2.3、将标注后的行人图像数据集分为训练集和测试集。
[0017]步骤三、对训练集图像进行调整、聚类
[0018]3.1、对步骤二获得的训练集中的图像进行尺寸调整,作为YOLOv3网络的输入图像,并设置IoU阈值、置信度阈值与距离阈值;
[0019]3.2、通过YOLOv3网络结构提取输入图像的特征,并使用组归一化Group Normalization对提取到的图像特征进行归一化操作。
[0020]3.3、使用K-means聚类方法对输入图像进行聚类,得到最有可能的检测目标形状。
[0021]所述K-means聚类方法的聚类公式为:
[0022]d(anchor,truth)=1-IoU(anchor,truth)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0023]其中,d(anchor,truth)表示预测框与实际框的距离,anchor为预测框,truth为实际框,IoU(anchor,truth)为预测框与实际框的交并比。
[0024]当d(anchor,truth)小于等于距离阈值时,通过以下公式确定预测框的宽高大小:
[0025][0026]以图像的左上角为坐标原点,其中,b
x
和b
y
分别为预测框中心的横、纵坐标,b
w
和b
h
分别为预测框的宽度和高度;c
x
和c
y
为预测框左上角的横、纵坐标,p
w
和p
h
分别为实际框的宽度和高度,t
x
、t
y
、t
w
和t
h
为输入图像尺寸调整过程中的相对参数,σ(t
x
)和σ(t
y
)分别为预测框中心与其左上角的水平方向和垂直方向的距离,e为自然常数。
[0027]预测框的置信度公式为:
[0028]p_obj=y*IoU(anchor,truth)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0029]其中,y的取值为0或1,y=0表示图像中没有目标,y=1表示有目标;
[0030]置信度损失为:
[0031][0032]其中,S表示将输入图片划分为S*S块,每块图像负责输出一个预测框,B为每块图像中的类别数,为第i块第j个类别在标签中的置信度,与用于判断第i块中第j个类别是否存在,且时表示存在,且时表示不存在。
[0033]步骤四、计算预测框的回归损失
[0034]使用CIoU函数代替YOLOv3中原有的预测框回归损失函数IoU Loss,计算预测框的回归损失,计算公式为:
[0035][0036]其中
[0037][0038]其中,Pos表示一张图片中检测出的物体中心点总数,p为某一中心点的索引,λ用于抑制离散点的程度,l和g为数组,分别包括预测框和实际框的宽度、高度以及左上角的横、纵坐标,b,b
gt
分别为预测框中心和实际框中心,w、h为预测框的宽度和高度,w
gt
、h
gt
为实际框的宽度和高度;ρ(.)表示欧式距离,c表示预测框和实际框的最小外界矩形的对角线距离,α是用于调整权重的参数;
[0039]步骤五、解决样本分布不均衡
[0040]在分类损失函数和预测框回归损失函数中引入GHM思想,以解决样本分布不均衡的问题。
[0041]分类损失函数使用二元交叉熵损失函数,计算公式为:
[0042][0043]其中,Num是训练图片的总数量,y
n
的取值为0或1,y
n
=0表示图像中没有目标,y
n
=1表示有目标;p_class
n
=sigmoid(x)为类别预测输出,x为模型输出。
[0044]5.1、利用GHM对分类损失函数进行处理,包括:
[0045]将L
CE
对x求导:
[0046][0047]令梯度模长g为:
[0048][0049]令梯度密度GD为:
[0050][0051][0052][0053]其中,g
n
为第n个样本的梯本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:具体包括以下步骤:步骤一、数据集采集采集客观环境中行人在摄像头下拍摄的各种姿势和不同位置的图像形成行人图像数据集;步骤二、数据预处理2.1、对步骤一采集获取的行人图像数据集进行扩充;2.2、对扩充后的行人图像数据集进行标注用标注工具生成对应目标的标注信息及标签信息,类别为人的目标标签信息为person;2.3、将标注后的行人图像数据集分为训练集和测试集;步骤三、对训练集图像进行调整、聚类3.1、对步骤二获得的训练集中的图像进行尺寸调整,作为YOLOv3网络的输入图像,并设置IoU阈值、置信度阈值与距离阈值;3.2、通过YOLOv3网络结构提取输入图像的特征,并使用组归一化Group Normalization对提取到的图像特征进行归一化操作;3.3、使用K-means聚类方法对输入图像进行聚类,得到最有可能的检测目标形状;步骤四、计算预测框的回归损失使用CIoU函数代替YOLOv3中原有的预测框回归损失函数IoU Loss,计算预测框的回归损失,计算公式为:其中其中,Pos表示一张图片中检测出的物体中心点总数,p为某一中心点的索引,λ用于抑制离散点的程度,l和g为数组,分别包括预测框和实际框的宽度、高度以及左上角的横、纵坐标,c
x
和c
y
为预测框左上角的横、纵坐标,b,b
gt
分别为预测框中心和实际框中心,w、h为预测框的宽度和高度,w
gt
、h
gt
为实际框的宽度和高度;ρ(.)表示欧式距离,c表示预测框和实际框的最小外界矩形的对角线距离,α是用于调整权重的参数;步骤五、解决样本分布不均衡
在分类损失函数和预测框回归损失函数中引入GHM思想,以解决样本分布不均衡的问题;计算得到均衡化后的检测框回归损失函数L
CIoU_GHM-R
步骤六、计算总损失函数根据步骤四与步骤五的计算结果,得到总损失函数:L
total
=L
pre
+L
GHM_class
+L
CIoUI_GHM_R
步骤七、融合提取特征过程中产生的多尺度信息7.1、利用特征金字塔网络提取YOLOv3网络内的特征层次结构;7.2、引入PANet思想对具有横向连接的自顶向下路径进行扩展,创建自底向上的路径,利用准确的低层定位信号增强整个特征层次;步骤八、冗余预测框抑制采用结合了CIoU的软化非极大值抑制算法函数进行冗余预测框抑制,通过降低CIoU函数指标大于阈值的预测框的置信度,输出精确度更高的预测框,计算公式如下:数指标大于阈值的预测框的置信度,输出精确度更高的预测框,计算公式如下:其中,M为当前得分最高的预测框,b为待处理框,当IoU-R
CIoU
(M,b)小于阈值N
t
时,检测得分分值为s,反之为s(1-IoU+R
CIoU
(M,b))。b和M的CIoU越大,b的得分s下降的越多。2.如权利要求1所述基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:步骤一所述各种姿势的图像包括躺、坐、蹲、行走、站立和跑步的行人图像;所述不同位置的图像包括与摄像头不同距离的行人图像和存在不同遮挡情况的行人图像。3.如权利要求1所述基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:步骤二中所述标注信息为数据集中目标的位置信息,标签信息为数据集中目标所属的类别;行人图像数据集的扩充包括:

对图像进行水平和垂直翻转、随机裁剪、随...

【专利技术属性】
技术研发人员:何志伟张华佳董哲康林辉品高明煜
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1