一种实时行人检测方法及神经网络、目标检测层技术

技术编号:21273999 阅读:36 留言:0更新日期:2019-06-06 08:14
本发明专利技术公开了一种实时行人检测方法,该方法的步骤主要包括:确定默认分辨率,读取视频帧,根据缩放因子确定分割块数,调整视频帧尺寸,分割视频帧,将分割后视频帧子块叠放并提取特征,预测候选行人框的坐标参数以及行人置信度分数,筛选出最终的行人框结果,根据当前帧行人尺寸调整缩放因子,继续处理下一帧直至完成全部检测任务。本发明专利技术公开了一种神经网络,包括7或8或9层卷积层。本发明专利技术还公开了一种目标检测层,该目标检测层实现行人目标框坐标预测和目标框置信度预测两部分功能。本发明专利技术通过缩放因子对视频帧进行自适应缩放,在保证检测精度及运算速度的情况下,尤其提高了对小尺寸行人目标的检测效果。

【技术实现步骤摘要】
一种实时行人检测方法及神经网络、目标检测层
本专利技术涉及深度学习视频处理
,特别涉及一种基于深度卷积神经网络的实时行人检测方法及神经网络、目标检测层。
技术介绍
目标检测是一种重要的计算机视觉技术,其中,行人检测算法在智能机器人、视频监控和自动驾驶等前沿热门领域具有广泛的应用价值,受到学术与产业界的重视。过去十多年间专利技术了不少行人检测方法,但还有众多实际应用问题亟待解决。行人检测在计算机视觉领域仍是一项极具挑战性的任务。传统行人检测算法大多基于手工设计特征,如SIFT,SURF和HOG特征等。随着深度学习技术的发展,特别是在图像分析任务中效果显著的卷积神经网络(ConvolutionalNeuralNetwork,CNN)专利技术以来,开始采用深度学习算法实现行人识别和检测。Cai等人在2016年欧洲计算机视觉会议(ECCV2016)发表论文《Aunifiedmulti-scaledeepconvolutionalneuralnetworkforfastobjectdetection》,利用CNN中的不同卷积层匹配不同尺度的图像,对不同尺度下的检测任务进行联合端到端训练。相比传统行人检测算法,该算法可提高检测准确率,但该识别速度较慢,使用一片英伟达Titan型号GPU仅能达到15帧/秒的检测速度,难以满足实时性要求。Du等人在2017年IEEE冬季计算机视觉应用会议(WACV2017)发表论文《FusedDNN:Adeepneuralnetworkfusionapproachtofastandrobustpedestriandetection》,利用多个并行CNN提高检测准确率,但由于网络参数过多,该方法检测速度较慢,使用一片英伟达TitanX型号GPU只能达到约3帧/秒的检测速度。Brazil等人在2017年国际计算机视觉会议(ICCV2017)发表论文《Illuminatingpedestrianviasimultaneousdetectionandsegmentation》,通过共享特征的检测和分割网络,较好地实现了人流中的行人检测任务。但由于网络结构复杂,要消耗大量存储空间,检测速度也难以满足实时要求。除了计算开销大、实时性较差外,上述几种方法对于离摄像机较远、尺寸较小的行人均会出现大量漏检,使其难以满足实际应用场景的检测要求。在实际应用中,由于背景复杂度不一,行人外观不同(不同尺寸或服装风格),光线/天气条件各异,以及部分遮挡等问题,基于深度学习的行人检测方法往往需要应用复杂的神经网络才能达到检测准确率要求,其代价是增加了算法复杂度,降低了算法实时性。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种实时行人检测方法,此方法在保证检测准确率的前提下,通过自缩放技术实现针对多种尺寸行人目标的快速检测,提高了算法实时性。本专利技术的目的通过以下的技术方案实现:一种实时行人检测方法,根据视频中行人的尺寸自动对视频帧进行分割,在单幅视频帧上进行单次迭代,输出行人目标框及行人置信度分数,实现了高效检测;包括如下步骤:确定算法中网络接收视频的默认分辨率:Hd×Wd×3,其中Hd、Wd分别指图像的高度和宽度,3指图像包含的色彩通道数;读取当前帧I,分辨率为H×W×3;根据缩放因子z的值,决定当前帧I的分割块数B;根据缩放因子z和分割块数B,调整当前帧I的尺寸为H'×W';归一化调整尺寸后的帧中个像素值;分割归一化后的帧为B个子图像;将当前帧分割得到的子图像按照(B,Hd,Wd,3)的维度排列,进行特征提取,并得到特征图的行人目标框坐标和该框对应的置信度;从目标框中筛选有效框,保留的目标框及其对应的行人类别置信度即可作为行人检测的输出结果;计算当前帧中检测到的所有行人的平均高度Hped,并设定最低和最高阈值Hθ_min和Hθ_max,若Hped<Hθ_min,则将缩放因子z增加1,若Hped>Hθ_max,则将缩放因子z减少1,其它情况则保持缩放因子不变;重复检测下一帧视频,直至整段视频检测完毕。优选的,所述确定当前帧I的分割块数B的具体方法为:更进一步的,对于第一帧图像,将缩放因子z初始化为0。优选的,所述根据缩放因子z及分割块数B,调整当前帧I尺寸的方法具体为:当B=1时,使H′=Hd、W′=Wd;当B=2时,使H′=Hd、当B>2时,使更进一步的,调整视频帧尺寸的目的是确保将帧分割成B块后,每块图像分辨率为Hd×Wd,满足神经网络的输入要求。优选的,所述归一化调整尺寸后的帧是将调整尺寸后的帧中各像素值除以像素取值上限,使其归一化到区间[0,1]。优选的,将归一化后的帧分割成B个子图像,具体包含以下3种情况:当B=1时,不作分割,整帧输入到网络模型中;当B=2时,将帧垂直分割成两部分,用x和y分别表示当前帧I中像素的行列坐标,则其中一部分为Il=I(x,y),0≤x<Wd,0≤y<Hd,另一部分为Ir=I(x,y),W′-Wd≤x<W′,0≤y<Hd;当B=z2时,将帧分割为z行z列,共z2个子图像,尺寸均为Hd×Wd。优选的,从候选目标框中筛选有效框具体步骤为:设置置信度阈值θ和目标框数目上限kbox,在Hout×out×9个候选框中仅保留置信度不小于θ的框,且保留数量不超过kbox个,其中,Hout和Wout分别是输出特征图的高度和宽度;所保留的目标框及其对应的行人类别置信度即可作为行人检测的输出结果。优选的,读取当前帧时,若待检测视频帧为单通道(如灰度)图像时,则直接复制该通道信息,构造3通道图像。一种神经网络,包括7层卷积层,其中第1层为常规卷积层,后面各层均为可分离的深度卷积层;第1层卷积层采用32个3×3的滤波器,紧接着是批量标准化(batchnormalization,BN)层和整流线性单元(RectifiedLinerUnits,ReLU)层;深度可分离的卷积层是由一组深度网络层结构组成的块,依次包括深度卷积层,ReLU层,BN层,1×1点卷积层,ReLU层,BN层;在第1、3、5、7卷积层中采用步长为[2,2]的卷积核对特征图进行下采样,其余卷积层步长为[1,1];前6个特征提取层中的滤波器数量依次为32、64、128、128、256、256,其余特征提取层中的滤波器数量均为512,所有滤波器的大小均为3×3;神经网络最终输出的是维度为(B,Hout,Wout,512)的特征图,其中,Hout和Wout分别是输出特征图的高度和宽度。优选的,所述设计的神经网络是一种轻量网络,所含参数总量较少,存储网络结构仅需约2.3MB。一种目标检测层,实现两部分功能,分别是行人目标框坐标预测和目标框置信度预测;行人目标框预测由4×9=36个1×1滤波器实现,对特征图上的每一个栅格预测9个候选目标框,每个目标框由最左边坐标xmin,最右边坐标xmax,最上边坐标ymin以及最下边坐标ymax四个参数确定;目标框置信度预测由2×9=18个1×1滤波器实现,对每一个栅格上的9个候选目标框计算其类别置信度,包括行人和背景两类。本专利技术与现有技术相比,具有如下优点和有益效果:本专利技术所用卷积神经网络为轻量网络,网络参数少,算法运算速度快,效率高,实时性强。通过缩放因子对视频帧进行自适应缩放,在本文档来自技高网
...

【技术保护点】
1.一种实时行人检测方法,其特征在于,根据视频中行人的尺寸自动对视频帧进行分割,在单幅视频帧上进行单次迭代,输出行人目标框及行人置信度分数;包括如下步骤:确定算法中网络接收视频的默认分辨率:Hd×Wd×3,其中Hd、Wd分别指图像的高度和宽度,3指图像包含的色彩通道数;读取当前帧I,分辨率为H×W×3;根据缩放因子z的值,决定当前帧I的分割块数B;根据缩放因子z和分割块数B,调整当前帧I的尺寸为H′×W′;归一化调整尺寸后的帧中个像素值;分割归一化后的帧为B个子图像;将当前帧分割得到的子图像按照(B,Hd,Wd,3)的维度排列,进行特征提取,并得到特征图的行人目标框坐标和该框对应的置信度;从目标框中筛选有效框,保留的目标框及其对应的行人类别置信度即可作为行人检测的输出结果;计算当前帧中检测到的所有行人的平均高度Hped,并设定最低和最高阈值Hθ_min和Hθ_max,若Hped<Hθ_min,则将缩放因子z增加1,若Hped>Hθ_max,则将缩放因子z减少1,其它情况则保持缩放因子不变;重复检测下一帧视频,直至整段视频检测完毕。

【技术特征摘要】
1.一种实时行人检测方法,其特征在于,根据视频中行人的尺寸自动对视频帧进行分割,在单幅视频帧上进行单次迭代,输出行人目标框及行人置信度分数;包括如下步骤:确定算法中网络接收视频的默认分辨率:Hd×Wd×3,其中Hd、Wd分别指图像的高度和宽度,3指图像包含的色彩通道数;读取当前帧I,分辨率为H×W×3;根据缩放因子z的值,决定当前帧I的分割块数B;根据缩放因子z和分割块数B,调整当前帧I的尺寸为H′×W′;归一化调整尺寸后的帧中个像素值;分割归一化后的帧为B个子图像;将当前帧分割得到的子图像按照(B,Hd,Wd,3)的维度排列,进行特征提取,并得到特征图的行人目标框坐标和该框对应的置信度;从目标框中筛选有效框,保留的目标框及其对应的行人类别置信度即可作为行人检测的输出结果;计算当前帧中检测到的所有行人的平均高度Hped,并设定最低和最高阈值Hθ_min和Hθ_max,若Hped<Hθ_min,则将缩放因子z增加1,若Hped>Hθ_max,则将缩放因子z减少1,其它情况则保持缩放因子不变;重复检测下一帧视频,直至整段视频检测完毕。2.根据权利要求1所述的实时行人检测方法,其特征在于,所述确定当前帧I的分割块数B的具体方法为:3.根据权利要求2所述的实时行人检测办法,其特征在于,对于第一帧图像,将缩放因子z初始化为0。4.根据权利要求1所述的实时行人检测办法,其特征在于,所述根据缩放因子z及分割块数B,调整当前帧I尺寸的方法具体为:当B=1时,使H′=Hd、W′=Wd;当B=2时,使H′=Hd、当B>2时,使5.根据权利要求1所述的实时行人检测办法,其特征在于,所述归一化调整尺寸后的帧是将调整尺寸后的帧中各像素值除以像素取值上限,使其归一化到区间[0,1]。6.根据权利要求1所述的实时行人检测办法,其特征在于,将归一化后的帧分割成B个子图像,具体包含以下3种情况:当B=1时,不作分割,整帧输入到网络模型中;当B=2时,将帧垂直分割成两部分,,用x和y分别表示当前帧I中像素的行列坐标,则其中一部分为Il=I(...

【专利技术属性】
技术研发人员:胡永健阿尔法西·萨吉尔·艾哈迈德·萨吉尔刘琲贝王宇飞
申请(专利权)人:华南理工大学中新国际联合研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1