一种实时行人检测方法及神经网络、目标检测层技术

技术编号：21273999 阅读：36 留言：0更新日期：2019-06-06 08:14

本发明专利技术公开了一种实时行人检测方法，该方法的步骤主要包括：确定默认分辨率，读取视频帧，根据缩放因子确定分割块数，调整视频帧尺寸，分割视频帧，将分割后视频帧子块叠放并提取特征，预测候选行人框的坐标参数以及行人置信度分数，筛选出最终的行人框结果，根据当前帧行人尺寸调整缩放因子，继续处理下一帧直至完成全部检测任务。本发明专利技术公开了一种神经网络，包括7或8或9层卷积层。本发明专利技术还公开了一种目标检测层，该目标检测层实现行人目标框坐标预测和目标框置信度预测两部分功能。本发明专利技术通过缩放因子对视频帧进行自适应缩放，在保证检测精度及运算速度的情况下，尤其提高了对小尺寸行人目标的检测效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种实时行人检测方法及神经网络、目标检测层
本专利技术涉及深度学习视频处理
，特别涉及一种基于深度卷积神经网络的实时行人检测方法及神经网络、目标检测层。
技术介绍
目标检测是一种重要的计算机视觉技术，其中,行人检测算法在智能机器人、视频监控和自动驾驶等前沿热门领域具有广泛的应用价值，受到学术与产业界的重视。过去十多年间专利技术了不少行人检测方法，但还有众多实际应用问题亟待解决。行人检测在计算机视觉领域仍是一项极具挑战性的任务。传统行人检测算法大多基于手工设计特征，如SIFT，SURF和HOG特征等。随着深度学习技术的发展，特别是在图像分析任务中效果显著的卷积神经网络(ConvolutionalNeuralNetwork,CNN)专利技术以来，开始采用深度学习算法实现行人识别和检测。Cai等人在2016年欧洲计算机视觉会议(ECCV2016)发表论文《Aunifiedmulti-scaledeepconvolutionalneuralnetworkforfastobjectdetection》，利用CNN中的不同卷积层匹配不同尺度的图像，对不同尺度下的检测任务进行联合端到端训练。相比传统行人检测算法，该算法可提高检测准确率，但该识别速度较慢，使用一片英伟达Titan型号GPU仅能达到15帧/秒的检测速度，难以满足实时性要求。Du等人在2017年IEEE冬季计算机视觉应用会议(WACV2017)发表论文《FusedDNN:Adeepneuralnetworkfusionapproachtofastandrobustpedestriandetection》...

【技术保护点】
1.一种实时行人检测方法，其特征在于，根据视频中行人的尺寸自动对视频帧进行分割，在单幅视频帧上进行单次迭代，输出行人目标框及行人置信度分数；包括如下步骤：确定算法中网络接收视频的默认分辨率：Hd×Wd×3，其中Hd、Wd分别指图像的高度和宽度，3指图像包含的色彩通道数；读取当前帧I，分辨率为H×W×3；根据缩放因子z的值，决定当前帧I的分割块数B；根据缩放因子z和分割块数B，调整当前帧I的尺寸为H′×W′；归一化调整尺寸后的帧中个像素值；分割归一化后的帧为B个子图像；将当前帧分割得到的子图像按照(B，Hd，Wd，3)的维度排列，进行特征提取，并得到特征图的行人目标框坐标和该框对应的置信度；从目标框中筛选有效框，保留的目标框及其对应的行人类别置信度即可作为行人检测的输出结果；计算当前帧中检测到的所有行人的平均高度Hped，并设定最低和最高阈值Hθ_min和Hθ_max，若Hped＜Hθ_min，则将缩放因子z增加1，若Hped>Hθ_max，则将缩放因子z减少1，其它情况则保持缩放因子不变；重复检测下一帧视频，直至整段视频检测完毕。

【技术特征摘要】
1.一种实时行人检测方法，其特征在于，根据视频中行人的尺寸自动对视频帧进行分割，在单幅视频帧上进行单次迭代，输出行人目标框及行人置信度分数；包括如下步骤：确定算法中网络接收视频的默认分辨率：Hd×Wd×3，其中Hd、Wd分别指图像的高度和宽度，3指图像包含的色彩通道数；读取当前帧I，分辨率为H×W×3；根据缩放因子z的值，决定当前帧I的分割块数B；根据缩放因子z和分割块数B，调整当前帧I的尺寸为H′×W′；归一化调整尺寸后的帧中个像素值；分割归一化后的帧为B个子图像；将当前帧分割得到的子图像按照(B，Hd，Wd，3)的维度排列，进行特征提取，并得到特征图的行人目标框坐标和该框对应的置信度；从目标框中筛选有效框，保留的目标框及其对应的行人类别置信度即可作为行人检测的输出结果；计算当前帧中检测到的所有行人的平均高度Hped，并设定最低和最高阈值Hθ_min和Hθ_max，若Hped＜Hθ_min，则将缩放因子z增加1，若Hped>Hθ_max，则将缩放因子z减少1，其它情况则保持缩放因子不变；重复检测下一帧视频，直至整段视频检测完毕。2.根据权利要求1所述的实时行人检测方法，其特征在于，所述确定当前帧I的分割块数B的具体方法为：3.根据权利要求2所述的实时行人检测办法，其特征在于，对于第一帧图像，将缩放因子z初始化为0。4.根据权利要求1所述的实时行人检测办法，其特征在于，所述根据缩放因子z及分割块数B，调整当前帧I尺寸的方法具体为：当B＝1时，使H′＝Hd、W′＝Wd；当B＝2时，使H′＝Hd、当B>2时，使5.根据权利要求1所述的实时行人检测办法，其特征在于，所述归一化调整尺寸后的帧是将调整尺寸后的帧中各像素值除以像素取值上限，使其归一化到区间[0，1]。6.根据权利要求1所述的实时行人检测办法，其特征在于，将归一化后的帧分割成B个子图像，具体包含以下3种情况：当B＝1时，不作分割，整帧输入到网络模型中；当B＝2时，将帧垂直分割成两部分，，用x和y分别表示当前帧I中像素的行列坐标，则其中一部分为Il＝I(...

【专利技术属性】
技术研发人员：胡永健，阿尔法西·萨吉尔·艾哈迈德·萨吉尔，刘琲贝，王宇飞，
申请(专利权)人：华南理工大学，中新国际联合研究院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人