一种基于区域全卷积神经网络的人体目标检测方法技术

技术编号:15691487 阅读:185 留言:0更新日期:2017-06-24 04:44
本发明专利技术公开了一种基于区域全卷积神经网络的人体目标检测方法,标定人体目标上半身即人体头肩模型位置为标定框,这样减少了人体目标被遮挡的概率,减小了漏检率;同时,设定不同的五个图像尺度进行转换,以及选用{0.8,1.2}两个不同比例的宽高比和{48,96,144,192,240}五个不同比例尺度作为生成anchors的规则,进一步减小了漏检率。此外,本发明专利技术还通过计算一幅人体目标图像各区域候选框损失值,并选取损失值最大前B区域候选框作为难例样本,其损失值反馈到区域全卷积神经网络模型中,使用随机梯度下降法更新区域全卷积神经网络模型的参数,以提高复杂场景下的人体目标检测的准确率,减少漏检率和误检率。

A method of human target detection based on region total convolutional neural network

The invention discloses a detection method of human target area based on convolutional neural network calibration, human target upper body human head shoulder model position for the calibration frame, thus reducing the probability of human target is blocked, reducing the failure rate; at the same time, set five different scale image conversion, and the selection of {0.8,1.2} two different ratio of width to height ratio and {48,96144192240} five different scale as anchors generation rules, to further reduce the false negative rate. In addition, the invention also through a human target image of the candidate frame loss value, and selects the largest loss value before the B candidate frame as difficult samples, the loss of feedback to the regional convolutional neural network model parameters, using a stochastic gradient descent method to update regional convolution neural network model, in order to improve the accuracy of human target detection under complex scene, reduce the false detection rate and.

【技术实现步骤摘要】
一种基于区域全卷积神经网络的人体目标检测方法
本专利技术属于计算机视觉、模式识别、机器学习等
,更为具体地讲,涉及在监控场景下一种基于区域全卷积神经网络的人体目标检测方法。
技术介绍
近年来,随着科技的进步,各个行业开始越来越关注安全问题。在银行、机场、地铁、车站、小区等重要区域以及公共场所,人们都安装了监控摄像头进行视频监控。这些监控摄像头一般都安装在较高的位置,以俯视的角度进行监控。而我们所说的监控场景即是指在这种情景下拍摄的监控画面。一般情况下,人是监控场景的主体,对人体目标的跟踪和后续的行为识别分析严重依赖于人体目标检测的精度,因此如何在监控场景下准确检测人体目标已经成为学术界和工业界广泛关注的热点之一。早期的研究者一般将人体目标检测问题分为两个步骤来解决,首先是基于手工设计的模型进行特征提取,然后基于目标特征设计分类器训练检测模型。比如,Viola和Jones将采用haar小波特征,结合adaboost级联分类器的VJ模型应用于人体目标检测中。具体算法原理参见:ViolaP,JonesMJ,SnowD.Detectingpedestriansusingpatternsofmotionandappearance[C].ComputerVision,2003.Proceedings.NinthIEEEInternationalConferenceon.IEEE,2003:734-741。DalalN与TriggsB提出了一种基于梯度直方图(HistogramsofOrientedGradients,HOG)特征和支持向量机(SupportVectorMachine,SVM)框架的人体目标检测方法,具体算法原理参见:DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection[C].ComputerVisionandPatternRecognition,2005.CVPR2005.IEEEComputerSocietyConferenceon.IEEE,2005,1:886-893。这些方法在简单监控场景下对人体目标检测取得了较好的结果,但是对于复杂的监控场景下的人体目标检测结果还是不能满足我们的实际需求。随着最近几年深度学习的兴起,基于深度学习的方法在图像分类领域取得了优异的成绩。很多研究者基于此也尝试将深度学习应用于目标检测领域。Ren,Shaoqing提出了一种快速区域卷积神经网络(Fasterr-cnn)的方法,将人体目标检测问题分为三个阶段,首先是获取人体目标区域候选框,然后是使用卷积神经网络进行目标特征提取,最后目标特征进行分类训练得到模型。相较于传统的人体目标检测方法,提高了57%的检测准确率。具体算法原理可以参见文献:Ren,Shaoqing,etal."Fasterr-cnn:Towardsreal-timeobjectdetectionwithregionproposalnetworks."Advancesinneuralinformationprocessingsystems.2015。随后,JifengDai和YiLi等提出了一种基于区域全卷积网络(R-FCN)的检测模型,具体算法原理可以参见文献[4]:DaiJ,LiY,HeK,etal.R-FCN:ObjectDetectionviaRegion-basedFullyConvolutionalNetworks[J].2016。R-FCN方法使用了一种位置敏感得分图来处理图像检测中的平移变换性的问题,使得该网络可以基于整幅图片进行全卷积计算,这种方法可以有效的降低网络模型的训练时间和检测时间。同时该模型使用残差网络(ResNet)作为自己的特征提取模型。在通用的目标检测平台PascalVOC上,相较于Fasterr-cnn,R-FCN不仅提高了目标检测的准确率同时也降低了目标检测的时间。虽然R-FCN方法在通用的目标检测以及人体目标检测方面取得了较好的检测结果,但也还存在着一些问题,比如当人体目标之间存在遮挡时,存在将两人检测为单人的情况,造成漏检,以及当人体目标尺度较小时,存在漏检等检测失败的情况。此外,对于一些复杂的监控场景中的人体目标,比如:背景复杂、人体目标数量较多、人体遮挡比较严重这样的监控场景,现有人体目标检测方法还存在着一定程度的漏检和误检。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出一种基于区域全卷积神经网络的人体目标检测方法,以进一步减少漏检率和误检率,提高检测准确率。为实现上述专利技术目的,本专利技术基于区域全卷积神经网络的人体目标检测方法,其特征在于,包括以下步骤:(1)、采集不同监控场景、不同角度的人体目标图像,然后对于每一张采集的人体目标图像,标定人体目标上半身的所在位置作为人体目标的标定框,标定了人体目标标定框的人体目标图像构成训练集;人体目标图像不仅包含单一人体目标的简单场景,也包含一些遮挡较为严重,人员数量较多的复杂情景;(2)、设置五个不同的图像尺度,对于训练集中的每一幅人体目标图像,随机选择一个图像尺度,将人体目标图像的短边缩放到该尺度下之后输入到残差网络(ResidualNetwork)进行卷积运算,得到卷积特征;(3)、将卷积特征输入到区域候选网络(RegionProposalNetwork,简称RPN),生成区域候选框;其中,生成区域候选框时所需锚(anchors),选用{0.8,1.2}两个不同比例的宽高比和{48,96,144,192,240}五个不同比例尺度作为生成anchors的规则;(4)、根据卷积特征、区域候选框,计算位置敏感得分图,得到区域候选框为正候选框的概率Si以及负候选框的概率Sj;同时,根据人体目标标定框,得到区域候选框的真实类别概率S;其中,区域候选框与真实的人体目标标定框的交并比大于等于0.5时,判定区域候选框为正候选框样本,真实类别概率S为1;当候选框与真实的人体目标标定框的交并比小于0.5时,判定区域候选框为负候选框样本,真实类别概率S为0;(5)、采用区域候选框的交叉熵损失值作为区域候选框的分类损失值Lcls,其具体计算公式如下:采用区域候选框的一阶平滑损失值作为区域候选框的回归损失值Lreg,其具体计算公式如下:Lreg=smoothL1(x*-x)+smoothL1(y*-y)+smoothL1(w*-w)+smoothL1(h*-h)(2),其中,x和y表示区域候选框的左上位置坐标,w和h分别表示区域候选框的宽和高,x*和y*表示真实的人体目标标定框的左上位置坐标,w*和h*分别表示真实的人体目标标定框的宽和高;其中,一阶平滑函数smoothL1计算公式下:其中,σ根据具体监控场景确定,一般取3.0,z为公式(2)中括号内的差值;(6)、对于每一个区域候选框,计算出其损失值,其计算公式如下:其中,λ是分类损失与回归损失之间的平衡因子,根据具体实施情况确定,通常取值为1;(7)、对人体目标图像,根据步骤(4)、(5),得到每一个区域候选框计算损失值,将区域候选框损失值进行排序,选择损失值最大的前B个区域候选框作为难例样本,然后将这些难例样本的损失值,反馈到区域全卷积神经本文档来自技高网
...
一种基于区域全卷积神经网络的人体目标检测方法

【技术保护点】
一种基于区域全卷积神经网络的人体目标检测方法,其特征在于,包括以下步骤:(1)、采集不同监控场景、不同角度的人体目标图像,然后对于每一张采集的人体目标图像,标定人体目标上半身的所在位置作为人体目标的标定框,标定了人体目标标定框的人体目标图像构成训练;人体目标图像不仅包含单一人体目标的简单场景,也包含一些遮挡较为严重,人员数量较多的复杂情景;(2)、设置五个不同的图像尺度,对于训练集中的每一幅人体目标图像,随机选择一个图像尺度,将人体目标图像的短边缩放到该尺度下之后输入到残差网络(Residual Network)进行卷积运算,得到卷积特征;(3)、将卷积特征输入到区域候选网络(Region Proposal Network,简称RPN),生成区域候选框;其中,生成区域候选框时所需锚(anchors),选用{0.8,1.2}两个不同比例的宽高比和{48,96,144,192,240}五个不同比例尺度作为生成anchors的规则;(4)、根据卷积特征、区域候选框,计算位置敏感得分图,得到区域候选框为正候选框的概率S

【技术特征摘要】
1.一种基于区域全卷积神经网络的人体目标检测方法,其特征在于,包括以下步骤:(1)、采集不同监控场景、不同角度的人体目标图像,然后对于每一张采集的人体目标图像,标定人体目标上半身的所在位置作为人体目标的标定框,标定了人体目标标定框的人体目标图像构成训练;人体目标图像不仅包含单一人体目标的简单场景,也包含一些遮挡较为严重,人员数量较多的复杂情景;(2)、设置五个不同的图像尺度,对于训练集中的每一幅人体目标图像,随机选择一个图像尺度,将人体目标图像的短边缩放到该尺度下之后输入到残差网络(ResidualNetwork)进行卷积运算,得到卷积特征;(3)、将卷积特征输入到区域候选网络(RegionProposalNetwork,简称RPN),生成区域候选框;其中,生成区域候选框时所需锚(anchors),选用{0.8,1.2}两个不同比例的宽高比和{48,96,144,192,240}五个不同比例尺度作为生成anchors的规则;(4)、根据卷积特征、区域候选框,计算位置敏感得分图,得到区域候选框为正候选框的概率Si以及负候选框的概率Sj;同时,根据人体目标标定框,得到区域候选框的真实类别概率S;其中,区域候选框与真实的人体目标标定框的交并比大于等于0.5时,判定区域候选框为正候选框样本,真实类别概率S为1;当候选框与真实的人体目标标定框的交并比小于0.5时,判定区域候选框为负候选框样本,真实类别概率S为0;(5)、采用区域候选框的交叉熵损失值作为区域候选框的分类损失值Lc...

【专利技术属性】
技术研发人员:邹见效周雪徐红兵刘鹏飞
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1