基于级联卷积神经网络的目标检测方法技术

技术编号:17049298 阅读:115 留言:0更新日期:2018-01-17 18:10
本发明专利技术涉及一种基于级联卷积神经网络的目标检测方法,其主要技术特点是:利用卷积神经网络提取图像特征,并使用区域候选网络生成一定数量的目标候选框;使用优化网络对候选框进行优化;将优化后的目标候选框输入含多分类器的检测网络中,产生初步的检测结果;利用二值分类器对每一类目标进行再检测,排除错误目标得到最终精确的检测结果。本发明专利技术利用深度卷积网络对目标的强大的表示能力,构建了用于目标检测的级联卷积神经网络,提出了一种新的优化目标候选框的方法和排除错误检测样本的策略,提高了算法的检测精度,能够获得了良好的目标检测结果。

Target detection method based on concatenated convolution neural network

The invention relates to a detection method of cascaded convolutional neural network based on the main technical features are: image feature extraction using convolutional neural network, and generates a certain number of candidate target regions using the candidate network frame; using network optimization to optimize the candidate frame; the target candidate optimized frame input detection network with multi classifier in the preliminary results of the detection; using two binary classifier and detection of each kind of target, to eliminate the false target to get final results accurate. The invention utilizes convolutional neural networks to target the powerful representation ability for concatenated convolutional neural network target detection was established, proposed a method to optimize the new candidate target frame error detection and elimination of sample strategy, improve the detection accuracy of the algorithm, to obtain the target detection result is good.

【技术实现步骤摘要】
基于级联卷积神经网络的目标检测方法
本专利技术属于视觉目标检测
,尤其是一种基于级联卷积神经网络的目标检测方法。
技术介绍
在人类每天感知到的信息中,80%以上来源于视觉。图像作为多媒体的重要组成部分,承载着直观而又丰富的信息,因此图像处理技术是多媒体
的重要组成部分。计算机视觉是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等行为,并进一步处理成为更适合人眼观察或传送给仪器检测的图像。目标检测作为计算机视觉的重要研究课题之一,被广泛应用于视频监控、自动驾驶、增强现实和智能交互等各个领域,具有广阔的应用前景。目标检测技术是通过提取图像或视频中目标的特征进行分析,将目标识别出来,并以包围框(BoundingBox)的形式将其标示出,进一步去完成跟踪、理解等后续任务。目标检测作为计算机视觉的基础任务,其性能的好坏将直接影响后续的目标跟踪、动作识别以及行为理解等中高级任务的性能。然而目标通常具有不同的形态、颜色、光亮和遮挡等多变因素,目标所处的场所环境也缤纷复杂,这些因素使得基于计算机视觉的目标检测面临着巨大的挑战。在深度学习广泛应用于计算机视觉领域之前,基于滑动窗的DPM模型(P.Felzenszwalb,R.Girshick,D.McAllester,andD.Ramanan,“Objectdetectionwithdiscriminativelytrainedpart-basedmodels,”TPAMI,vol.32,no.9,pp.1627–1645,2010)一直是主流方法,其采用复杂的人工特征提取方法,比如方向梯度直方图(HOG)、尺度不变特征转换(SIFT)、局部二值模式特征(LBP)等,来获得与目标有关的信息表达,并在所提取的特征信息上训练分类器和回归器从而实现目标检测。随着计算机计算能力的大幅提高和大规模数据集的产生,深度学习应运而生,也使得目标检测技术取得了十足的进步。目前流行的目标检测算法均使用卷积神经网络来进行特征提取。卷积神经网络广泛应用于计算机视觉领域主要源于2012年Krizhevsky等人提出的AlexNet(A.Krizhevsky,I.Sutskever,andG.E.Hinton,“Imagenetclassificationwithdeepconvolutionalneuralnetworks,”pp.1097–1105,2012)在ILSVRC2012竞赛中取得冠军,AlexNet成为卷积神经网络在图像分类上的经典模型。AlexNet由5层卷积层和3层全连接层构成,卷积层主要用于提取目标特征,全连接层用于对目标的分类,这一模型的精度显著高于当时基于传统手工特征的算法。之后Girshick等人将卷积神经网络应用于目标检测技术,提出了经典的R-CNN算法(R.Girshick,J.Donahue,T.Darrell,andJ.Malik,“Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation,”pp.580–587,2014)。R-CNN算法虽然在检测精度上表现优异,但是候选框的产生需要耗费大量时间。Ren等人为了提高检测速度对R-CNN做出了改进提出了FasterR-CNN算法(S.Ren,K.He,R.Girshick,andJ.Sun,“Fasterr-cnn:Towardsreal-timeobjectdetectionwithregionproposalnetworks,”inNIPS,2015,pp.91–99),使得目标候选框也能够由卷积神经网络生成。为了进一步提高检测速度,实现在实时视频上的目标检测,Redmon等人提出一种基于单一卷积神经网络的目标检测算法YOLO(J.Redmon,S.Divvala,R.Girshick,andA.Farhadi,“Youonlylookonce:Unified,real-timeobjectdetection,”arXivpreprintarXiv:1506.02640,2015)。对于一张输入图像,YOLO可以直接输出目标类别置信度以及目标位置,像人眼一样,能够做到看一眼图像就知道目标是什么以及目标在哪,YOLO等算法的出现使得实时目标检测成为可能,并将目标检测的实际应用向前推动了一大步。然而单一网络的目标检测模型在检测精度上依然逊于基于区域候选框的目标检测模型。虽然目标检测算法经过了几十年的发展已经取得了不错的效果,卷积神经网络的出现更是将目标检测精度提升了很多,但是仍然存在诸如如何提高区域候选框的召回率,目标定位误差大,背景干扰多等问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出一种设计合理、精度高且稳定性强的基于级联卷积神经网络的目标检测方法。本专利技术解决其技术问题是采取以下技术方案实现的:一种基于级联卷积神经网络的目标检测方法,包括以下步骤:步骤1、利用卷积神经网络提取图像特征,并使用区域候选网络生成一定数量的目标候选框;步骤2、使用优化网络对步骤1产生的目标候选框进行优化;步骤3、将优化后的目标候选框输入含多分类器的检测网络中,产生初步的检测结果;步骤4、利用二值分类器对每一类目标进行再检测,排除错误目标得到最终精确的检测结果。所述步骤1的具体方法包括以下步骤:⑴将带有目标真实边框的图片输入到卷积神经网络,产生相应的特征图;⑵在最后一层特征图上利用区域候选网络生成6000个目标候选框;⑶利用非最大化抑制方法,将交除并值设置为0.7,最终产生2000个目标候选框。所述步骤2的具体实现方法包含以下步骤:⑴将步骤1产生的2000目标候选框进行卷积层处理;⑵进行目标区域池化处理,并利用分类器对目标候选框打分;回归器回归候选框位置,并根据分数排序;⑶根据得分选择前1000个目标候选框,并重复步骤⑵至⑶;⑷经过多次迭代后,选择前200个目标候选框作为最终的目标候选框集合。所述步骤3的具体实现方法包括以下步骤:⑴将优化后的目标候选框输入到检测网络中,进行池化处理;⑵经过一层全连接层后,使用softmax分类器对候选框进行多分类,类别数量为N+1,其中N为目标类别数,1为背景;⑶得到初步检测结果,每个目标边框包括如下五个值:x,y,w,h,c,其中x,y表示边框中心的坐标,w和h分别表示边框的宽度和高度,c表示目标置信度。所述步骤4的具体实现方法包括以下步骤:⑴将初步检测结果继续经过一组池化层和全连接层处理;⑵对于每一类目标训练一个二值分类器,其中二值分类器与N+1分类器共享卷积层参数;⑶将上一步检测结果依次输入N个二值分类器,去除一些背景干扰导致的错误目标后,得到最终的检测结果。本专利技术的优点和积极效果是:1、本专利技术采用级联卷积神经网络优化区域候选网络生成的目标候选框,能够提高候选框的定位精度,并为每一个目标类别设计了一个二值分类器,使得所提取的特征能够表示更多的类内差异。其使用区域候选网络在输入图像上生成上千个目标候选框,再使用优化网络对目标候选框进行优化,然后利用多类别分类器对目标候选框进行分类,最后利用二值分类器排除一些错误目标得到最终精确的检测结果。2、本专利技术利用深度卷积网络对目标的强大本文档来自技高网
...
基于级联卷积神经网络的目标检测方法

【技术保护点】
一种基于级联卷积神经网络的目标检测方法,其特征在于包括以下步骤:步骤1、利用卷积神经网络提取图像特征,并使用区域候选网络生成一定数量的目标候选框;步骤2、使用优化网络对步骤1产生的目标候选框进行优化;步骤3、将优化后的目标候选框输入含多分类器的检测网络中,产生初步的检测结果;步骤4、利用二值分类器对每一类目标进行再检测,排除错误目标得到最终精确的检测结果。

【技术特征摘要】
1.一种基于级联卷积神经网络的目标检测方法,其特征在于包括以下步骤:步骤1、利用卷积神经网络提取图像特征,并使用区域候选网络生成一定数量的目标候选框;步骤2、使用优化网络对步骤1产生的目标候选框进行优化;步骤3、将优化后的目标候选框输入含多分类器的检测网络中,产生初步的检测结果;步骤4、利用二值分类器对每一类目标进行再检测,排除错误目标得到最终精确的检测结果。2.根据权利要求1所述的基于级联卷积神经网络的目标检测方法,其特征在于:所述步骤1的具体方法包括以下步骤:⑴将带有目标真实边框的图片输入到卷积神经网络,产生相应的特征图;⑵在最后一层特征图上利用区域候选网络生成6000个目标候选框;⑶利用非最大化抑制方法,将交除并值设置为0.7,最终产生2000个目标候选框。3.根据权利要求1所述的基于级联卷积神经网络的目标检测方法,其特征在于:所述步骤2的具体实现方法包含以下步骤:⑴将步骤1产生的2000个目标候选框进行卷积层处理;⑵进行目标区域池化处理,并利用分类器对目标候选框打分;回归器回归候选框位...

【专利技术属性】
技术研发人员:郭亚婧郭晓强周芸姜竹青门爱东
申请(专利权)人:国家新闻出版广电总局广播科学研究院北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1