通过提高目标分类和定位准确度改善目标检测性能的方法技术

技术编号:16500980 阅读:31 留言:0更新日期:2017-11-04 11:44
本发明专利技术涉及一种通过提高目标分类和定位准确度改善目标检测性能的方法,其主要技术特点是:根据卷积神经网络架构提取图像特征,并选择卷积层前M层输出进行特征融合,形成多特征的特征图;在卷积层M上进行网格划分,在每个网络中预测固定数目和大小的目标候选框;将候选框映射到特征图上进行裁剪,然后将裁剪结果进行多特征连接;将上述结果通过全连接层后,通过Softmax分类算法对图像特征进行分类,并用重叠面积损失函数进行在线迭代回归定位,得到最终目标检测的结果。本发明专利技术设计合理,通过卷积神经网络提取特征,并对图像特征进行多层融合,最后使用Softmax分类算法对图像特征进行分类,并采用重叠面积损失函数进行定位,获得了良好的目标检测结果。

Method of detection performance improvement goals by improving the accuracy of target classification and localization

The invention relates to a method for improving the accuracy of target detection performance improves target classification and localization by, its main technical characteristics are: according to the architecture of convolutional neural network image feature extraction, and select the layer M layer convolution output feature fusion, feature map form feature; mesh in convolution layer M, forecast the target candidate fixed number and the size of the box in each network; the candidate frame is mapped to a feature graph cut, and then cut the multi feature connection; the results through the whole connection layer, through the Softmax classification algorithm to classify the image features, and online Iterative Regression positioning in the overlapping area of loss function. To get the final detection result. The invention has reasonable design, through convolution neural network feature extraction, and the image features of multi-layer fusion, and finally use the Softmax classification algorithm to classify the image features, and the overlapping area loss function positioning, target are obtained good results.

【技术实现步骤摘要】
通过提高目标分类和定位准确度改善目标检测性能的方法
本专利技术属于目标检测
,尤其是一种通过提高目标分类和定位准确度改善目标检测性能的方法。
技术介绍
人类在物质世界的感知工程中,有80%以上的信息来源于视觉。而图像是在某种意义上对客观实际的一种反映,它以不同的模式向人类传递信息,并且它作为一种重要的信息载体,具有直观、内容丰富和便于交流等特点,是多媒体的重要组成内容,因此,基于图像处理技术的各种应用就应运而生。图像目标识别与检测技术就是其中最典型的应用技术。计算机视觉研究目的是用计算机来实现人类对客观世界的感知、识别和理解,目标检测(ObjectDetection)是计算机视觉中最常见的问题,且在计算机视觉理论研究领域受到了广泛关注,具有广阔的应用前景。当机器“睁”开双眼看世界时,需要判断它的视野内存在哪些目标、分别是什么、在什么位置。基于视觉的目标检测是图像处理、计算机视觉、模式识别等众多学科的交叉研究课题。目标检测的目的是从不同复杂程度的背景中辨识出目标,并以包围框(BoundingBox)的形式将其标示出,从而完成跟踪、识别等后续任务。因此,目标检测是高层理解与应用的基础任务,其性能的好坏将直接影响后续的目标跟踪、动作识别以及行为理解等中高层任务的性能。尤其是在复杂场景中,需要对多个目标进行实时处理时,目标自动提取和识别就显得特别重要。因此,目标检测与识别是图像分析和理解的基础,深入研究目标检测与识别算法,在学术界和工业界都有着非常重要的意义。然而对于机器而言,由于复杂的识别背景和目标本身的动态变化增加了目标识别的难度,庞大的系统参数和高维的矩阵运算占用大量的处理时间,目标检测和识别还存在较大的问题,如识别的准确度、实时性都有待于提高。目标检测的主要任务是对图像序列中的目标物体进行自动检测,包括判断类别和识别位置。当今流行的目标检测算法,首先在一张图片上生成1K-2K的候选框,然后对于每个候选框使用CNN卷积神经网络提取特征,其次将特征输入每一类的SVM分类器或Softmax分类器来判断目标是否属于该类,最后使用回归器修正候选框的位置实现目标的精准定位。传统的目标检测算法采用SIFT、HOG和LBP等特征,通过寻找图片中具有平移、仿设、旋转等变换情况下的不变特征点实现图像间的匹配,从而实现目标检测。然而提取特征的好坏直接影响到分类的准确性,由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒的特征并不是那么容易,传统特征的适应能力并不强。而基于CNN卷积神经网络的特征提取具有很好的鲁棒性,卷积神经网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。提取特征的CNN模型经过预先训练得到,预训练基于ILVCR2012计算机视觉识别挑战赛的全部数据集进行训练,然后针对预训练模型基于PASCALVOC2007训练集进行调优训练,从而实现通过CNN网络提取图片特征。深度学习广泛应用于目标检测源于Alex等人提出的深度卷积神经网AlexNet网络架构,该框架在ILSVRC2012比赛中取得了非常好的成绩,此后,卷积神经网络被广泛应用于各类图像相关领域。GeoffreyHinton设计的AlexNet是一个8层CNN架构,包括5个卷积层和3个全连接层,将当时最好算法的错误率减半,它证明了CNN在复杂模型下的有效性,且GPU使得训练在可接受的时间范围内得到结果。在2014年,ChristianSzegedy提出了GoogleNet架构在ILSVRC2014分类比赛中取得第一名,与AlexNet不同的是:GoogleNet的深度(层数)更深,宽度(层核或者神经元数)更宽。同年,AndrewZisserman提出的VGG-Net架构在ILSVRC2014定位比赛中取得第一名,与AlexNet不同的是:VGG-Net使用更多的层,通常有16-19层。在2015年,KaimingHe提出的Res-Net架构在ILSVRC2015分类和定位比赛中取得第一名,该模型采用了152层的深层卷积神经网络。Hinton教授的成功,吸引了国内外大量学者的关注;同时,工业界加入深度学习的研究中来,百度、google、facebook纷纷建立深度学习实验室,通过深度学习,进行图像识别与分类。虽然研究人员提出了很多基于深度学习卷积神经网络的目标检测算法,这些算法也取得了良好的效果,但是仍有许多方面有待改进,如图片背景复杂、网络输入尺寸固定、候选框过多、训练速度慢、消耗电脑内存、小物体检测不准确、步骤繁琐和定位不精准等问题。
技术实现思路
本专利技术的目地在于克服现有技术的不足,提出一种设计合理、精度高且稳定性强的通过提高目标分类和定位准确度改善目标检测性能的方法。本专利技术解决其技术问题是采取以下技术方案实现的:一种通过提高目标分类和定位准确度改善目标检测性能的方法,包括以下步骤:步骤1、根据卷积神经网络架构提取图像特征,并选择卷积层前M层输出进行特征融合,形成多特征的特征图;步骤2、在卷积层M上进行网格划分,在每个网络中预测固定数目和大小的目标候选框;步骤3、将候选框映射到特征图上进行裁剪,然后将裁剪结果进行多特征连接;步骤4、将上述结果通过全连接层后,通过Softmax分类算法对图像特征进行分类,并用重叠面积损失函数进行在线迭代回归定位,得到最终目标检测的结果。所述步骤1的具体方法包括以下步骤:⑴首先将带有物体真实包围框的图片输入到卷积神经网络架构中,通过Caffe提取图像通过卷积神经网络不同层的特征;⑵将靠前的卷积层输出的图像特征进行最大池化操作,并将卷积层M输出的图像特征进行反卷积操作,实现输出的尺寸都与中间卷积层的输出特征大小一致;⑶最后将所有卷积层输出的特征进行融合,得到图像的多特征提取的特征图。所述步骤2的实现方法包括以下步骤:⑴在卷积层M输出的特征图上进行6*6的网格划分;⑵在每个单个的网络小格正中间预测4个可能包含物体的候选框,这4个候选框具有固定的大小和长宽比,长宽比分别为1:1、1:2和2:1,仅对于1:1长宽比的候选框,设定2种候选框大小0.6和0.9;⑶在网络训练的过程中,我们将物体的真实包围框和候选框进行匹配,通过二者的IOU重叠面积大于等于0.7进行筛选,并删除掉超出图像边界的候选框;⑷最后在卷积层M的特征图上生成了100个候选框。所述步骤3的实现方法包括以下步骤:⑴根据卷积层M的特征图上生成的100个候选框,根据其所在位置映射相应的多层特征图上,并在多层特征图上进行相应的裁剪;⑵将裁剪后的特征图方块做1*1卷积,然后对卷积结果分别进行3*3卷积和5*5卷积;⑶为了获取全文信息,将多层特征图经过最大池化层,然后经过1*1卷积层和激活层;⑷将1*1卷积、3*3卷积、5*5卷积和全文信息的卷积输出结果按照前后顺序进行连接,形成候选框的多特征连接。所述步骤4的具体实现方法包括以下步骤:⑴通过全连接层后,通过Softmax分类算法对图像特征进行分类,基于目标检测的数据集,每类物体具有自己相应的精度;⑵通过重叠面积损失函数对候选框进行回归定位,使得候选框更加靠近物体的真实包围框,该损失函数为候选框和真实包围框的交集面积除以并集面积;本文档来自技高网
...
通过提高目标分类和定位准确度改善目标检测性能的方法

【技术保护点】
一种通过提高目标分类和定位准确度改善目标检测性能的方法,其特征在于包括以下步骤:步骤1、根据卷积神经网络架构提取图像特征,并选择卷积层前M层输出进行特征融合,形成多特征的特征图;步骤2、在卷积层M上进行网格划分,在每个网络中预测固定数目和大小的目标候选框;步骤3、将候选框映射到特征图上进行裁剪,然后将裁剪结果进行多特征连接;步骤4、将上述结果通过全连接层后,通过Softmax分类算法对图像特征进行分类,并用重叠面积损失函数进行在线迭代回归定位,得到最终目标检测的结果。

【技术特征摘要】
1.一种通过提高目标分类和定位准确度改善目标检测性能的方法,其特征在于包括以下步骤:步骤1、根据卷积神经网络架构提取图像特征,并选择卷积层前M层输出进行特征融合,形成多特征的特征图;步骤2、在卷积层M上进行网格划分,在每个网络中预测固定数目和大小的目标候选框;步骤3、将候选框映射到特征图上进行裁剪,然后将裁剪结果进行多特征连接;步骤4、将上述结果通过全连接层后,通过Softmax分类算法对图像特征进行分类,并用重叠面积损失函数进行在线迭代回归定位,得到最终目标检测的结果。2.根据权利要求1所述的通过提高目标分类和定位准确度改善目标检测性能的方法,其特征在于:所述步骤1的具体方法包括以下步骤:⑴首先将带有物体真实包围框的图片输入到卷积神经网络架构中,通过Caffe提取图像通过卷积神经网络不同层的特征;⑵将靠前的卷积层输出的图像特征进行最大池化操作,并将卷积层M输出的图像特征进行反卷积操作,实现输出的尺寸都与中间卷积层的输出特征大小一致;⑶最后将所有卷积层输出的特征进行融合,得到图像的多特征提取的特征图。3.根据权利要求1所述的通过提高目标分类和定位准确度改善目标检测性能的方法,其特征在于:所述步骤2的实现方法包括以下步骤:⑴在卷积层M输出的特征图上进行6*6的网格划分;⑵在每个单个的网络小格正中间预测4个可能包含物体的候选框,这4个候选框具有固定的大小和长宽比,长宽比分别为1:1、1:2和2:1,仅对于1:1长宽比的候选框,设定2种候选框大小0.6和0.9;⑶在网...

【专利技术属性】
技术研发人员:娄英欣周芸付光涛姜竹青门爱东
申请(专利权)人:国家新闻出版广电总局广播科学研究院北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1