基于多特征提取和多任务融合的目标检测算法制造技术

技术编号:17655709 阅读:28 留言:0更新日期:2018-04-08 08:48
本发明专利技术涉及一种基于多特征提取和多任务融合的目标检测算法,其技术特点是:基于深度学习卷积神经网络架构提取图像特征,提取多层卷积输出结果形成多特征图,在多特征图上提取不同可视野的目标感兴趣区域并进行特征连接;对原图实现语义分割提取目标分割区域结果,并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测;上述结果通过最后的全连接层后,通过组合分类定位损失函数对图像特征进行分类和回归定位,得到最终目标检测的结果。本发明专利技术通过深度学习卷积神经网络提取特征、对图像特征进行多组多层融合连接及组合损失函数实现了高精度的目标检测定位和分类,获得了良好的目标检测结果。

【技术实现步骤摘要】
基于多特征提取和多任务融合的目标检测算法
本专利技术属于目标检测
,尤其是一种基于多特征提取和多任务融合的目标检测算法。
技术介绍
目标检测的主要任务是对图像序列中的目标物体进行自动检测,包括分类和定位。目前流行的目标检测算法,首先在一张图片上生成1K-2K的候选框,然后对于每个候选框使用CNN卷积神经网络提取特征,其次将特征输入每一类的SVM分类器或Softmax分类器来判断目标是否属于该类,最后使用回归器修正候选框的位置实现目标的精准定位。传统的目标检测算法采用SIFT、HOG和LBP等特征,通过寻找图片中具有平移、仿设、旋转等变换情况下的不变特征点实现图像间的匹配,从而实现目标检测。然而提取特征的好坏直接影响到分类的准确性,由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒的特征并不是那么容易,传统特征的适应能力并不强。而基于CNN卷积神经网络的特征提取具有很好的鲁棒性,卷积神经网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。提取特征的CNN模型经过预先训练得到,预训练基于ILVCR2012计算机视觉识别挑战赛的全部数据集进行训练,然后针对预训练模型基于PASCALVOC2007训练集进行调优训练,从而实现通过CNN网络提取图片特征。深度学习广泛应用于目标检测源于Alex等人提出的深度卷积神经网AlexNet网络架构,该框架在ILSVRC2012比赛中取得了非常好的成绩,此后,卷积神经网络被广泛应用于各类图像相关领域。GeoffreyHinton设计的AlexNet是一个8层CNN架构,包括5个卷积层和3个全连接层,将当时最好算法的错误率减半,其证明了CNN在复杂模型下的有效性,且GPU使得训练在可接受的时间范围内得到结果。在2014年,ChristianSzegedy提出了GoogleNet架构在ILSVRC2014分类比赛中取得第一名,与AlexNet不同的是:GoogleNet的深度(层数)更深,宽度(层核或者神经元数)更宽。同年,AndrewZisserman提出的VGG-Net架构在ILSVRC2014定位比赛中取得第一名,与AlexNet不同的是:VGG-Net使用更多的层,通常有16-19层。在2015年,KaimingHe提出的Res-Net架构在ILSVRC2015分类和定位比赛中取得第一名,该模型采用了152层的深层卷积神经网络。Hinton教授的成功,吸引了国内外大量学者的关注;同时,工业界加入深度学习的研究中来,百度、google、facebook纷纷建立深度学习实验室,通过深度学习,进行图像识别与分类。虽然研究人员提出了很多基于深度学习卷积神经网络的目标检测算法,这些算法也取得了良好的效果,但是仍有许多方面有待改进,如图片背景复杂、网络输入尺寸固定、候选框过多、训练速度慢、消耗电脑内存、小物体检测不准确、步骤繁琐和定位不精准等问题。
技术实现思路
本专利技术的目地在于克服现有技术的不足,提出一种设计合理、精度高且稳定性强的基于多特征提取和多任务融合的目标检测算法。本专利技术解决其技术问题是采取以下技术方案实现的:一种基于多特征提取和多任务融合的目标检测算法,包括以下步骤:步骤1、基于深度学习卷积神经网络架构提取图像特征,提取多层卷积输出结果形成多特征图,并在多特征图上提取不同可视野的目标感兴趣区域,对提取的目标感兴趣区域进行特征连接;步骤2、对原图实现语义分割提取目标分割区域结果,并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测;步骤3、上述结果通过最后的全连接层后,通过组合分类定位损失函数对图像特征进行分类和回归定位,得到最终目标检测的结果。所述深度学习卷积神经网络架构为VGG-16卷积神经网络架构。所述步骤1的具体实现方法包括以下步骤:⑴将带有物体真实包围框的图片输入到目标检测卷积神经网络架构中,使用Caffe框架提取图像并通过卷积神经网络输出的不同层的图像特征;⑵隔层提取出多层卷积层的输出并进行连接形成多特征的特征图,第一个卷积层输出卷积特征最大池化,最后一个卷基层输出卷积特征反卷积,使两个卷积层的输出特征尺寸与中间卷积层的输出特征尺寸大小一致,连接多层卷积层的输出图像特征形成多特征图;⑶在多特征图上,对于生成的可能包含物体的目标感兴趣区域,进行不同倍数的区域缩放,得到不同的目标感兴趣区域,然后将不同的目标感兴趣区域进行连接形成最终的目标感兴趣区域。所述⑵隔层提取出多层卷积层的输出并进行连接形成多特征的特征图的方法为:基于深度学习VGG-16卷积神经网络架构提取图像特征,提取其中第1层、第3层和第5层卷积输出结果形成多特征图,并在特征图上提取目标感兴趣区域面积的1、2和3倍特征区域,得到不同可视野感兴趣区域,并对提取结果进行特征连接。所述步骤2的具体实现方法以下步骤:⑴将带有物体真实包围框的图片输入到目标分割卷积神经网络架构中,提取卷积神经网络的输出结果;⑵按照目标检测比例系数为0.7及目标分割比例系数为0.3融合目标检测结果和目标分割结果,实现输出结果交叉连接功能;⑶将最后一层全连接层的结果输出到下一模块。所述步骤3的具体实现方法包括以下步骤:⑴通过Softmax分类损失函数算法对图像特征进行分类,基于目标检测的公开标准数据集,每类物体具有自己相应的精度;⑵通过Overlap定位损失函数算法对图像位置进行定位,使得目标检测生成的包围物体的候选框更加接近物体输入的真实包围框;⑶根据Softmax输出的分类损失值进行排序,选出得分最高的类别,作为该物体最有可能属于哪一个类别;⑷根据Overlap输出的定位损失值反向传播梯度,使得损失值逐渐下降,实现物体候选框更加接近物体的真实包围框。本专利技术的优点和积极效果是:本专利技术设计合理,其利用深度学习框架卷积神经网络VGG-16进行多特征提取并提取不同可视野的感兴趣区域,实现更加准确的分类;且在定位中采用了多任务交叉辅助定位,能够更加准确的定位出目标物体所在位置,获得了良好的目标检测结果。本专利技术在现有的公开数据集PASCALVOC上进行试验,实验表明结果优于其他主流目标检测框架如FastR-CNN的检测效果,提高了检测精度和稳定性。附图说明图1为本专利技术提出的目标检测框架;图2为本专利技术提出的多特征提取和不同倍数可视野的感兴趣区域示意图;图3为本专利技术提出的多任务交叉辅助定位原理示意图;图4为基于PASCALVOC的目标检测精度结果对照图。具体实施方式以下结合附图对本专利技术实施例做进一步详述。一种基于多特征提取和多任务融合的目标检测算法,是在图1给出的目标检测框架上实现的,其通过多特征提取和多任务融合方法改善目标检测性能。其设计思路为:首先基于深度学习VGG-16卷积神经网络架构提取图像特征,提取其中1、3和5层卷积输出结果形成多特征图,并在特征图上提取目标感兴趣区域面积的1、2和3倍特征区域,得到不同可视野感兴趣区域,然后对提取结果进行特征连接;其次对原图实现语义分割提取目标分割区域结果,并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测,其中目标检测比例系数为0.7和目本文档来自技高网
...
基于多特征提取和多任务融合的目标检测算法

【技术保护点】
一种基于多特征提取和多任务融合的目标检测算法,其特征在于包括以下步骤:步骤1、基于深度学习卷积神经网络架构提取图像特征,提取多层卷积输出结果形成多特征图,并在多特征图上提取不同可视野的目标感兴趣区域,对提取的目标感兴趣区域进行特征连接;步骤2、对原图实现语义分割提取目标分割区域结果,并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测;步骤3、上述结果通过最后的全连接层后,通过组合分类定位损失函数对图像特征进行分类和回归定位,得到最终目标检测的结果。

【技术特征摘要】
1.一种基于多特征提取和多任务融合的目标检测算法,其特征在于包括以下步骤:步骤1、基于深度学习卷积神经网络架构提取图像特征,提取多层卷积输出结果形成多特征图,并在多特征图上提取不同可视野的目标感兴趣区域,对提取的目标感兴趣区域进行特征连接;步骤2、对原图实现语义分割提取目标分割区域结果,并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测;步骤3、上述结果通过最后的全连接层后,通过组合分类定位损失函数对图像特征进行分类和回归定位,得到最终目标检测的结果。2.根据权利要求1所述的基于多特征提取和多任务融合的目标检测算法,其特征在于:所述深度学习卷积神经网络架构为VGG-16卷积神经网络架构。3.根据权利要求1或2所述的基于多特征提取和多任务融合的目标检测算法,其特征在于:所述步骤1的具体实现方法包括以下步骤:⑴将带有物体真实包围框的图片输入到目标检测卷积神经网络架构中,使用Caffe框架提取图像并通过卷积神经网络输出的不同层的图像特征;⑵隔层提取出多层卷积层的输出并进行连接形成多特征的特征图,第一个卷积层输出卷积特征最大池化,最后一个卷基层输出卷积特征反卷积,使两个卷积层的输出特征尺寸与中间卷积层的输出特征尺寸大小一致,连接多层卷积层的输出图像特征形成多特征图;⑶在多特征图上,对于生成的可能包含物体的目标感兴趣区域,进行不同倍数的区域缩放,得到不同的目标感兴趣区域,然后将不同的目标感兴趣区域进行连接形成最终的目标感兴趣区域。4.根据...

【专利技术属性】
技术研发人员:娄英欣郭晓强王琳夏治平姜竹青门爱东
申请(专利权)人:国家新闻出版广电总局广播科学研究院北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1