一种轻量化改进目标检测方法及检测系统技术方案

技术编号:26304979 阅读:47 留言:0更新日期:2020-11-10 20:01
本发明专利技术属于计算机技术领域,公开了一种轻量化改进目标检测方法及检测系统,利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息,进行目标的检测。本发明专利技术提出的模型在准确率上相较于基础模型有所提升,而在检测速度上有所下降,在模型的权重大小上也有着一定的增加。通过上述的分析和实验数据的表现可以看出准确率上的提升与本发明专利技术提出的改进相符合,同时本发明专利技术改进所带来的在检测速度和模型权重大小上的不足也在可预见的范围内。

【技术实现步骤摘要】
一种轻量化改进目标检测方法及检测系统
本专利技术属于计算机
,尤其涉及一种轻量化改进目标检测方法及检测系统。
技术介绍
目前,计算机视觉是一个经典的研究领域,致力于利用计算机来完成人类的视觉方面的任务。其中目标检测是该领域中的一项基本的研究方向,该方向主要解决的问题是通过设计相应的算法,让计算机能够针对图片中感兴趣的物体进行定位和识别。随着图像采集设备的发展和设备的计算能力的提升,目标检测的应用和研究所针对的图像的样式更加多样化,图像的分辨率更加大,图像中的场景更加复杂,最重要的是图像的数据量相较于从前更加庞大。作为数据科学中的一员,目标检测需要足够多的数据针对设计好的模型进行训练,大量的图像数据为目标检测提供了相对充足的原始数据,但是原始数据缺乏标注,导致大量数据无法转化为训练数据供模型进行学习2005年,针对目标检测的竞赛Pascal开始出现,起初评委会仅提供了4个类别的图像,到了2006年增加到了10个类别,次年开始类别增加到了20个;图片数据的数据量也随着时间的推移在增加,到了2012年训练用的图片达到了11530张并且还延伸出了人体轮廓布局的任务和实例分割的任务。2009年,ImageNet的问世为计算机数据提供了大量的含有标注的图像数据,促进了计算机视觉中多数领域的研究的进展。同时,ImageNet大规模视觉识别挑战赛(ILSVRC),给各种识别算法提供了竞技的平台和直观的评价指标,这点帮助了研究人员对于自己的方法的性能进行评测,为后续方法的改进和优化提供了指导意义,也促进了学术上的交流。在竞赛的早期,目标检测算法的设计与识别算法的设计类似,都是基于手工提取的图像的特征对图片进行识别和定位,例如Viola-Jones,HOG和DPM。直到2013年AlexNet模型的出现,该模型以其压倒性的优势证明了深度卷积神经网络在计算机视觉的研究上的潜力,奠定了计算机视觉和深度神经网络的结合的基础,也为后来的研究指出了发展的方向,自此目标检测算法从原先基于手工提取图像特征进行检测的方法转变成了基于深度卷积神经网路提取特征进行检测的方法,研究的中心则是围绕着深度卷积神经网路的设计和优化。2014年前后,基于深度学习的目标检测算法产生了两个分支,一个是以Grishick提出的将区域提议和卷积神经网络结合的方法为基础进行优化和改进的二阶段目标检测方法;另一个是从OverFeat模型直接利用深度卷积神经网络得到的特征进行回归来预测目标的位置和类别的方法得到启发,产生了以YOLO和SSD为基础继续发展的单阶段目标检测方法。这两个分支共同发展且相互借鉴,使得目标检测算法整体在准确率和检测速度相较于以前的模型有了质的飞越。每年CVPR,ECCV,ICCV三大会议上都会有关于目标检测的新论文发表,针对算法的准确率、检测速度和模型的参数量进行优化。随着基于深度学习的目标检测算法的发展,如今许多常见的应用的落地都与目标检测算法研究相关,例如:火车站的刷脸进站服务,视频监控的行人检测与识别,码头的无人驾驶汽车等等。这些应用的共同之处是:1、这些应用集合了多种基于深度学习的模型,每个模型负责其最擅长的方面,模型之间协同合作,最后的结果基于多模型联合的计算结果;2、目标检测算法是这些应用中的底层算法之一,负责应用的关键部分。眼下,5G技术的落地和发展,物联网技术将进入大众生活中,对于这之中产生的大量的图像数据的处理和分析,将是目标检测算法面临的新的挑战和发展机遇。随着移动互联网技术的迅猛发展,移动智能设备逐渐流行起来,移动终端所产生的信息量随之爆炸性增长,其中就包括图像和视频数据。针对如此海量且结构复杂的数据进行处理,以往的方法是将数据上传到服务器,由服务器进行统一处理,处理完成后将结果分发给上传的用户。但是,这一方法一方面需要设备全程联网且对网络传输环境有一定的要求;另一方面在面对例如无人驾驶车辆的控制、无人机控制等需要智能终端实时反馈处理结果的情况时,网络传输的延时和服务器任务的等待延时都使得该方法无法满足这些任务对模型运算速度的需求。除此之外,移动智能设备多为嵌入式设备,这类设备在存储空间和计算能力上相对于带有GPU的服务器而言十分有限,这就意味着模型权重大小和计算的复杂度受到了限制。在此情况下,针对基于深度学习的目标检测模型的改进主要有两种方法:针对现有的检测模型进行模型量化以达到加速和减少冗余的目的;针对具体场景设计轻量化的模型。轻量化模型的设计有:MobileNet,ShuffleNet等。由此可见,深度学习模型的设计和应用都需要结合具体的场景和需求进行调整,模型的准确率、速度和权重的大小三者无法都达到极致,而只能在满足需求的时候,达到三者的平衡。为解决以上问题,现有技术采取利用轻量化模型改进网络模型的方法来达成模型三大要素的平衡。具体针对FSSD模型的轻量化改进进行研究。针对FSSD模型的轻量化现有的方法是利用MobileNet代替FSSD模型中的VGG-16网络作为模型的骨干网络,该方法在模型的速度和模型权重的大小上取得了一定的优势,但是模型的检测准确率相对降低。目标检测作为计算机视觉的一项基础研究,在深度学习兴起之前,主要的思路是将手工提取的特征结合机器学习的算法来实现对图像中的目标进行识别和定位。其中比较著名的方法有:Viola-Jones检测算法,HOG检测算法和基于可变部件的检测模型。Viola-Jones检测算法的理论基础是滑动窗口算法,算法中引入了Haar-like特征和adaboost模型来进行人脸的定位和识别,同时作者提出了Haar-like特征的快速计算方法,使得Viola-Jones模型实现了实时人脸检测的要求。HOG检测算法中,作者引入了一种方向梯度直方图的特征来实现行人检测,同时算法的检测部分参照了传统图像算法中的多尺度图像金字塔与滑动窗口相结合的方向来定位和识别行人。基于可变部件的检测模型(DeformablePartbasedModel,DPM)则是对HOG特征进行了改进,利用改进后的HOG特征结合SVM分类器和滑动窗口的方法对目标进行识别和定位,同时该模型中引入了多组件策略和图结构的部件策略来解决目标的多视角问题和目标的形变问题。这些算法在当时的情况下取得了优秀的效果,而且这些算法所需要的计算量相对较少,模型的参数量较少,可以在边缘设备上使用。但是这些算法也存在如下缺点:需要手工提取图片特征,对操作特征提取的人有着一定的专业知识要求,不方便使用;这些算法的泛用性由于特征提取的方法而受到了限制;这些算法的性能距离实际应用还存在差距。深度学习这一概念最早是Hinton等人于2006年在期刊《Science》上发表的文章中提出的,文中提到的深度学习是通过构建人工神经元来模拟人的大脑皮层神经元的机制,以此来获得更加抽象而富有语义信息的特征,用于目标识别。卷积神经网络的雏形,来自于YanLeCun于1998年发表的文章,而卷积的操作和相关的结构最早则是在1980年的一篇关于猫的视觉系统的论文中提出的,这两篇文章为卷积神经网络的发展奠定了基础。2012年的Alex本文档来自技高网...

【技术保护点】
1.一种轻量化改进目标检测方法,其特征在于,所述轻量化改进目标检测方法包括:/n利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;/n引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息,进行目标的检测。/n

【技术特征摘要】
1.一种轻量化改进目标检测方法,其特征在于,所述轻量化改进目标检测方法包括:
利用用改进后的ShuffleNetv2模型替换FSSD中原有的骨干网络;
引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息,进行目标的检测。


2.如权利要求1所述的轻量化改进目标检测方法,其特征在于,利用用改进后的ShuffleNetv2模型替换FSSD中原有的骨干网络的方法包括:
利用MobileNet替换FSSD中的骨干网络VGG-16,同时利用深度可分离卷积改进FSSD模型中产生用于检测的特征图的网络层。


3.如权利要求2所述的轻量化改进目标检测方法,其特征在于,改进FSSD模型中产生用于检测的特征图的网络层的方法包括:将ShuffleBlock的分配用原先的[4,8,4]改成[2,4,8,2],同时将输出的通道数由原先的[176,352,704]改成[128,256,512,1024]。


4.如权利要求1所述的轻量化改进目标检测方法,其特征在于,对多层特征进行自顶向下和自底向上的特征融合方法包括:
双向特征金字塔结构的输入来自于骨干网络中stage2,stage3和lastconv的输出特征,通过一个类似自底向上的结构扩展成6层输入特征图;而输入特征图在双向特征金字塔结构中分别经历了自顶向下和自底向上两组处理,自顶向下的处理按照公式(1)进行;



自底向上的处理按照公式(2)进行;



经过双向特征金字塔结构处理后,6个输入特征经过充分的融合;而输出的6层特征将用于模型最后的多尺度检测;在双向特征金字塔的处理过程中,浅层额用于定位细节信息和深层的用于定位的语义信息充分融合。


5.如权利要求1所述的轻量化改进目标检测方法,其特征在于,所述轻量化改进目标检测方法进一步包括:
1)摄像模块进行图像捕捉,并传输给算法模块;
2)算法模块利用改进后的网络算法进行目标检测,得出具体结果后传输到后端中的显示模块获取信息;
所述改进后的网络算法包括:利用用改进后的ShuffleNetv2模型替换FSSD中原有的骨干网络;
引入加权双向特征金字塔结构替换FSSD中原有的三层特征融...

【专利技术属性】
技术研发人员:王春枝严灵毓汪俊芳胡志勇叶志伟刘锦行王梓田叶崇俊
申请(专利权)人:湖北工业大学武汉烽火技术服务有限公司烽火通信科技股份有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1