当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于图片蒸馏的通用物体检测框架及其实现方法技术

技术编号:20364432 阅读:10 留言:0更新日期:2019-02-16 17:13
本发明专利技术公开了一种基于图片蒸馏的通用物体检测框架及其实现方法,该框架包括:Faster RCNN模型,构建Faster RCNN的网络结构,并进行训练,得到训练好的Faster RCNN模型;Wae Faster RCNN检测模型,将输入图像分解成两个分辨率只有原图一半的子图,构建并利用Wae Faster RCNN网络结构分别对低频和高频子图进行物体检测,将两个子图的检测结果进行融合得到最终检测结果;训练指导单元,对Wae Faster RCNN检测模型进行训练,并在训练时引入知识蒸馏机制,利用已训练好的Faster RCNN模型的输出作为软目标来指导Wae Faster RCNN模型的训练。

【技术实现步骤摘要】
一种基于图片蒸馏的通用物体检测框架及其实现方法
本专利技术涉及计算机视觉
,特别是涉及一种基于图片蒸馏的通用物体检测框架及其实现方法。
技术介绍
通用物体检测是计算机视觉领域最基础的研究方向,它的具体任务是对给定图像,输出该图像包含的物体的边界框和类别。近年来,随着卷积神经网络的发展,通用物体检测已取得重大进展。目前基于CNN的通用物体检测方法主要分为两种:以RCNN,FastRCNN,FasterRCNN,MaskRCNN为代表的基于分类的通用物体检测方法和以YOLO系列、SSD为代表的基于回归的物体检测方法。基于分类的通用物体检测方法一般检测精度较高于基于回归的通用物体检测方法,应用较为广泛,但其检测速度相对较慢。具体地说,RCNN提出应用候选框策略来解决检测问题,即先用传统方法对图片预测一系列可能含有物体的候选框,再对候选框进行分类和位置微调。RCNN需要提前保存图像的候选框且每个候选框要单独经过网络提取特征,占用内存大且检测时间长;FastRCNN采用ROIPooling对此进行改进,使得每张图片仅需经过网络一次,速度有所提高,但仍然偏慢,FasterRCNN在FastRCNN的基础上,提出了RPN(RegionProposalNetwork)来提取候选框,速度较传统方法有明显提高,但仍远远不够,MaskRCNN进一步改进FasterRCNN,添加了一个分支使用现有的检测对目标进行并行预测,提高了对小物体的检测精度,而且MaskRCNN的检测速度在5fps,已经是速度比较快的基于分类的通用物体检测框架了,但这个速度离实时检测还有些遥远。专利技术内容为克服上述现有技术存在的不足,本专利技术之目的在于提供一种基于图片蒸馏的通用物体检测框架及其实现方法,以提高基于分类的通用物体检测技术的检测速度。为达上述及其它目的,本专利技术提出一种基于图片蒸馏的通用物体检测框架,包括:FasterRCNN模型,用于构建FasterRCNN的网络结构,并进行训练,得到训练好的FasterRCNN模型;WaeFasterRCNN检测模型,用于将输入图像分解成两个分辨率只有原图一半的子图,构建WaeFasterRCNN网络结构,利用WaeFasterRCNN网络结构分别对低频子图和高频子图进行物体检测,然后将两个子图的检测结果进行融合得到最终检测结果;训练指导单元,用于对所述WaeFasterRCNN检测模型进行训练,并在所述WaeFasterRCNN检测模型训练时引入知识蒸馏机制,利用训练好的FasterRCNN模型的输出作为软目标来指导所述WaeFasterRCNN检测模型的训练。优选地,所述WaeFasterRCNN检测模型包括:图像分解单元,用于利用训练好的Anto-Encoder模型将输入图像分解成两个分辨率只有原图一半的子图,分别为低频子图和高频子图;检测单元,用于构建所述WaeFasterRCNN网络结构,利用所述WaeFasterRCNN网络结构分别对低频子图和高频子图进行物体检测;融合处理单元,用于对低频子图与高频子图的检测结果进行融合,得到融合后的检测结果。优选地,所述图像分解单元采用类小波自动编码器WAE进行图像分解,以将输入图像分解成分辨率只有原图一半的低频子图和高频子图,两个子图分别包含原图的低频信息和高频信息。优选地,对于低频子图与高频子图,所述检测单元分别构建所述WaeFasterRCNN网络结构的低频子网络和高频子网络,该低频子网络的RPN和FastRCNN,采用完整版FasterRCNN的RPN和FastRCNN,该高频子网络的RPN和FastRCNN,采用轻量版FasterRCNN的RPN和FastRCNN。优选地,所述轻量版FasterRCNN的部分卷积层通道数为所述完整版FasterRCNN的四分之一。优选地,所述融合处理单元将低频子图的检测结果和高频子图的检测结果进行融合,作为最终的检测结果。优选地,所述训练指导单元利用训练好的FasterRCNN模型的输出作为软目标对所述WaeFasterRCNN检测模型的FastRCNN部分的训练进行指导。为达到上述目的,本专利技术还提供一种基于图片蒸馏的通用物体检测框架的实现方法,包括如下步骤:步骤S1,构建FasterRCNN的网络结构,并进行训练,得到训练好的FasterRCNN模型;步骤S2,将输入图像分解成两个分辨率只有原图一半的子图,构建WaeFasterRCNN网络结构,利用所述WaeFasterRCNN网络结构分别对低频子图和高频子图进行物体检测,然后将两个子图的检测结果进行融合得到最终检测结果;步骤S3,对所述WaeFasterRCNN检测模型进行训练,并在WaeFasterRCNN检测模型训练时引入知识蒸馏机制,利用训练好的FasterRCNN模型的输出作为软目标来指导所述WaeFasterRCNN检测模型的训练。优选地,步骤S2进一步包括;步骤S201,利用训练好的分类模型将输入图像分解成两个分辨率只有原图一半的子图,分别为低频子图和高频子图;步骤S202,构建WaeFasterRCNN网络结构,利用WaeFasterRCNN网络结构分别对低频子图和高频子图进行物体检测,对于低频子图与高频子图,分别构建所述WaeFasterRCNN网络结构的低频子网络和高频子网络,该低频子网络的RPN和FastRCNN,采用完整版FasterRCNN的RPN和FastRCNN,该高频子网络的RPN和FastRCNN,采用轻量版FasterRCNN的RPN和FastRCNN;步骤S203,用于对低频子图与高频子图的检测结果进行融合,得到融合的检测结果。优选地,于步骤S3中,利用所述FasterRCNN模型的FastRCNN得到的候选框得分指导所述WaeFasterRCNN检测模型的FastRCNN的候选框得分的训练,即在每次迭代时,先将当前处理的图片及对应的候选框输入到所述FasterRCNN模型,进行前向传播,得到FasterRCNN模型的候选框类别得分,将该得分除以温度参数T,再做softmax变换,得到软化的概率分布,即软目标St,再将同样的图片及候选框输入到WaeFasterRCNN检测模型的FastRCNN部分,进行前向传播,根据所述FasterRCNN模型得到的软目标Softtarget与所述WaeFasterRCNN检测模型得到的软输出Softoutput计算软损失Softloss,并根据所述WaeFasterRCNN检测模型得到的硬输出Hardoutput和真实标签Hardtarget计算硬损失Hardloss,得到总的分类部分的损失函数classifyloss=Hardloss+λSoftloss,λ是权重。与现有技术相比,本专利技术一种基于图片蒸馏的通用物体检测框架及其实现方法通过采用类小波自动编码器将输入图像分解成两个分辨率只有原图一半的子图,然后对两个子图进行后续检测步骤,最后将两个子图的检测结果进行平均得到最终检测结果,本专利技术由于仅采用分辨率只有原图一半的子图进行检测使得检测速度提高了两倍,但不可避免地会导致精度的下降,因此在训练时引入知识蒸馏的机制,用复杂的但是检测精度高的FasterRCNN模型的输出作为软本文档来自技高网...

【技术保护点】
1.一种基于图片蒸馏的通用物体检测框架,包括:Faster RCNN模型,用于构建Faster RCNN的网络结构,并进行训练,得到训练好的Faster RCNN模型;Wae Faster RCNN检测模型,用于将输入图像分解成两个分辨率只有原图一半的子图,构建Wae Faster RCNN网络结构,利用Wae Faster RCNN网络结构分别对低频子图和高频子图进行物体检测,然后将两个子图的检测结果进行融合得到最终检测结果;训练指导单元,用于对所述Wae Faster RCNN检测模型进行训练,并在所述Wae Faster RCNN检测模型训练时引入知识蒸馏机制,利用训练好的Faster RCNN模型的输出作为软目标来指导所述Wae Faster RCNN检测模型的训练。

【技术特征摘要】
1.一种基于图片蒸馏的通用物体检测框架,包括:FasterRCNN模型,用于构建FasterRCNN的网络结构,并进行训练,得到训练好的FasterRCNN模型;WaeFasterRCNN检测模型,用于将输入图像分解成两个分辨率只有原图一半的子图,构建WaeFasterRCNN网络结构,利用WaeFasterRCNN网络结构分别对低频子图和高频子图进行物体检测,然后将两个子图的检测结果进行融合得到最终检测结果;训练指导单元,用于对所述WaeFasterRCNN检测模型进行训练,并在所述WaeFasterRCNN检测模型训练时引入知识蒸馏机制,利用训练好的FasterRCNN模型的输出作为软目标来指导所述WaeFasterRCNN检测模型的训练。2.如权利要求1所述的一种基于图片蒸馏的通用物体检测框架,其特征在于,所述WaeFasterRCNN检测模型包括:图像分解单元,用于利用训练好的Anto-Encoder模型将输入图像分解成两个分辨率只有原图一半的子图,分别为低频子图和高频子图;检测单元,用于构建所述WaeFasterRCNN网络结构,利用所述WaeFasterRCNN网络结构分别对低频子图和高频子图进行物体检测;融合处理单元,用于对低频子图与高频子图的检测结果进行融合,得到融合后的检测结果。3.如权利要求2所述的一种基于图片蒸馏的通用物体检测框架,其特征在于:所述图像分解单元采用类小波自动编码器WAE进行图像分解,以将输入图像分解成分辨率只有原图一半的低频子图和高频子图,两个子图分别包含原图的低频信息和高频信息。4.如权利要求2所述的一种基于图片蒸馏的通用物体检测框架,其特征在于:对于低频子图与高频子图,所述检测单元分别构建所述WaeFasterRCNN网络结构的低频子网络和高频子网络,该低频子网络的RPN和FastRCNN,采用完整版FasterRCNN的RPN和FastRCNN,该高频子网络的RPN和FastRCNN,采用轻量版FasterRCNN的RPN和FastRCNN。5.如权利要求4所述的一种基于图片蒸馏的通用物体检测框架,其特征在于:所述轻量版FasterRCNN的部分卷积层通道数为所述完整版FasterRCNN的四分之一。6.如权利要求2所述的一种基于图片蒸馏的通用物体检测框架,其特征在于:所述融合处理单元将低频子图的检测结果和高频子图的检测结果进行融合,作为最终的检测结果。7.如权利要求1所述的一种基于图片蒸馏的通用物体检测框架,其特征在于:所述训练指导单元利用训练好的FasterRCNN模型的输出作为软目标对所述WaeFasterRCNN检测模型的FastRCNN部分的训练进行指导。8.一种基于图片蒸...

【专利技术属性】
技术研发人员:王青赵惠陈添水林倞
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1