一种基于深度学习的高性能多尺度目标检测方法技术

技术编号:26891621 阅读:30 留言:0更新日期:2020-12-29 16:10
一种基于深度学习的高性能多尺度目标检测方法,所述方法包括训练过程和检测过程,所述训练过程如下:1.1、输入图片,生成图像块;1.2、筛选正图像块;1.3、筛选负图像块;1.4、输入图像块,训练模型;所述检测过程如下:2.1、预测焦点像素集;2.2、生成焦点图像块;2.3、RoI阶段;2.4、分类和回归;2.5、焦点合成。本发明专利技术针对训练过程提出一种全新的候选区域选取方法,同时针对检测流程,采用一种由浅入深的方法,忽略不可能包含目标的区域,相对于过往检测算法处理整个图像金字塔,该发明专利技术显著得减少多尺度检测方法的计算量,大幅提高检测速率,突破了以往多尺度检测算法无法投入实际应用的瓶颈。

【技术实现步骤摘要】
一种基于深度学习的高性能多尺度目标检测方法
本专利技术涉及信息
,具体涉及一种基于深度学习的高性能多尺度目标检测方法。
技术介绍
从车辆的识别到疫情期间佩戴口罩识别,各种目标检测算法在当今社会中被广泛地使用,如FastRCNN(快速的基于区域推荐的卷积网络方法),FasterRCNN,YOLOv3,YOLOv4。衡量目标检测最重要的两个性能就是精度(mAP)和速度(FPS)。而现有的目标检测算法,要么注重mAP的结果,如FasterRCNN系列的two-stage算法,精度高,共享计算量但速度慢、训练时间长、误报率高。要么就是强调精度和速度之间的平衡,例如YOLOv4系列的one-stage算法,速度快,避免产生背景错误(falsepositives),能够学到物体的泛化特征但精度低、对小物体的检测效果不好。目标检测已被政府及许多企业应用于各个行业,例如智慧城市、指挥交通、智慧安防、智慧工业、智慧农业、智慧体育等行业。其中,智慧安防中安全帽识别、安检仪危险品识别,智慧农业中的辣椒病虫害识别应用受到了政府的极大重视。对于目标检测应用本文档来自技高网...

【技术保护点】
1.一种基于深度学习的高性能多尺度目标检测方法,其特征在于,所述方法包括训练过程和检测过程,/n所述训练过程如下:/n1.1、输入图片,生成图像块;/n1.2、筛选正图像块;/n1.3、筛选负图像块;/n1.4、输入图像块,训练模型;/n所述检测过程如下:/n2.1、预测焦点像素集;/n2.2、生成焦点图像块;/n2.3、RoI阶段;/n2.4、分类和回归;/n2.5、焦点合成。/n

【技术特征摘要】
1.一种基于深度学习的高性能多尺度目标检测方法,其特征在于,所述方法包括训练过程和检测过程,
所述训练过程如下:
1.1、输入图片,生成图像块;
1.2、筛选正图像块;
1.3、筛选负图像块;
1.4、输入图像块,训练模型;
所述检测过程如下:
2.1、预测焦点像素集;
2.2、生成焦点图像块;
2.3、RoI阶段;
2.4、分类和回归;
2.5、焦点合成。


2.如权利要求1所述的一种基于深度学习的高性能多尺度目标检测方法,其特征在于,所述1.1中,所述图像块是指在任一尺度下,某图片上一系列固定大小的(K*K像素)以恒定间隔(d像素)排布的窗口,每个窗口都可能包含一个或几个目标,在尺度{S1,S2,…,Sn}下生成的图像块记作Ci,其中Sn表示第n个尺度。


3.如权利要求1或2所述的一种基于深度学习的高性能多尺度目标检测方法,其特征在于,所述1.2中,图像的正确的标注框ground-truthboxes随着图像尺度的变化进行对应的缩放,因此对于每一个尺度i,需要指定理想检测面积为i∈[1,n],分别表示理想检测面积的最小值与最大值,若某个ground-truthboxes完全位于一个图像块内,则该ground-truthboxes被图像块包围;采用贪心算法,根据图像块包围的ground-truthboxes数量,从每个尺度i中筛选图像块作为正图像块,记作其中贪心算法是一种每一步选择上都要保证能获得局部最优解的算法。


4.如权利要求3所述的一种基于深度学习的高性能多尺度目标检测方法,其特征在于,所述1.3包括以下步骤:
步骤1.3.1使用步骤1.2中筛选得到的正图像块训练一个仅有几个epochs的RPN,epochs指代所有的数据送入网络中完成一次前向计算及反向传播的过程,其中RPN是在FasterRCNN中首次提出的深度全卷积网络,该RPN仅用来选择负图像块,因此即使精度不高也几乎不会对模型最终性能产生影响;
步骤1.3.2使用该RPN检测整个训练集,根据检测结果选择负图像块,选择过程如下:
a)排除所有被正图像块包围的区域提议Regionproposals,区域提议指最有可能为目标的区域;
b)在每个尺度i下使用贪心算法选择至少包含M个区域提议的图像组成负图像块池;
步骤1.3.3训练时从负图像块池中以固定数量随机选择参与训练的负图像块,表示为其中∪表示的是负图像块全集,neg指的是negative,指尺度i下的负图像块。


5.如权利要求1或2所述的一种基于深度学习的高性能多尺度目标检测方法,其特征在于,所述1.4包括以下步骤:
步骤1.4.1使用ImageNe初始化共享的卷积层,包括kernel(卷积核的尺寸)、stride(卷积步长)、padding(输入的每一条边补充0的层数)、dilation(卷积核元素之间的间距)、group(从输入通道到输出通道的阻塞连接数)、bias(偏置)、in_channels(输入信号的通道)、out_channels(输出信号的通道)参数,初始化RPN网络中卷积核部分,通过步骤三中筛选出的正负图像块训练RPN,训练之后,共享的卷积层以及RPN的边框回归(Bounding-boxregression)函数被更新,边框回归函数指的是一种关系使得输入的原始窗口P经过映射得到一个跟ground-truthbox更接近的回归窗口P1,该函数通过梯度下降法(一种寻找目标函数最小化的方法)实现参数的更新;
步骤1.4.2用ImageNet重新初始化共享的卷积层,初始化Fast-RCNN网络的池化层以及卷积层,通过使用训练过的RPN计算得到区域提议,计算步骤包括使用滑动窗口机制生成区域提议,并进行分类与回归,再将生成的区域提议重新训练Fast-RCNN,根据步骤1.4.1设置的参数,重复步骤1.4.1,训练结束之后,共享的卷积层以及Fast-RCNN的权重参数都会被更新;
步骤1.4.3使用步骤4.2中训练完成的共享卷积层初始化RPN网络,随后,第二次训练RPN网络,通过初始化后的RPN网络计算得到区域提议,计算步骤与步骤1.4.2相同,训练结束之后,RPN中边框回归函数被更新;
步骤1.4.4保持步骤1.4.3中的共享卷积层不变,再次训练Fast-RCNN网络,计算步骤与步骤1.4.2相同,训练完毕,得到最终的一个统一网络。


6.如权利要求1或2所述的一种基于深度学习的高性能多尺度目标检测方法,其特征在于,所述2.1中,焦点像素集位于卷积神经网络特征图(featuremap)的粒度之上,由带ReLU的两层卷积层(3*3和1*1)以及一个二分类器softmax组成,特征图上某个与小目标重叠的像素记为焦点像素,对于输入的面积为X*Y的图片,经过一...

【专利技术属性】
技术研发人员:潘伟航陆佳炜邵子睿黄奕涵郑薇朱冰倩
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1