一种基于多尺度匹配策略深度特征学习的目标检测方法技术

技术编号:25803892 阅读:42 留言:0更新日期:2020-09-29 18:38
一种基于多尺度匹配策略深度特征学习的目标检测方法,基于残差神经网络,我们首先对不同类目标的宽高比进行聚类,并进一步使用多尺度匹配策略来选择默认框,缓解目标遮挡问题。然后,融合不同深度的特征图以检测不同尺度的物体。实验结果表明,与当前九种具有代表性的目标检测方法相比,我们提出的方法更具竞争力,速度更快,精度更高。

【技术实现步骤摘要】
一种基于多尺度匹配策略深度特征学习的目标检测方法
本专利技术涉及计算机视觉和模式识别
,,具体说的是一种基于多尺度匹配策略深度特征学习的目标检测方法。
技术介绍
目标检测是从图像或视频中找到感兴趣的目标。人们的视觉系统可以从图像或视频中快速准确地捕捉到目标类型、位置以及各目标之间的相对关系。它可以帮助我们完成一些复杂的任务,例如运动和驾驶汽车。在过去的几十年中,多种目标检测算法已经被提出,它们可以分为两类:传统的目标检测算法和基于深度学习的目标检测算法。早期的目标检测算法主要基于手动构建的特征。由于当时缺乏有效的可视化技术,人们只能设计复杂的特征表示并不断对其进行优化。基于深度学习的方法,通过不断加深网络的深度让计算机自动提取特征,不需要复杂的特征表示,从而在近些年不断刷新计算机视觉领域的各项记录。但是,这两种方法都不能很好的检测小目标以及被遮挡的目标。
技术实现思路
为解决上述技术问题,本专利技术提供一种基于多尺度匹配策略深度特征学习的目标检测方法,速度更快,精度更高。为实现上述技术目的,所采用的技术方案是:一种基于多尺度匹配策略深度特征学习的目标检测方法,包括以下步骤:步骤一:聚类目标宽高比,划分单元格首先对数据集中所有具有真实框的被检测目标按照类别对宽高比进行聚类,得到所有类别默认框的宽高比信息,随后将数据集中每一张整幅图像按S*S个单元格进行划分,13≤S≤26;步骤二:多尺度匹配默认框,学习偏移量,得到预测框计算被检测目标的中心坐标,提取其所在单元格的直实框信息,将所有默认框依次与被检测目标的真实框进行比对,选择具有最大IoU值的默认框,并按照以下公式计算偏移量,得到预测框;bx=cx+pxby=cy+pybf=p(b,obj)*pf其中,bx,by,bw,bh,bf分别表示预测框的横坐标、纵坐标、宽、高以及包含目标的自信度,px,py,pw,ph,pf分别表示残差神经网络输出的横坐标、纵坐标、宽、高的偏移量和自信度,cx,cy,cw,ch分别表示默认框的横坐标、纵坐标、宽和高,p(b,obj)为示性函数,当输出的pf高于阈值t时,0.5≤t≤0.7,p(b,obj)为1,否则为0;步骤三:多深度特征融合,检测多尺度目标对整个残差神经网络的多个深度提取特征并进行融合后,并对整个残差神经网络的进行优化,对步骤二得到的预测框与真实框使用均方误差进行误差计算;步骤四:进行训练利用步骤三优化后的残差神经网络进行训练,在整个训练过程中,使用的批次大小为z,2≤z≤32,动量为m,0.5≤m≤0.9,衰减速率为v,0.0001≤v≤0.0008,在训练过程中使用随机丢弃和数据增强功能,整个训练过程的初始学习率为10-2,随后按照10-1的速度衰减并训练e个周期,120≤e≤150;步骤五:绘制预测框训练完成后,提取经过训练之后的残差神经网络的输出来绘制预测框,完成目标检测。数据集采用为PASCALVOC数据集。预测框与真实框使用均方误差进行误差计算的公式为,其中,S表示划分的单元格数量,N表示默认框的数量,xij,yij,wij,hij,fij分别表示第i个单元格第j个默认框中真实框的横坐标、纵坐标、宽、高以及类别概率,分别表示第i个单元格第j个默认框中预测框的横坐标、纵坐标、宽、高以及类别概率,i=1,2,…,S,j=1,2,…,N,设置α等于0.1来平衡正负样本,和均为示性函数,表示第i个单元格第j个默认框是否包含目标,如果高于阈值t,为1,为0,否则相反。本专利技术有益效果是:本专利技术基于残差神经网络,采用多尺度匹配策略深度特征学习的方法对目标进行检测,首先我们将整幅图像分为S*S个单元格,每个单元格都有N个不同宽高比的默认框,如果被检测目标的中心坐标落入某个单元格,则该单元格被用来学习被检测目标相对于单元格中心坐标的偏移量以及相对于整幅图像的宽高比,随后将N个默认框依次与被检测目标的真实框计算交并比,选择交并比最大的默认框进行训练。并且我们在网络的多个深度上对特征进行提取并融合,浅层的特征更倾向于定位目标,深层特征更倾向于分类目标。最后,整个网络的输出为预测框的中心坐标和宽高比,大量的实验结果验证了我们方法的有效性。附图说明图1为本专利技术的实验流程图;图2为本专利技术的网络构架图;图3为本专利技术的残差神经网络示意图;图4为本专利技术的不同类别目标的宽高比直方图;图5为本专利技术的数据增强示意图;图6为本专利技术的十种方法的精准召回曲线图;图7为视觉比较图,(A)输入;(B)真实框;(C)Ours;(D)DPM;(E)R-CNN;(F)SDS;(G)FeatureEdit;(H)YOLO;(I)SSD;(J)DSSD;(K)FastR-CNN;(L)FasterR-CNN。具体实施方式一种基于多尺度匹配策略深度特征学习的目标检测方法,如图1所示,包括以下步骤:步骤一:聚类目标宽高比,划分单元格我们首先对PASCALVOC数据集中所有被检测目标按照类别对宽高比进行聚类,如图4所示,得到所有类别默认框的宽高比信息,随后我们将整幅图像划分为S*S(13≤S≤26)个单元格。步骤二:多尺度匹配默认框,学习偏移量,得到预测框基于如图3所示的残差神经网络,计算被检测目标的中心坐标,提取其所在单元格的真实框信息,将所有默认框依次与被检测目标的真实框进行比对,选择具有最大IoU(IntersectionoverUnion)值的默认框,并按照以下公式计算偏移量,得到预测框。bx=cx+pxby=cy+pybf=p(b,obj)*pf在此,bx,by,bw,bh,bf分别表示预测框的横坐标、纵坐标、宽、高以及包含目标的自信度,脚标x表示坐标系中x-轴的意思,脚标y表示坐标系中y-轴的意思,脚标w表示宽或宽度,脚标h表示高或高度,脚标f表示自信度(一种类别概率),px,py,pw,ph,pf分别表示网络输出的横坐标、纵坐标、宽、高的偏移量和自信度,cx,cy,cw,ch分别表示默认框的横坐标、纵坐标、宽和高,p(b,obj)为示性函数,当输出的pf高于阈值t(0.5≤t≤0.7)时,p(b,obj)为1,否则为0。步骤三:多深度特征融合,检测多尺度目标如图2所示,对整个残差神经网络的多个深度提取特征并进行融合,例如,在整个网络的第78层,第90层和第100层提取特征并进行融合,之后对整个残差神经网络的进行优化,对步骤二得到的预测框与真实框使用均方误差进行误差计算,公式如下:在此,S表示划分的单元格数量,N表示默认框的数量,xij,yij,wij,hij,fij分别表示第i个单元格第j个默认框中真实框的横坐标、纵坐标、宽、高以及类别概率,分别表示第i个单元格第j个默认本文档来自技高网...

【技术保护点】
1.一种基于多尺度匹配策略深度特征学习的目标检测方法,其特征在于:包括以下步骤,/n步骤一:聚类目标宽高比,划分单元格/n首先对数据集中所有具有真实框的被检测目标按照类别对宽高比进行聚类,得到所有类别默认框的宽高比信息,随后将数据集中每一张整幅图像按S*S个单元格进行划分,13≤S≤26;/n步骤二:多尺度匹配默认框,学习偏移量,得到预测框/n计算被检测目标的中心坐标,提取其所在单元格的直实框信息,将所有默认框依次与被检测目标的真实框进行比对,选择具有最大IoU值的默认框,并按照以下公式计算偏移量,得到预测框;/nb

【技术特征摘要】
1.一种基于多尺度匹配策略深度特征学习的目标检测方法,其特征在于:包括以下步骤,
步骤一:聚类目标宽高比,划分单元格
首先对数据集中所有具有真实框的被检测目标按照类别对宽高比进行聚类,得到所有类别默认框的宽高比信息,随后将数据集中每一张整幅图像按S*S个单元格进行划分,13≤S≤26;
步骤二:多尺度匹配默认框,学习偏移量,得到预测框
计算被检测目标的中心坐标,提取其所在单元格的直实框信息,将所有默认框依次与被检测目标的真实框进行比对,选择具有最大IoU值的默认框,并按照以下公式计算偏移量,得到预测框;
bx=cx+px
by=cy+py






bf=p(b,obj)*pf
其中,bx,by,bw,bh,bf分别表示预测框的横坐标、纵坐标、宽、高以及包含目标的自信度,px,py,pw,ph,pf分别表示残差神经网络输出的横坐标、纵坐标、宽、高的偏移量和自信度,cx,cy,cw,ch分别表示默认框的横坐标、纵坐标、宽和高,p(b,obj)为示性函数,当输出的pf高于阈值t时,0.5≤t≤0.7,p(b,obj)为1,否则为0;
步骤三:多深度特征融合,检测多尺度目标
对整个残差神经网络的多个深度提取特征并进行融合后,并对整个残差神经网络的进行优化,对步骤二得到的预测框与真实框使用均方误差进...

【专利技术属性】
技术研发人员:董永生张智勇吴庆涛裴远桦郑博士蒋志强刘晴谭伟郑林涛王琳
申请(专利权)人:河南科技大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1