当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于目标尺度范围的目标检测卷积神经网络构建方法技术

技术编号:23051149 阅读:42 留言:0更新日期:2020-01-07 14:56
本发明专利技术提供一种基于目标尺度的目标检测深度卷积神经网络构建方法,用于在检测某一尺度范围的目标的应用场景下,能够灵活多变、针对不同尺度的目标实现良好适应性的深度卷积神经网,其特征在于,包括:步骤S1,分析图像样本数据集中的所有图像的目标对象,确定目标尺度下限;步骤S2,根据用于目标检测的深度卷积神经网络的主干网结构,得到单个目标对象最终所需的特征数据量,并分析主干网结构的下采样倍数以及最佳下采样倍数;步骤S3,通过深度模型重构方法重构深度卷积神经网络,保证单个目标对象在执行分类运算之前保留充分的特征数据量;步骤S4,使用图像样本数据集对深度卷积神经网络进行训练直至准确率达到要求。

A convolution neural network construction method for target detection based on target scale range

【技术实现步骤摘要】
一种基于目标尺度范围的目标检测卷积神经网络构建方法
本专利技术属于数字图像处理及深度学习领域,具体涉及一种基于目标尺度的目标检测深度卷积神经网络构建方法。
技术介绍
机器视觉已广泛渗透到社会生活的各个领域,其中图像目标检测技术是一个重要的组成部分。目前目标检测技术普遍使用深度学习取代传统的数字图像处理技术,其中以卷积神经网络(ConvolutionalNeuralNetwork,CNN)为深度学习在机器视觉领域的代表。然而,对于学术界现有的CNN模型,往往针对普遍的目标对象,在不同分辨率的图像中,不同大小尺度的目标,均执行统一的检测算法。这导致过小和过大的目标与一般尺度的目标相比,检出效果较差。然而,对于日常生活中常见的一些场景,需要进行目标检测的图像分辨率不变,且图像中的目标尺度在一定范围内变动,例如区域监控视频,行车记录仪等,其检测目标的尺度集中在某一相对较窄范围,这就需要有一种手段,将目标检测算法集中在这些尺度的目标上,提高检测效率。深度学习革命爆发在2011~2012年,深度学习革命使得计算机视觉在很多应用领域达到了实用水平,催生了工业界的大量应用。其最重要的原因是深度学习可以做到传统方法无法企及的精度,尤其是基于卷积神经网络CNN的深度学习模型,现在已经成为计算机视觉的主流方法。卷积神经网络是一种常见的深度学习网络架构,受生物自然视觉认知机制启发而来。CNN能够得出原始图像的有效表征,这使得CNN能够直接从原始像素中,经过极少的预处理,捕获到视觉上面的规律。目标检测是当前最热的话题之一,它需要对很多对象进行分类和定位。目前几乎所有的深度卷积神经网络,都使用从图像分类继承而来的骨干网。用于图像分类的CNN网络是不断对图像进行特征提取,同时一次次执行下采样,最终得到精简到一定程度的特征数据。然而,使用了这种主干网的目标检测深度卷积神经网络,会在一定程度上受到特征提取方式的限制:对于大小适中的目标,检测算法能够很好地完成检测任务;对于其它尺度的目标尤其是小目标,往往会由于在检测算法的迭代过程中导致目标的特征数据损失过多,导致该检测算法的准确率往往不高并伴有较为严重的丢失率。
技术实现思路
为解决上述问题,提供一种在检测某一尺度范围的目标的应用场景下,能够灵活多变、针对不同尺度的目标实现良好适应性的深度卷积神经网络的构建方法,本专利技术采用了如下技术方案:本专利技术提供了一种基于目标尺度的目标检测深度卷积神经网络构建方法,用于根据具体目标检测需求的目标尺度从而适当地调整网络结构,实现对特定目标的准确检测,其特征在于,包括:步骤S1,分析图像样本数据集中的所有图像的目标对象,确定目标尺度下限;步骤S2,根据用于目标检测的深度卷积神经网络的主干网结构,得到单个目标对象最终所需的特征数据量,并分析主干网结构的下采样倍数以及最佳下采样倍数;步骤S3,通过深度模型重构方法重构深度卷积神经网络,保证单个目标对象在执行分类运算之前保留充分的特征数据量;步骤S4,使用图像样本数据集对深度卷积神经网络进行训练直至准确率达到要求,其中,深度模型重构方法分为两种方案,在步骤S3中重构深度卷积神经网络时,根据计算资源是否充足选择深度模型重构方法的方案:方案一,当图像分辨率较小且计算资源充足时,通过下采样倍数以及最佳下采样倍数之间的落差将图像进行拉伸;方案二,当计算资源有限时,根据分类预测对特征数据量的需求,改变主干网结构的下采样次数,自后向前重构网络层结构。本专利技术提供的基于目标尺度的目标检测深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,目标尺度以标注目标对象的矩形框的面积来描述:Ascale=h×w,式中,Ascale表示矩形框的面积,h表示矩形框的高,w表示矩形框的宽,令目标尺度用D表示,则有:Ascale=D2,即:则步骤S1中目标尺度下限的确定方法为:统计图像样本数据集中所有目标对象的面积,然后对面积计算分位数Q:Q(Dmin)≤1-η,式中,Dmin为目标尺度下限,η为图像样本数据集的所有目标对象中面积在Dmin之上的目标对象数量占总数的比例,目标尺度下限Dmin取近似的2的整数次幂。本专利技术提供的基于目标尺度的目标检测深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,步骤S2中下采样倍数的分析方法为:下采样次数为主干网结构中下采样操作的次数,每当特征图的分辨率在高和宽的方向上同时降低1/2时,记1次下采样操作,设下采样次数为N,深度卷积神经网络的输入图像分辨率为h0×w0,则图像经过主干网结构计算之后,特征图的高hmap和宽wmap为:若图像中有n个目标,第i个目标在图像中的尺寸为hi×wi,则此时映射在特征图上的分辨率为hi'×wi',同理:为了保证预测的准确性,要求:hi'×wi'>hpre×wpre(7)式中,hpre为每个目标对象所需的高,wpre为每个目标对象所需的宽,同时,因目标尺度下限为Dmin,所以需满足:本专利技术提供的基于目标尺度的目标检测深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,当计算资源相对充足,步骤S3采用方案一进行深度卷积神经网络的重构时,对深度神经网络的重构不改动主干网结构的核心部分,仅在网络前端加入图像拉伸算法,令:式中,K为目标最小尺度变换到分类输入数据尺度而缩小的倍数,Dmin为目标尺度下限,hpre为每个目标对象所需的高,wpre为每个目标对象所需的宽,主干网结构的下采样次数为N,则在主干网结构完成特征提取之后,分辨率缩小的倍数为2N,那么,下采样倍数落差为:即:在深度卷积神经网络前端加入图像拉伸算法,使图像的分辨率在横纵方向各扩大Δk倍,即完成整个网络模型的设计。本专利技术提供的基于目标尺度的目标检测深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,当计算资源相对有限,步骤S3采用方案二进行深度卷积神经网络的重构时,令:式中,K为目标最小尺度变换到分类输入数据尺度而缩小的倍数,Dmin为目标尺度下限,hpre为每个目标对象所需的高,wpre为每个目标对象所需的宽,为接近最佳缩小效果,应执行的下采样次数n为:n=floor(log2K),即:在执行了n次下采样操作之后,特征图缩小之后的分辨率接近分类输入数据,且大于分类输入数据,对于主干网结构而言,其下采样次数为N,N>n。则下采样次数落差为:m=N-n,即:进一步,将主干网结构中与后m次下采样有关的层结构进行重构。本专利技术提供的基于目标尺度的目标检测深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,在对深度卷积神经网络中下采样有关的层结构进行重构时,使用同性质的不降低分辨率的操作替换原操作,同时,为保持接受野不变,替换的层结构之后衔接的卷积层,将卷积核半径扩大一倍,若原卷积核为r×r大小,那么扩大的卷积核r’为:r'=(r-1)×2+1。专利技术作用与效果根据本专利技术的基于目标尺度的目标检测深度卷积神经网络构建方法,由于通过对图像数据集中目标尺度下限进行确定,并根据用于目标检测的深度卷积神经网络模型进行分析,因此能够进一步根据深度本文档来自技高网
...

【技术保护点】
1.一种基于目标尺度范围的目标检测卷积神经网络构建方法,用于根据具体目标检测需求的目标尺度从而适当地调整网络结构,实现对特定目标的准确检测,其特征在于,包括:/n步骤S1,分析图像样本数据集中的所有图像的目标对象,确定目标尺度下限;/n步骤S2,根据用于目标检测的深度卷积神经网络的主干网结构,得到单个所述目标对象最终所需的特征数据量,并分析所述主干网结构的下采样倍数以及最佳下采样倍数;/n步骤S3,通过深度模型重构方法重构所述深度卷积神经网络,保证单个所述目标对象在执行分类运算之前保留充分的特征数据量;/n步骤S4,使用所述图像样本数据集对所述深度卷积神经网络进行训练直至准确率达到要求,/n其中,所述深度模型重构方法分为两种方案,在所述步骤S3中重构所述深度卷积神经网络时,根据计算资源是否充足选择所述深度模型重构方法的方案:/n方案一,当图像分辨率较小且所述计算资源充足时,通过所述下采样倍数以及所述最佳下采样倍数之间的落差将图像进行拉伸;/n方案二,当所述计算资源有限时,根据分类预测对所述特征数据量的需求,改变所述主干网结构的下采样次数,自后向前重构网络层结构。/n

【技术特征摘要】
1.一种基于目标尺度范围的目标检测卷积神经网络构建方法,用于根据具体目标检测需求的目标尺度从而适当地调整网络结构,实现对特定目标的准确检测,其特征在于,包括:
步骤S1,分析图像样本数据集中的所有图像的目标对象,确定目标尺度下限;
步骤S2,根据用于目标检测的深度卷积神经网络的主干网结构,得到单个所述目标对象最终所需的特征数据量,并分析所述主干网结构的下采样倍数以及最佳下采样倍数;
步骤S3,通过深度模型重构方法重构所述深度卷积神经网络,保证单个所述目标对象在执行分类运算之前保留充分的特征数据量;
步骤S4,使用所述图像样本数据集对所述深度卷积神经网络进行训练直至准确率达到要求,
其中,所述深度模型重构方法分为两种方案,在所述步骤S3中重构所述深度卷积神经网络时,根据计算资源是否充足选择所述深度模型重构方法的方案:
方案一,当图像分辨率较小且所述计算资源充足时,通过所述下采样倍数以及所述最佳下采样倍数之间的落差将图像进行拉伸;
方案二,当所述计算资源有限时,根据分类预测对所述特征数据量的需求,改变所述主干网结构的下采样次数,自后向前重构网络层结构。


2.根据权利要求1所述的基于目标尺度范围的目标检测卷积神经网络构建方法,其特征在于:
其中,所述目标尺度以标注所述目标对象的矩形框的面积来描述:
Ascale=h×w(1)
式中,Ascale表示所述矩形框的面积,h表示所述矩形框的高,w表示所述矩形框的宽,
令所述目标尺度用D表示,则有:
Ascale=D2(2)
即:



则所述步骤S1中所述目标尺度下限的确定方法为:
统计所述图像样本数据集中所有目标对象的所述面积,然后对所述面积计算分位数Q:
Q(Dmin)≤1-η(4)
式中,Dmin为目标尺度下限,η为所述图像样本数据集的所有目标对象中所述面积在Dmin之上的目标对象数量占总数的比例,
在式(4)的基础上,所述目标尺度下限Dmin取近似的2的整数次幂。


3.根据权利要求1所述的基于目标尺度范围的目标检测卷积神经网络构建方法,其特征在于:
其中,所述步骤S2中下采样倍数的分析方法为:
下采样次数为所述主干网结构中下采样操作的次数,每当特征图的分辨率在高和宽的方向上同时降低1/2时,即所述下采样倍数为2,记1次下采样操作,
设所述下采样次数为N,所述深度卷积神经网络的输入图像分辨率为h0×w0,
则所述图像经过所述主干网结构计算之后,下采样倍数为2N,特征图的高hmap和宽wmap为:



若所述图像中有l个目标,第i个目标在所述图像中的尺寸为hi×wi,则此时映射...

【专利技术属性】
技术研发人员:刘天弼杜姗姗冯瑞
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1