一种基于深度学习的多尺度转换目标检测算法制造技术

技术编号:21454741 阅读:34 留言:0更新日期:2019-06-26 05:01
本发明专利技术公开了一种基于深度学习的多尺度转换目标检测算法,其特征在于,包括以下步骤:S1,采用基础网络进行特征提取;S2,采用多尺度转换模块,对于卷积网络生成的特征进行处理;S3,采用目标定位和分类模块,对目标进行精准定位以及对输出目标分类。本发明专利技术的算法改善了整个网络的信息流和梯度,使得更容易进行训练。每一层都可以直接访问损失函数和原始输入信号的梯度,从而实现隐式的深度监控,这有助于更深入地训练网络架构。

【技术实现步骤摘要】
一种基于深度学习的多尺度转换目标检测算法
本专利技术涉及多尺度转换目标检测算法,具体涉及一种基于深度学习的多尺度转换目标检测算法。
技术介绍
目前,目标检测作为计算机视觉中经典的研究内容之一,在研究领域得到越来越多的关注。目标检测是通过分析成像传感器获得到的场景视频图像帧,从背景信息中识别出目标的类别,并给出目标在图像中的位置信息,从而为后续的目标追踪,情景识别等任务提供可靠的数据来源。因此,目标检测也是广泛应用于各个领域,如交通运输,智能安防,军事领域等等。近年来,卷积神经网络在目标检测等计算机视觉任务中取得了巨大的成功。人工构造的特征被卷积神经网络的特征所代替,大大提高了目标检测器的性能。目前最先进的目标检测方法是基于卷积神经网络的,例如SPPnet,FastR-CNN、FasterR-CNN、R-FCN、YOLO等使用卷积神经网络顶层的特征检测不同尺度的对象。然而,由于卷积神经网络的每一层都有一个固定的感受野,仅利用一层的特征来预测不同尺度的目标并不是最理想的。而进一步提高多尺度目标检测精度的方法主要有两种:①使用多层特征的组合来检测目标;②利用不同层的特征来预测不同尺度的物体。对于第一种方法,ION使用了跳跃式的池化层在多个层中提取信息,然后使用组合特征检测目标。HyperNet融合了图像的深,中,浅不同层次的特征用于生成目标兴趣区域和检测目标。YOLOv2通过一个额外的层次将高分辨率的特征与低分辨率特征连接起来,并在这个扩展的映射特征上进行检测。这些方法的基本思想是通过结合低层特征和高层特征来增强特征的性能。对于第二种方法,如SSD,MS-CNN和DSOD结合了多个映射特征的预测结果来处理不同大小的目标,例如对于小尺寸目标采用浅层特征,对于小尺寸则使用深层特征。FPN和TDM使用自顶向下的体系结构来构建高级语义的映射特征,DSSD使用沙漏结构传递上下文信息进行预测。尺寸问题一直是目标检测的核心。为了检测不同尺寸的目标,一种基本的策略是使用图像金字塔模型来获取不同尺度的特征。然而,这将大大地增加内存和计算复杂度,降低目标检测器的实时性。FasterR-CNN使用一层卷积计算得到的映射特征来预测不同尺度和纵横比的候选区域提议。由于CNN各层的感受野是固定的,那么在自然图像中由于目标存在多种尺度,就会与固定的感受野之间产生不一致性,这会影响对目标检测的性能。SSD和MS-CNN利用CNN内部不同层次的卷积层来预测不同尺寸的目标。浅层的映射特征有小的感受野,用于检测小目标,而深层的映射特征有大的感受野,用于检测大目标。然而,浅层映射特征的语义信息较少,会影响小尺寸目标检测的性能。FPN、ZIP和DSSD通过自上而下的体系结构将高级语义映射特征和低级映射特征组合在一起,在所有尺度的映射特征上生成更多的语义映射特征信息。然而,为了提高检测性能,上述方法的体系结构必须通过增加许多卷积层和池化层来仔细构造,添加额外的层次来获取金字塔状的映射特征带来了额外的计算代价,造成了不可忽视的成本。
技术实现思路
本专利技术的主要目的在于提供了一种基于深度学习的多尺度转换目标检测算法,获得高层次的语义多尺度映射特征,而同时又不影响检测器的检测速度。本专利技术采用的技术方案是:一种基于深度学习的多尺度转换目标检测算法,包括以下步骤:S1,采用基础网络进行特征提取;基础网络作为一种网络体系结构,将所有具有匹配的映射特征大小的层直接连接在一起,每个层从前面所有层获取额外的输入,并将自己的映射特征传递给后面所有层;不在特性被传递到下一个网络层之前通过求和来组合它们,而是通过连接这些特性来进行组合;S2,采用多尺度转换模块,对于卷积网络生成的特征进行处理;采用多尺度转换模块将不同分辨率的映射特征的预测结果结合起来,在上述的网络体系结构中,最后一层的输出是具有不同尺寸大小的映射特征,且具有高维度的通道数;且通过所述网络体系结构,将底层特征直接转移到网络的顶部,得到了强语义特征,网络顶部的映射特征既有底层的细节信息,又有高层的语义信息,从而提高了目标定位和分类的性能;在多尺度转换模块中,一方面采用平均池化来获取低分辨率的映射特征,另一方面对于高分辨率的映射特征,采用将高纬度的通道数转换为更高分辨率的映射特征;S3,采用目标定位和分类模块,对目标进行精准定位以及对输出目标分类;是由目标定位子网和目标分类子网组成模块,通过定锚机制,为在多尺度转换模块中获得的每个映射特征的每个像素点配备上一组若干个尺寸的默认锚框。进一步地,所述步骤S1具体为:通过卷积网络传递单个图像,网络由L层组成,每一层都是一个非线性变换fl(·),其中l是对网络中层次的索引;fl(·)可以是批量处理标准化,修正线性单元,池化或者卷积等操作的复合函数;定义第l层的输出为yl,第l层接受了前面所有层的映射特征fm0,fm1,…,fml-1作为输入,有:yl=fl([fm0,fm1,…,fml-1])其中([fm0,fm1,…,fml-1])表示在第0,1,…,l-1层产生的映射特征的拼接;通过在网络结构中不同的卷积块之间加入一个转化层来实现不同尺寸的映射特征,而该转化层包含一个批量标准化层BN,一个激活函数ReLU,一个卷积层Conv和一个池化层Pooling;其中,ReLU函数的具体表达式为:f(x)=max(0,x)因此,第i层网络有i个输入,包括前面所有卷积模块的映射特征,且自身的映射特征被传递到所有的后续层;这将在L层引入个连接,而不是像传统结构一样只引入L个连接。更进一步地,所述步骤S2具体为:设输入多尺度转换模块的张量维度是H×W×C×η2,其中,H是高度,W是宽度,C是通道数,η是上采样因子,尺度变换是对元素进行重排列,具体表达如下:其中,RSR是高分辨映射特征,RLR是低分辨率映射特征;与反卷积不同的是尺度转换没有额外的参数和计算开销,在反卷积的操作之前还需要进行0值的填充;尺度转换层可以有效地减少上述基础网络结构中最后一层地通道数,减少后续层次的参数和计算量;平均池化层以及尺度传输层组成本方法中的多尺度转化模块,将多尺度转化模块直接嵌入到上述的基础网络结构中,能获得若干个不同尺寸的映射特征。更进一步地,所述步骤S3具体为:采用的锚框比例为1:1,1:2,1:3,2:1,3:1五种,并为这五种比例每种配备三种尺寸的检测框;利用这五种比例的检测框来滑动遍历上个上一步得到的映射特征,为映射特征中的每一个点配备15个检测框,利用这样的滑动遍历,每张图像大概能够产生三万多个检测框,能够确保图像中的每一个目标区域都能被提取;而对于通过定锚机制生成的检测框需要经过偏移量的不断回归来还原到匹配的目标定位的真实位置;偏移量回归网络的结构包含批量处理标准化等,卷积层以及relu函数;分类子网的作用是预测属于一个类别的每个锚的概率,包括一个批处理标准化层,卷积层以及relu激活函数;最后一个卷积层有K·A个卷积核,其中K是目标的类别数量,A是每个空间位置锚的数量;训练目标是最小化分类和定位损失,如下所示:L(a,I,θ)=Lcls(ya,pcls(I,a,θ))+λ·[ya>0]·Lloc(Φ(ba,a)-ploc(I,a,θ))其中,a代表锚,I代表图像,θ代表最优参本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的多尺度转换目标检测算法,其特征在于,包括以下步骤:S1,采用基础网络进行特征提取;基础网络作为一种网络体系结构,将所有具有匹配的映射特征大小的层直接连接在一起,每个层从前面所有层获取额外的输入,并将自己的映射特征传递给后面所有层;不在特性被传递到下一个网络层之前通过求和来组合它们,而是通过连接这些特性来进行组合;S2,采用多尺度转换模块,对于卷积网络生成的特征进行处理;采用多尺度转换模块将不同分辨率的映射特征的预测结果结合起来,在上述的网络体系结构中,最后一层的输出是具有不同尺寸大小的映射特征,且具有高维度的通道数;且通过所述网络体系结构,将底层特征直接转移到网络的顶部,得到了强语义特征,网络顶部的映射特征既有底层的细节信息,又有高层的语义信息,从而提高了目标定位和分类的性能;在多尺度转换模块中,一方面采用平均池化来获取低分辨率的映射特征,另一方面对于高分辨率的映射特征,采用将高纬度的通道数转换为更高分辨率的映射特征;S3,采用目标定位和分类模块,对目标进行精准定位以及对输出目标分类;是由目标定位子网和目标分类子网组成模块,通过定锚机制,为在多尺度转换模块中获得的每个映射特征的每个像素点配备上一组若干个尺寸的默认锚框。...

【技术特征摘要】
1.一种基于深度学习的多尺度转换目标检测算法,其特征在于,包括以下步骤:S1,采用基础网络进行特征提取;基础网络作为一种网络体系结构,将所有具有匹配的映射特征大小的层直接连接在一起,每个层从前面所有层获取额外的输入,并将自己的映射特征传递给后面所有层;不在特性被传递到下一个网络层之前通过求和来组合它们,而是通过连接这些特性来进行组合;S2,采用多尺度转换模块,对于卷积网络生成的特征进行处理;采用多尺度转换模块将不同分辨率的映射特征的预测结果结合起来,在上述的网络体系结构中,最后一层的输出是具有不同尺寸大小的映射特征,且具有高维度的通道数;且通过所述网络体系结构,将底层特征直接转移到网络的顶部,得到了强语义特征,网络顶部的映射特征既有底层的细节信息,又有高层的语义信息,从而提高了目标定位和分类的性能;在多尺度转换模块中,一方面采用平均池化来获取低分辨率的映射特征,另一方面对于高分辨率的映射特征,采用将高纬度的通道数转换为更高分辨率的映射特征;S3,采用目标定位和分类模块,对目标进行精准定位以及对输出目标分类;是由目标定位子网和目标分类子网组成模块,通过定锚机制,为在多尺度转换模块中获得的每个映射特征的每个像素点配备上一组若干个尺寸的默认锚框。2.根据权利要求1所述的基于深度学习的多尺度转换目标检测算法,其特征在于,所述步骤S1具体为:通过卷积网络传递单个图像,网络由L层组成,每一层都是一个非线性变换fl(·),其中l是对网络中层次的索引;fl(·)可以是批量处理标准化,修正线性单元,池化或者卷积等操作的复合函数;定义第l层的输出为yl,第l层接受了前面所有层的映射特征fm0,fm1,…,fml-1作为输入,有:yl=fl([fm0,fm1,…,fml-1])其中([fm0,fm1,…,fml-1])表示在第0,1,…,l-1层产生的映射特征的拼接;通过在网络结构中不同的卷积块之间加入一个转化层来实现不同尺寸的映射特征,而该转化层包含一个批量标准化层BN,一个激活函数ReLU,一个卷积层Conv和一个池化层Pooling;其中,ReLU函数的具体表达式为:f(x)=max(0,x)因此,第i层网络有i个输入,包括前面所有卷积模块的映射特征,且自身的映...

【专利技术属性】
技术研发人员:招继恩龙飞胡建国杨焕朱勇杰王国良
申请(专利权)人:杰创智能科技股份有限公司中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1