【技术实现步骤摘要】
一种基于深度学习的多尺度转换目标检测算法
本专利技术涉及多尺度转换目标检测算法,具体涉及一种基于深度学习的多尺度转换目标检测算法。
技术介绍
目前,目标检测作为计算机视觉中经典的研究内容之一,在研究领域得到越来越多的关注。目标检测是通过分析成像传感器获得到的场景视频图像帧,从背景信息中识别出目标的类别,并给出目标在图像中的位置信息,从而为后续的目标追踪,情景识别等任务提供可靠的数据来源。因此,目标检测也是广泛应用于各个领域,如交通运输,智能安防,军事领域等等。近年来,卷积神经网络在目标检测等计算机视觉任务中取得了巨大的成功。人工构造的特征被卷积神经网络的特征所代替,大大提高了目标检测器的性能。目前最先进的目标检测方法是基于卷积神经网络的,例如SPPnet,FastR-CNN、FasterR-CNN、R-FCN、YOLO等使用卷积神经网络顶层的特征检测不同尺度的对象。然而,由于卷积神经网络的每一层都有一个固定的感受野,仅利用一层的特征来预测不同尺度的目标并不是最理想的。而进一步提高多尺度目标检测精度的方法主要有两种:①使用多层特征的组合来检测目标;②利用不同层的特征来预测不同尺度的物体。对于第一种方法,ION使用了跳跃式的池化层在多个层中提取信息,然后使用组合特征检测目标。HyperNet融合了图像的深,中,浅不同层次的特征用于生成目标兴趣区域和检测目标。YOLOv2通过一个额外的层次将高分辨率的特征与低分辨率特征连接起来,并在这个扩展的映射特征上进行检测。这些方法的基本思想是通过结合低层特征和高层特征来增强特征的性能。对于第二种方法,如SSD,MS-CNN ...
【技术保护点】
1.一种基于深度学习的多尺度转换目标检测算法,其特征在于,包括以下步骤:S1,采用基础网络进行特征提取;基础网络作为一种网络体系结构,将所有具有匹配的映射特征大小的层直接连接在一起,每个层从前面所有层获取额外的输入,并将自己的映射特征传递给后面所有层;不在特性被传递到下一个网络层之前通过求和来组合它们,而是通过连接这些特性来进行组合;S2,采用多尺度转换模块,对于卷积网络生成的特征进行处理;采用多尺度转换模块将不同分辨率的映射特征的预测结果结合起来,在上述的网络体系结构中,最后一层的输出是具有不同尺寸大小的映射特征,且具有高维度的通道数;且通过所述网络体系结构,将底层特征直接转移到网络的顶部,得到了强语义特征,网络顶部的映射特征既有底层的细节信息,又有高层的语义信息,从而提高了目标定位和分类的性能;在多尺度转换模块中,一方面采用平均池化来获取低分辨率的映射特征,另一方面对于高分辨率的映射特征,采用将高纬度的通道数转换为更高分辨率的映射特征;S3,采用目标定位和分类模块,对目标进行精准定位以及对输出目标分类;是由目标定位子网和目标分类子网组成模块,通过定锚机制,为在多尺度转换模块中获得的 ...
【技术特征摘要】
1.一种基于深度学习的多尺度转换目标检测算法,其特征在于,包括以下步骤:S1,采用基础网络进行特征提取;基础网络作为一种网络体系结构,将所有具有匹配的映射特征大小的层直接连接在一起,每个层从前面所有层获取额外的输入,并将自己的映射特征传递给后面所有层;不在特性被传递到下一个网络层之前通过求和来组合它们,而是通过连接这些特性来进行组合;S2,采用多尺度转换模块,对于卷积网络生成的特征进行处理;采用多尺度转换模块将不同分辨率的映射特征的预测结果结合起来,在上述的网络体系结构中,最后一层的输出是具有不同尺寸大小的映射特征,且具有高维度的通道数;且通过所述网络体系结构,将底层特征直接转移到网络的顶部,得到了强语义特征,网络顶部的映射特征既有底层的细节信息,又有高层的语义信息,从而提高了目标定位和分类的性能;在多尺度转换模块中,一方面采用平均池化来获取低分辨率的映射特征,另一方面对于高分辨率的映射特征,采用将高纬度的通道数转换为更高分辨率的映射特征;S3,采用目标定位和分类模块,对目标进行精准定位以及对输出目标分类;是由目标定位子网和目标分类子网组成模块,通过定锚机制,为在多尺度转换模块中获得的每个映射特征的每个像素点配备上一组若干个尺寸的默认锚框。2.根据权利要求1所述的基于深度学习的多尺度转换目标检测算法,其特征在于,所述步骤S1具体为:通过卷积网络传递单个图像,网络由L层组成,每一层都是一个非线性变换fl(·),其中l是对网络中层次的索引;fl(·)可以是批量处理标准化,修正线性单元,池化或者卷积等操作的复合函数;定义第l层的输出为yl,第l层接受了前面所有层的映射特征fm0,fm1,…,fml-1作为输入,有:yl=fl([fm0,fm1,…,fml-1])其中([fm0,fm1,…,fml-1])表示在第0,1,…,l-1层产生的映射特征的拼接;通过在网络结构中不同的卷积块之间加入一个转化层来实现不同尺寸的映射特征,而该转化层包含一个批量标准化层BN,一个激活函数ReLU,一个卷积层Conv和一个池化层Pooling;其中,ReLU函数的具体表达式为:f(x)=max(0,x)因此,第i层网络有i个输入,包括前面所有卷积模块的映射特征,且自身的映...
【专利技术属性】
技术研发人员:招继恩,龙飞,胡建国,杨焕,朱勇杰,王国良,
申请(专利权)人:杰创智能科技股份有限公司,中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。