当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于多尺度特征图的目标快速检测方法技术

技术编号:18895624 阅读:54 留言:0更新日期:2018-09-08 11:29
本发明专利技术公开了一种基于多尺度特征图的目标快速检测方法。包括以下步骤:首先,通过卷积神经网络自动提取多尺度特征图,避免了传统方法中复杂的特征设计及提取过程。其次,考虑到不同卷积层学习到的特征表达各不相同,提出一种有效的特征图融合方法,并通过轻量级的压缩型双线性函数来实现,以提升特征图融合效率,丰富上下文信息。在此基础上,将多尺度特征图与通道注意机制结合,突出有用信息,抑制冗余信息,进一步增强特征图的表征能力。最后,将增强后的多尺度特征图用于目标检测,通过多次迭代训练得到最优模型。相比现有技术,本发明专利技术所提方法在提升检测精度的同时尽量降低时间成本,实现了目标的快速检测,在移动机器人、自动驾驶及智能视频监控等方面具有广阔的应用前景。

A fast target detection method based on multi-scale feature map

The invention discloses a fast target detection method based on multi-scale feature maps. It includes the following steps: Firstly, multi-scale feature map is automatically extracted by convolution neural network, which avoids the complex feature design and extraction process in traditional methods. Secondly, considering that different convolution layers have different features, an effective feature graph fusion method is proposed, which is implemented by a lightweight compression bilinear function to improve the efficiency of feature graph fusion and enrich the context information. On this basis, the multi-scale feature map is combined with the channel attention mechanism to highlight useful information, suppress redundant information, and further enhance the characterization ability of the feature map. Finally, the enhanced multi-scale feature map is applied to target detection, and the optimal model is obtained by iterative training. Compared with the existing technology, the method of the invention can improve the detection accuracy and reduce the time cost as far as possible, and realize the rapid detection of the target. It has broad application prospects in mobile robot, automatic driving and intelligent video surveillance.

【技术实现步骤摘要】
一种基于多尺度特征图的目标快速检测方法
本专利技术涉及一种基于多尺度特征图的目标快速检测方法,属于计算机视觉与智能信息处理领域。
技术介绍
目标检测,作为其他高层视觉处理和分析任务的基础,一直是计算机视觉领域的核心问题之一,在移动机器人、自动驾驶以及智能视频监控系统等诸多方面具有重要的经济和实用价值,潜力巨大。针对海量的图像数据和动态变化的场景,高效地获取并识别各类感兴趣目标,实现精确而快速的目标检测,具有重要意义。传统的目标检测方法依赖于人工设计特征,并将提取的特征输入分类器进行分类与识别。然而,人工设计特征存在诸多局限,如数据规模较小,泛化能力差,难以应用于复杂多变的实际场景等。近年来,深度学习,尤其是卷积神经网络在计算机视觉领域和自然语言处理领域的巨大成功,引发了学者浓厚的研究兴趣。随着一系列深度卷积神经网络的提出,如AlexNet、VGGNet、GoogLeNet、ResNet以及DenseNet等,目标检测方法的研究取得了飞跃性的进展。目前,基于深度学习的目标检测与识别方法大致分为两类:基于区域建议的方法和无区域建议的方法。基于区域建议的方法大致遵循区域建议、特征表示和区域分类三个步骤,包括R-CNN系列方法,取得了较高的检测精度,但计算复杂度相对较高,难以满足实时性的应用需求。无区域建议的方法一般采用回归的思想来检测边框位置及所属类别,主要包括YOLO、SSD等。无区域建议的方法突破了实时性方面的瓶颈,但是检测效果有限,对相互靠近的群体以及小目标检测精度不高。因此,如何在提高检测精度的同时兼顾速度,实现精确的目标快速检测,逐渐成为目标检测方向的研究趋势。
技术实现思路
本专利技术提出了一种基于多尺度特征图的目标快速检测方法,目的就在于为解决上述问题而提供一种精度较高的目标快速检测方法。本专利技术通过以下技术方案来实现上述目的:一种基于多尺度特征图的目标快速检测方法,包括以下步骤:(1)初步提取多尺度特征图本专利技术通过卷积神经网络模型提取多尺度特征图,模型主要包括两部分:一部分是用来初步提取特征的基础网络,采用VGG-16网络模型,包括从Conv1到Conv5的5组卷积层,及转换为卷积层的FC6和FC7,所有卷积层使用相同大小的卷积核;另一部分是末端添加的多个级联卷积层,用于提取不同尺度的卷积特征图。(2)构建特征图融合模块卷积神经网络通过不同的卷积核自行提取特征,将原始数据经过一些非线性变换转变为更高层次的、更加抽象的表达,再进行分类识别等。随着网络层数的加深,深层特征图的抽象能力更强,语义类别信息更丰富,而浅层特征图包含的细节信息更多,能很好地定位目标。本专利技术采用6组不同尺度的卷积特征图,还增加了基础网络中卷积层Conv5_3的特征图,并将其与FC7层特征图进行融合,以丰富上下文信息,增强特征图的表达能力。(3)压缩型双线性融合方法当前的特征融合方法主要包括加性融合、最大值融合以及级联融合。其实,双线性融合方法能更好地捕捉特征之间的复杂联系,它通过计算两组特征向量的外积后求和,使得所有元素充分进行相互作用。本专利技术通过一种压缩型双线性函数将Conv5_3与FC7层特征图进行融合,将传统的双线性变换看成一种多项式核函数,并根据TensorSketch方法来近似地计算出融合后的D维向量。考虑到待融合的卷积层通道数不同,在融合之前先引入卷积核大小为1×1的卷积层,统一特征图的尺寸。令F1,F2∈RH×W×C分别表示两组特征图,H、W和C分别表示特征图的长、宽和通道数,则在位置(h,w)处分别存在C维的特征向量f1(h,w),f2(h,w)∈RC,这里h∈[1,H],w∈[1,W],为方便表示后面均省略了(h,w)。首先,利用CountSketch函数Ψ将特征向量fk∈RC映射到特征空间,k=1,2。定义两个向量vk∈{-1,1}C,rk={1,...,D}C,服从均匀分布初始化,并在之后的调用中保持不变。这里rk用于寻找特征向量的第i个元素fk(i)在特征空间中对应的索引j=rk(i),则有Ψ(fk,rk,vk)={Q1,Q2,...QD}(1)式中i∈{1,...,C},j∈{1,...,D}。其次,两个向量外积的CountSketch可以通过计算各自CountSketch的卷积得到,即式中*表示卷积运算。另外,卷积定理指出,时域中的卷积等价于频域中的乘积。于是上述公式(3)可进一步表示为式中表示逐元素乘积。需要注意的是,传统的双线性融合方法在计算出外积后还要对特征图上所有元素进行累加。本专利技术为了使融合后的卷积特征保持二维特征图的形式,不进行池化运算,令融合后的特征图先经过求平方根处理,再通过卷积核大小为1×1的卷积层恢复至C个通道,最后通过L2正则化生成最终的特征图,作为后续网络结构的输入。(4)将多尺度特征图与通道注意机制结合卷积神经网络通过堆叠一系列的卷积层、非线性层和池化层,捕捉能够充分表征全局信息的特征作为图像描述符。其中,每个卷积层利用多个卷积核学习局部感受野上的空间信息和通道维度信息,生成一组多通道的特征图,实现有效的特征提取。考虑到浅层卷积特征普遍是类别信息不可知的,而较深层的特征具有更高的类别特异性,本专利技术将融合后的多尺度特征图与通道注意机制结合,即在特征检测网络的浅层和深层均置入Squeeze-and-Excitation模块,学习多尺度特征图不同通道之间的相互关系,自适应地调整各通道权重,然后对原特征图进行重新标定后再输入检测模块。给定一组卷积特征图F∈RH×W×C,通道数为C,首先利用全局平均池化(Globalaveragepooling)对其进行Squeeze操作,将每个通道中的特征图大小变为1×1,使之具有全局感受野,生成向量Z∈R1×1×C,i∈[1,C],即其次是Excitation操作,构造一种基于Sigmoid函数的简单门限机制,来自适应地学习各个通道的权重。先是通过全连接(Fully-connected,FC)层将通道数降到原本的1/16,经ReLu激活层后通过下一个FC层还原至C个通道,以更好地拟合通道之间复杂的非线性关系。之后利用Sigmoid函数将各个通道的权重归一化至区间[0,1]。这一过程可表示为ω=Sigmoid[W2δ(W1f)](6)式中δ为ReLU激活函数,f为输入的向量,W1和W2分别对应两个FC层的权重。最后,通过乘法操作将各个通道的权重赋予相应的原始特征图,完成通道特征的自适应标定过程。(5)通过多次迭代训练最优模型在训练阶段,对目标对象的位置偏移量和类别置信度同时进行回归,损失函数可表示为位置损失Lloc和类别置信度损失Lconf的加权和,即式中N为与真实物体框所匹配的默认框个数,x为默认框与真实物体框的匹配结果,l和s分别表示预测结果的位置信息和类别置信度,g为真实物体框,α为权重。通过多次迭代训练,减小损失函数值,不断提升目标检测模型的性能。本专利技术的有益效果在于:本专利技术通过卷积神经网络初步提取卷积特征图,提出特征图融合模块以增加特征来源,再将多尺度特征图与通道注意机制结合,增强特征图的表达能力,明显提升了检测精度,同时检测速度达到63fps,较好地平衡了检测精度与速度之间的关系,在移动机器人、自动驾驶及智能视频监控等方面具有广泛的本文档来自技高网
...

【技术保护点】
1.一种基于多尺度特征图的目标快速检测方法,其特征在于包括以下步骤:步骤一:搭建卷积神经网络,以包含5组卷积层的VGG‑16模型作为基础网络,并添加多个额外的卷积层,初步提取多尺度的卷积特征图;步骤二:构建卷积特征图融合模块,将基础网络中Conv5_3层与FC7层的特征图进行融合,增加特征来源,丰富上下文信息;步骤三:使用一种压缩型双线性函数实现特征图的融合,得到融合后的特征图;步骤四:将多尺度特征图与通道注意机制结合,进一步增强特征图的判别能力;步骤五:将增强后的多尺度特征图输入检测模型,在训练阶段同时对目标位置和类别进行回归,通过多次迭代最小化损失函数,直至得到性能较好的检测模型。

【技术特征摘要】
1.一种基于多尺度特征图的目标快速检测方法,其特征在于包括以下步骤:步骤一:搭建卷积神经网络,以包含5组卷积层的VGG-16模型作为基础网络,并添加多个额外的卷积层,初步提取多尺度的卷积特征图;步骤二:构建卷积特征图融合模块,将基础网络中Conv5_3层与FC7层的特征图进行融合,增加特征来源,丰富上下文信息;步骤三:使用一种压缩型双线性函数实现特征图的融合,得到融合后的特征图;步骤四:将多尺度特征图与通道注意机制结合,进一步增强特征图的判别能力;步骤五:将增强后的多尺度特征图输入检测模型,在训练阶段同时对目标位置和类别进行回归,通过多次迭代最小化损失函数,直至得到性能较好的检测模型。2.根据权利要求1所述的基于多尺度特征图的目标快速检测方法,其特征在于:步骤一中所述的卷积神经网络模型主要包括从Conv1到Conv5的5组卷积层,由全连接层转变的卷积层FC6和FC7,末端添加的一系列级联卷积层,及激活层、池化层等。3.根据权利要求1所述的基于多尺度特征图的目标快速检测方法,其特征在于:步骤二中所述构建卷积特征图融合模块:卷积神经网络通过不同的卷积核自行提取特征,将原始数据经过一些非线性变换转变为更高层次的、更加抽象的表达,再进行分类识别,考虑到每一个卷积层所学习的特征表达均不同,本发明在采用6组不同特征图的基础上,增加了基础网络中卷积层Conv5_3的特征图,并将其与FC7层特征图进行融合,以增强特征图的表达能力。4.根据权利要求1所述的基于多尺度特征图的目标快速检测方法,其特征在于:步骤三所述的融合方法包括以下步骤:(1)考虑到待融合的卷积特征图通道数不同,在融合之前先引入卷积核大小为1×1的卷积层,在通道的维度上进行线性组合,以统一特征图的通道数;(2)采用压缩型双线性函数来实现卷积特征图的融合,将传统的双线性变换看成一种多项式核函数,并根据TensorSketch方法来近似地计算出融合后的D维向量,令F1,F2∈RH×W×C分别表示两组特征图,H、W和C分别表示特征图的长、宽和通道数,则在位置(h,w)处分别存在C维的特征向量f1(h,w),f2(h,w)∈RC,这里h∈[1,H],w∈...

【专利技术属性】
技术研发人员:何小海单倩文滕奇志吴晓红卿粼波王正勇余艳梅
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1