一种基于改进SparseR-CNN的目标检测方法技术

技术编号:38128846 阅读:12 留言:0更新日期:2023-07-08 09:35
一种基于改进Sparse R

【技术实现步骤摘要】
一种基于改进Sparse R

CNN的目标检测方法
[0001]本专利技术涉及计算机视觉领域,尤其涉及一种时间消耗少检测精度高的目标检测方法。

技术介绍

[0002]目标检测作为计算机视觉领域中的一项基本任务,在许多下游任务中得到了广泛的应用,比如自动驾驶、人脸识别等。其中抛开使用的硬件性能,下游任务中使用的目标检测算法性能将极大地影响下游任务本身。一般地,传统目标检测算法主要包括预处理、窗口滑动、特征提取、特征选择、特征分类和后处理等6个关键步骤。其中,窗口大小、滑动方式对特征提取的质量影响较大,常采用部位形变模型及其扩展模型对滑动窗口进行判别,如方向梯度直方图、尺度不变特征变换等,整个检测过程效率与精度都较低。近数十年,随着深度学习算法的快速发展,目标检测算法的效率和性能也得到了极大的提升,各种高精度、低耗时的目标检测模型也相继问世。目前的目标检测算法主要可以为分为两类:单阶段模型和两阶段模型。其中单阶段模型指的是将目标的定位和识别放在一个无分支的深度神经网络中直接输出输入图像中所有对象的位置和类别,经典的单阶段检测模型主要有yolo系列、ssd系列等;而两阶段模型首先使用候选框检测算法粗略确定图像中物体可能存在的位置,比如R

CNN中的选择性搜索算法和Faster R

CNN中的RPN网络等。对于单阶段检测模型而言,由于去除了候选框提取分支,一般而言检测速度要优于两阶段检测模型,但是精度却不及两阶段检测模型。因此两阶段和单阶段检测模型的侧重方面有所不同,单阶段模型更加注重检测速度,而两阶段检测模型更加注重精度。近年来,随着深度神经网络在工业界的使用,精度

速度更加权衡的检测模型成为了研究的热点,各种拥有较好精度

速度权衡的检测模型层出不穷。最近提出的目标检测新范式Sparse R

CNN,拥有着较高的检测精度同时检测速度也优于大部分检测模型,最为关键的是Sparse R

CNN实现简单,非常方便工业界的部署、算法复现以及改进。但是目前Sparse R

CNN也存在着一些问题:(1)Sparse R

CNN中采用了特征金字塔的候选框分配策略,即:,其中表示当目标大小为时应该分配的目标层级,分别表示目标的宽度和高度。此时,每一个目标只会被分配给一个特征层级,无法利用充分利用所有特征对目标进行检测。
[0003]由于Sparse R

CNN方法面临着上述问题,需要提出一个能有效解决这些问题的Sparse R

CNN改进方法。

技术实现思路

[0004]本专利技术设计了一种精度与效率更加权衡的改进Sparse R

CNN方法一种基于改进Sparse R

CNN的目标检测方法包括以下步骤:步骤101:图像特征提取步骤,使用主干网络对输入图像提取特征,通过卷积处理输出特征图;步骤102:区域特征提取步骤,以初始候选框及图像特征提取步骤中得到的输出特
征图为输入,使用方法进行双线性插值处理,提取初始候选框所在区域的区域特征;步骤103:区域特征混合步骤,以初始候选框特征与区域特征提取步骤得到的区域特征为输入,根据特征混合函数对区域特征进行融合,获得与每个候选框对应的混合区域特征;步骤104:区域特征细化步骤,以初始候选框特征与区域特征混合步骤输出的混合区域特征为输入,通过动态卷积对混合区域特征进行细化处理获得细化候选框特征;所述动态卷积是指使用初始候选框特征动态地生成卷积核,再对每个候选框的混合区域特征进行卷积;步骤105:区域特征预测步骤,解码细化候选框特征,获得对应区域内的物体类别以及物体的所在的具体位置,并跳转至步骤102,重复k次;训练阶段,使用k次迭代中区域特征预测步骤输出的所有预测结果计算损失,训练改进Sparse R

CNN网络;测试阶段,使用最后一次迭代中区域特征预测步骤输出的预测结果作为改进Sparse R

CNN的最终输出结果。
[0005]所述步骤101使用基于ResNet结构的分类网络作为检测主干网,将卷积层Conv3、Conv4、Conv5输出的图像特征图作为下一步骤的输入,同时使用步长为2的卷积对卷积层Conv5输出的图像特征图进行下采样,下采样结果作为下一步骤的额外输入。
[0006]所述步骤103中区域特征融合的具体步骤如下:步骤201:将步骤102提取出的区域特征和初始候选框特征作为输入;步骤202:使用线性投影函数将输入的初始候选框特征投影为一个混合权重向量用于混合区域特征;步骤203:使用标准的softmax函数对混合权重向量进行归一化处理;步骤204:使用经过归一化处理的混合权重向量作为权重进行特征的加权混合,得到与每个候选框对应的混合区域特征。
[0007]所述步骤105使用多个卷积层组成的分类头和回归头分别将输入的细化特征转换为预测分类分数和边界框偏移,用于预测物体的具体类别和位置。
[0008]通过使用特征混合处理方法混合区域特征,使得混合的特征既具有高维的抽象语义同时也具有低维的位置信息,有利于目标的检测与识别,特别是对于小目标对象检测。此外,由于提出的特征混合处理并没有引入过多的计算量和参数量,因此在极大提高精度的同时并没有明显增加检测时间。改进后的Sparse R

CNN的精度与速度权衡将比原始Sparse R

CNN更加优异。
附图说明
[0009]图1显示了改进Sparse R

CNN的整体流程图。
[0010]图2显示了改进Sparse R

CNN的模型图。
实施方式
[0011]下面结合实例对本专利技术的技术方案进行具体说明。
[0012]首先我们对改进Sparse R

CNN的初始输入数据进行一个简单说明。具体如下表所示:
[0013]其中初始候选框的数量N默认为100或300,初始候选框特征的数量与初始候选框数量一致,两者一一对应。
[0014]如图1所示,本专利技术提供了一种基于改进Sparse R

CNN的目标检测方法,图2是改进的Sparse R

CNN模型图。方法包括以下步骤。
[0015]1.图像特征提取步骤使用主干网络对输入图像提取特征(默认主干网络为resnet50),输出特征图,其中分别为ResNet网络中Conv3、Conv4、Conv5这3个卷积层输出的结果,特征图是通过在特征图上施加一个步长为2的卷积得到的,我们使用M表示输出特征图的数量,即M=4(包括后续步骤中的M)。计算方式如下所示,
[0016]其中X表示输入图像,表示ResNet主干网络。
[0017]2.区域特征提取步骤将图像特征提取步骤中得到的输出特征图以及初始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进Sparse R

CNN的目标检测方法,其特征在于,包括以下步骤:步骤101:图像特征提取步骤,使用主干网络对输入图像提取特征,通过卷积处理输出特征图;步骤102:区域特征提取步骤,以初始候选框及图像特征提取步骤中得到的输出特征图为输入,使用方法进行双线性插值处理,提取初始候选框所在区域的区域特征;步骤103:区域特征混合步骤,以初始候选框特征与区域特征提取步骤得到的区域特征为输入,根据特征混合函数对区域特征进行融合,获得与每个候选框对应的混合区域特征;步骤104:区域特征细化步骤,以初始候选框特征与区域特征混合步骤输出的混合区域特征为输入,通过动态卷积对混合区域特征进行细化处理获得细化候选框特征;所述动态卷积是指使用初始候选框特征动态地生成卷积核,再对每个候选框的混合区域特征进行卷积;步骤105:区域特征预测步骤,解码细化候选框特征,获得对应区域内的物体类别以及物体的所在的具体位置,并跳转至步骤102,重复k次,k为大于1的自然数;训练阶段,使用k次迭代中区域特征预测步骤输出的所有预测结果计算损失,训练改进Sparse R

CNN网络;测试阶段,使用最后一次迭代中区域特征预测步骤输出的预测结果作为改进Sparse R

【专利技术属性】
技术研发人员:万林刘玉玲张子航
申请(专利权)人:亿海兰特科技发展长沙有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1