一种基于全卷积网络的目标检测方法技术

技术编号：37471052 阅读：11 留言：0更新日期：2023-05-06 09:51

本发明专利技术属于人工智能及深度学习技术领域，提出了一种基于全卷积网络的目标检测方法。该方法使用残差连接的骨干网络分层次提取图像特征，并使用特征金字塔对低分辨率特征逐步上采样，使用注意力机制融合骨干网络中提取的高分辨率特征与上采样的低分辨率特征，并按层级输出不同尺寸的检测结果，从而关注不同尺寸的检测目标，解决目标检测中对小物体漏检率高的问题。本发明专利技术相比于其他方法，能够提取图像中更加丰富的视觉信息，保留更多的小尺度视觉特征信息；引入注意力模块，能够在空间和通道两个维度上进行特征提取，从而学习到更具判别性的特征信息，可以更好地完成目标检测任务，并具有更高的检测和识别准确率。具有更高的检测和识别准确率。具有更高的检测和识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于全卷积网络的目标检测方法

[0001]本专利技术涉及人工智能及深度学习
，具体涉及一种基于全卷积网络的目标检测方法。

技术介绍

[0002]近年来，深度学习在目标检测任务中发挥着重要作用，在机械、军事、医疗等领域超越了基于传统特征的检测方法。具体来说，基于深度学习的目标检测方法准确率高、推理速度快，在多项任务中证明了其优越性。
[0003]基于卷积神经网络(Convolutional NeuralNetworks,CNN)的深度学习方法因其出色的特征提取和语义理解能力已成为目标检测任务的主流。具体来说，这些方法主要可分为两类：基于锚框的方法和不基于锚框的方法。其中，基于锚框的方法可分为两阶段和单阶段方法。R
‑
CNN(Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2014:580
‑
587.)于2013年首次提出两阶段的方法，此后许多框架如Faster R
‑
CNN(Ren S,He K,Girshick R,et al.Faster r
‑
cnn:Towards realr/>‑
time object detection with region proposal networks[J].Advances in neural information processing systems,2015,28.)、FPN(Lin T Y,Doll
á
r P,Girshick R,et al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2017:2117
‑
2125.)在此基础上逐渐成熟，这些检测方法往往通过引入候选区域(RegionProposal)来获得锚框并进行回归。此外，单阶段方法包括YOLO(Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real
‑
time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:779
‑
788.)、SSD(Liu W,Anguelov D,Erhan D,et al.Ssd:Single shot multibox detector[C]//European conference on computer vision.Springer,Cham,2016:21
‑
37.)、RetinaNet(Lin T Y,Goyal P,Girshick R,et al.Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision.2017:2980
‑
2988.)可在一阶段完成目标的分类和回归，其优点是检测速度非常快。近年来，基于锚框的方法在提高准确性和效率上已经做了不少工作，但仍存在两大问题：一方面是这些方法为了找到与真实框接近的锚框需要大量的框，这导致训练速度减慢并且在推理时也需要使用特定算法筛选目标框，造成检测速度慢、实时性差。二是使用锚框会导致超参数组合的问题，如锚点的大小，纵横比以及数量，目前仍然没有有效的方法来自动调整这些超参数，且这些参数与检测任务、数据集有关，因此难以调优和通用。
[0004]而不基于锚框的方法(Anchor Free)可以改善锚框带来的各种问题，进行更快、更精细的检测。其本质上使用单阶段神经网络检测目标边界的关键点，从而消除获取大量锚
框的需要。首个不基于锚框的方法CornerNet(Law H,Deng J.Cornernet:Detecting objects as paired keypoints.Proceedings of the 15th European Conference on Computer Vision.Munich,Germany.2018.734
–
750.)使用两个网络分别检测左上角点和右下角点，但这种方法难以确定哪两个角点属于同一物体，精度不高，且识别速度较慢。为了提高检测精度，FCOS(Tian Z,Shen C,Chen H,et al.Fcos:Fully convolutional one
‑
stage object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision.2019:9627
‑
9636.)使用全卷积网络提取特征并进行逐像素预测，且使用特征金字塔结构充分利用了网络的浅层特征和深层特征。然而这种方法没有融合多维度、多层级特征，因此在算法准确度和鲁棒性方面还有提升空间。
[0005]在实际检测中往往有多方面困难因素，如待检测物体过小、背景中无关物体遮挡目标、存在目标相似的物体易被误检测，这为深度学习算法在实际目标检测任务中的推广造成了困难。因此复杂场景下小物体的精确检测仍然是一个具有挑战性的研究课题。

技术实现思路

[0006]本专利技术针对上述现有方法的不足，提出一种基于全卷积网络的目标检测方法，该方法使用残差连接的骨干网络分层次提取图像特征，并使用特征金字塔对低分辨率特征逐步上采样，使用注意力机制融合骨干网络中提取的高分辨率特征与上采样的低分辨率特征，并按层级输出不同尺寸的检测结果，从而关注不同尺寸的检测目标，解决目标检测中对小物体漏检率高的问题，提高检测精度与召回率；此外，此方法使用的卷积神经网络层数较浅，计算量小，可对待检测物体实现实时检测。
[0007]本专利技术的技术方案：
[0008]一种基于全卷积网络的目标检测方法，包括以下步骤：
[0009]步骤一：采集图像数据，从原始视频中截取关键图像帧作为样本，并对关键图像帧中的感兴趣目标位置进行包围框和类别的标注；
[0010]步骤二：划分数据集，将采集的图像数据集按照8:1:1的比例随机划分成训练集、验证本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于全卷积网络的目标检测方法，其特征在于，包括以下步骤：步骤一：采集图像数据，从原始视频中截取关键图像帧作为样本，并对关键图像帧中的感兴趣目标位置进行包围框和类别的标注；步骤二：划分数据集，将采集的图像数据集按照8:1:1的比例随机划分成训练集、验证集和测试集；步骤三：数据规整，利用缩放将各个图像的尺寸缩放至相同大小，同时进行数据归一化；步骤四：构建全卷积检测模型用于分类和检测；全卷积检测模型包括不包含全连接层的骨干网络模块、注意力增强的特征金字塔模块和多尺度预测模块；步骤五：训练全卷积检测模型，利用训练集对全卷积检测模型进行训练，观测训练时损失函数值的变化，并在损失函数值收敛时终止训练，得到当前训练好的全卷积检测模型；步骤六：验证全卷积检测模型效果，通过验证集测试全卷积检测模型效果，验证全卷积检测模型是否符合工程技术指标；符合则结束训练，否则修改全卷积检测模型网络结构参数重新训练；步骤七：获得检测结果，将待检测的图像输入到步骤六获得的训练完成的全卷积检测模型中，得到感兴趣目标的包围框和分类置信度结果。2.根据权利要求1所述的基于全卷积网络的目标检测方法，其特征在于，所述步骤四中的全卷积检测模型包括不包含全连接层的骨干网络模块、注意力增强的特征金字塔模块和多尺度预测模块；不包含全连接层的骨干网络模块用于提取整张图像的多尺度特征，其包括依次连接的基本卷积模块CBL和五个残差特征学习模块ResN；残差特征学习模块ResN主要由下采样模块Scale、基本卷积模块CBL和多个残差单元RU构成；残差特征学习模块表示为ResN(x)＝(RU
×
N(CBL(Scale(x))))；每个残差特征学习模块均对输入图片进行下采样操作；下采样模块的下采样倍数为2，即每次将图片的长和宽缩小一倍；基本卷积模块CBL主要由卷积层Conv、归一化层BN和激活层Leaky组成；基本卷积模块表示为：CBL(x)＝LeakyReLU(BN(Conv(x)))；激活层使用LeakyReLU激活函数；LeakyReLU激活函数表示为p为任意正数；残差单元RU主要由两个深度卷积模块DBL连接而成，使用深度卷积模块对输入图像提取特征，所提取的特征与输入图像加和操作，用于消除深度卷积网络训练时出现的“退化现象”；残差单元表示为RU(x)＝DBL(DBL(x))+x；深度卷积模块DBL包括依次连接的卷积层DConv、归一化层BN和激活层Leaky，深度卷积模块DBL表示为DBL(x)＝LeakyReLU(BN(DConv(x)))；注意力增强的特征金字塔模块分为四层网络层，除第一层外每层网络层均包括基本卷积模块CBL、特征上采样模块Up和注意力融合模块Attention，第一层网络层中不包含注意力融合模块Attention，注意力增强的特征金字塔模块对多尺度特征进行跨尺度融合；特征上采样模块将所输入特征的长和宽...

【专利技术属性】
技术研发人员：张平平，万子夫，卢湖川，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人