基于YOLO-M的安全帽检测算法制造技术

技术编号:37857863 阅读:9 留言:0更新日期:2023-06-15 20:48
本发明专利技术针对YOLOv5s模型大参数多,无法有效的检测密集安全帽目标。提出了一种安全帽检测算法YOLO

【技术实现步骤摘要】
基于YOLO

M的安全帽检测算法


[0001]本专利技术属于目标检测
,主要是对安全帽检测中密集安全帽目标进行改进优化。具体是一种基于YOLOv5s进行改进的安全帽检测算法YOLO

M,可应用于目标检测领域。

技术介绍

[0002]安全帽检测是目标检测算法的一个应用。而目标检测算法主要分为两大类:单阶段检测方法和二阶段检测方法。单阶段检测方法直接获得文本类别得分和位置坐标,速度快,但是准确度低。二阶段检测方法首先生成候选框然后再进行精细分类,分两步进行检测,速度,但是准确度高。在机器学习、图像处理等领域取得了广泛研究与应用。
[0003]到目前为止,已经有很多种检测算法被提出。如R

CNN系列算法,SSD算法,YOLO系列算法等。
[0004]2015年,Redmon等
[4]提出了一阶段检测模型YOLO(You Only Look Once),该网络模型首次将检测任务抽象为回归问题,避免了R

CNN系列中将检测任务分两步走的繁琐操作。

技术实现思路

[0005]YOLO是一种新的目标检测方法,该方法的特点是实现快速检测的同时还达到较高的准确率。作者将目标检测任务看作目标区域预测和类别预测的回归问题。该方法采用单个神经网络直接预测物品边界和类别概率,实现端到端的物品检测。同时,该方法检测速非常快,基础版可以达到45帧/s的实时检测;FastYOLO可以达到155帧/s。与当前最好系统相比,YOLO目标区域定位误差更大,但是背景预测的假阳性优于当前最好的方法。
[0006]在此基础上,YOLOv2引入了Batch Normalization层。BN层对数据进行预处理(统一格式、均衡化、去噪等)能够大大提高训练速度,提升训练效果。基于此,YOLOv2对每一层输入的数据都进行批量标准化,这样网络就不需要每层都去学数据的分布,收敛会变得更快。
[0007]SSD是一个经典的单阶段目标检测算法。SSD基于预设框(default box)进行目标检测,其网络结构如图1所示,输入图像首先通过卷积网络进行特征提取,在卷积网络中,不同的卷积层经过采样后输出的feature map尺寸不同,SSD提取了不同尺度的feature map来做检测,通过在不同尺寸的特征图上分配不同大小的default box,然后对default box进行边框回归(得到边框的中心坐标{x,y}以及宽高{w,h})和分类得到检测结果。
[0008]YOLO

M是一个出色的目标检测算法。其内容可以分为四个主要部分:
[0009]特征提取:YOLO

M使用卷积神经网络进行特征提取,经过基础的卷积层+激活函数层+池化层的逐层操作,提取到输入图片的特征,得到特征图用于后续的特征融合网络和全连接层。
[0010]特征融合网络:位于主干特征提取网络和检测层中间的模块通常被称为颈部,其
作用是将主干提取到的特征输送到检测层之前,融合更多的特征信息。当小目标的特征被提取到更高维度时,这个结构能够有效防止小目标的特征丢失。它通过再次对特征图进行上采样,以便提取融合主干不同层的特征信息并融合从而对检测结果产生影响。
[0011]注意力模块:注意力机制是通过在全局信息中寻找具有关键作用的局部信息来对数据进行处理,能够让模型针对性地关注有用信息,排除无用信息。本文提出BiCAM注意力模块它的思想是将输入的特征图Y沿着空间和通道两个维度得到两个注意力权重矩阵Zc、Zs,让输入特征图更关注目标区域,权重越大代表这个区域蕴含更多的语义信息,模型会更多的学习该区域特征,达到节省计算资源的目的。
[0012]分类:该层利用特征融合模块提供的候选区域特征图,通过softmax分类器计算候选区域的类别,同时再次使用回归计算获得候选区域的位置偏移量,最终得到检测框的精确位置。
[0013]本文的YOLO

M是在YOLOv5s基础上提出了BiCAM注意力模块,BiCAM注意力模块由两个基础注意力模块组成:通道注意力模块(channel attention module)[15]和空间注意力模块(spatial attention module)[16]。在卷积神经网络中,CAM聚焦于特征层中的有效特征层,因此通过对通道施加权重可以使网络更能注意到图像中对检测有用的信息。通道注意力模块对输入为H
×
W
×
C的特征图Y在空间维度上使用平均池化和最大池化收集目标特征。同时使用这两种池化操作可以在减少特征图大小和计算量的同时,提高网络的表达能力。接着将池化后的两个1
×1×
C的一维向量送入全连接层运算。最后经过element

wise求和进行合并,sigmoid激活生成通道注意力Zc。最后Anchor为若干个预设大小的矩形框,其位于滑动窗口的中心处,可以通过不同缩放尺度和宽高比来定义,采用{1282,2562,5122}三种大小和{1/2,1,2}三种宽高比的anchor。对于一个滑动窗口,我们可以预测k个proposal,因为在cls层有2k个输出,reg层有4k个输出。
[0014]本文方案采用MobileNetv3代替原始的CSPDarkNet53作为骨干网络,同时结合特征金字塔来提取特征图。传统的特征金字塔有五层架构,在实验中发现,最顶层特征金字塔结构提取出的特征图分辨率较为粗糙,不适用于安全帽的检测,因此我们构建了具有4层结构的特征金字塔{P1},1=1,2,3,4,其中l表示金字塔的每一层,步长分别设定为2,4,8,16。
[0015]为了提取到更加丰富的特征,使其更适用于安全帽检测,我们在融合不同尺度的特征图时借鉴残差连接思想,给同一尺度的特征图添加残差边。这样深层特征就可以获得浅层特征的信息,帮助模型获得更多的语义信息,提高模型检测效果。
[0016]通过该模块的使用,我们达到了两个目的,一是使用多个不同尺度的卷积核进行卷积运算,能够使提取到的特征尺度多样性更高;二是利用1
×
1的卷积核进行降维,减少计算复杂度,也保证在感受野大小不发生变化的前提下,通过叠加更多卷积操作来提取更为丰富的特征向量,从而使最后的分类结果更加准确。
[0017]在融合了不同尺度之后,还需要尽量扩大感受野,因此我们增加了一个空间注意力模块,对输入特征图进行加权计算,得到加权之后的特征图。具体计算如下:
[0018]U=f(v)
[0019]其中V是注意力模块的输入特征图,U为输出特征图,f(*)为特征图区域和周围区域权重的乘积。其中Sigmoid(x)=1/l+ex。在该结构中,我们使用1
×
1的卷积(步长为2,通道数为256)来将特征图缩小两倍,在使用1
×
1反卷积(步长为2,通道数为256)将上一步输
出的特征图放本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于YOLO

M的安全帽检测算法,其特征包括以下步骤:步骤1:特征提取阶段:使用MobileNetv3网络作为骨干网络,并引用改进的BiCAM注意力模块;步骤2:目标检测阶段:使用残差网络思想对特征融合阶段进行改进,将传统的Panet同一尺度特征图添加残差边,深层特征可以融合浅层语义特征,使模型能够应对密集安全帽目标的特点;步骤3:损失函数阶段:使用了CIOU取代传统的DIOU损失函数,进一步提高模型精度;步骤4:基于YOLO

M的安全帽检测模型的构建。2.根据权利要求1所述的基于YOLO

M的安全帽检测算法,其特征在于,所述步骤1中,引入MobileNetv3作为骨干网络,结合特征金字塔来提取特征图;同时在融合不同尺度的特征图时添加BiCAM注意力模块通过叠加更多卷积操作来提取更为丰富的特征向量,从而使最后的分类结果更加准确。3.根据权利要求1所述的基于YOLO

M的安全帽检测算法,其特征在于,所述步骤2中,提取到三个特征图之后,在其后面分别连接三个不同尺度的检测模块。每个检测模块都可以看作是一个滑动窗口检测器,在每一层特征金字塔结构上使用一个子网络对每个3
×
3的滑动窗口进行安全帽/非安全帽分类和边界框回归。4.根据权利要求1所述的基于YOLO

M的安全帽检测算法,其特征在于,所述步骤3中,引入...

【专利技术属性】
技术研发人员:张信杰王莉莉
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1