System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于YOLOv5的行人携物检测方法技术_技高网

一种基于YOLOv5的行人携物检测方法技术

技术编号:40672956 阅读:4 留言:0更新日期:2024-03-18 19:09
本发明专利技术属于目标检测领域,特别是涉及一种基于YOLOv5的行人携物检测方法。本发明专利技术将整个行人携物检测图像作为网络输入,并直接在输出层回归边界框的位置和类别,将目标检测问题转化为回归问题,从端到端一步解决。本发明专利技术提出了MOB‑YOLO网络结构,选择轻量化网络MobileNet v2作为特征提取的主干网络,大大减少模型的参数和计算量,并提高模型的运行速度。使用EIoU损失函数修正并优化原有的边界框损失函数。虽然非线性激活函数作为ReLU的替代品可以显著提高神经网络的准确性,但在移动设备等嵌入式环境中计算成本较高,本发明专利技术通过分段线性的非线性激活函数Hard‑Swish在保证准确性的同时降低计算成本。

【技术实现步骤摘要】

本专利技术属于目标检测领域,特别是涉及一种基于yolov5的行人携物检测方法。


技术介绍

1、目标检测的主要研究重点是在现实场景或输入图像中检测属于某些类别的物体并进行绝对定位,同时为每个检测目标分配预先定义好的类别标签。随着智能监控系统应用越来越广泛,智能监控算法的研究也随之成为计算机视觉领域的一个热点。行人携物检测是物品盗窃、物品交换等异常行为识别研究的一部分,对于安全监控、犯罪侦查和反恐监视具有重要意义。

2、尽管目标检测领域已经做出了许多努力,但携带物品检测方面的工作并不多。lee和elgammal在《carrying object detection using pose preserving dynamic shapemodels》中从人体自身轮廓出发,训练相应的匹配模板,提取待测目标轮廓并与训练模板匹配,多余像素认定为携带物体。该方法的检测效果取决于前景分割算法的选取,若分割出的目标干扰太多,匹配出的携物区域也较多,进而影响人体携物的检测。四川大学的王文杰在其硕士论文《基于视频序列的行人携物检测方法研究》中基于模板匹配的思想,对视频监控中行人是否携物进行分析,但存在模板库较为单一,判别精度不高等问题。因此,研究一种能够基于行人携物标注数据批量化、自动化检测物体信息的方法,对于智能监控等设备受限场景的相关应用至关重要。


技术实现思路

1、本专利技术提供基于行人携物标注数据的检测算法,用于解决以往行人携物检测效率低,精度低,大型检测网络在小型设备等受限场景中无法直接应用的问题。

2、本专利技术的技术方案如下:

3、一种基于yolov5的行人携物检测方法,步骤如下:

4、步骤1:采集不同场景行人携带物体及未携带物体状态下的若干图像,构建行人携物检测数据集。通过坐标转换以及手动标注等方法,把图像的标注文件转换为yolov5的适配格式,随机划分训练集、验证集和测试集。

5、步骤2:使用k-means算法对数据集进行重新聚类,以获取适用于行人携物检测的锚框。

6、步骤3:使用pytorch深度学习框架,确定学习率、批量大小以及训练迭代次数等参数,基于mob-yolo网络模型进行训练。图1所示为mob-yolo模型的网络结构,主要分为三个部分:backbone、neck和head。

7、(1)在yolov5的基础之上,网络主干backbone的主要结构替换为mobilenet v2,其具有更少的参数、更快的速度和更低的内存消耗,并使用深度可分离卷积替代传统卷积,在增加计算速度的同时减少参数数量,显著降低了对硬件设备计算能力的要求。网络主干输出三个不同尺度的分支,其中通过逐点卷积操作转换维度,以便连接到后续检测层。

8、(2)颈部结构采用fpn+panet的结构。fpn自顶向下,对特征层进行下采样,将高层特征信息与低层特征信息融合,传递更强的语义特征,提高模型学习图像特征的能力。fpn在多层网络后可能丢失一些底层目标信息,而pan对特征层进行上采样,利用底层传递的强定位信息,两者结合实现互补效果,增强模型的特征融合能力。

9、进一步地,在卷积神经网络中,恰当的激活函数能够增加非线性因素,并增强网络的非线性建模能力。本专利技术将hard-swish激活函数用于替代网络结构中的silu激活函数。hard-swish激活函数的公式如下:

10、

11、其中,x表示输入特征,relu6[x]=min(max(x,0),6),用于增加模型的非线性能力。

12、(3)预测部分采用二维卷积,使用二进制交叉熵损失函数计算分类概率损失和目标置信度损失,并使用非极大值抑制的方法来过滤生成的目标框。

13、进一步地,使用eiou损失函数计算边界框回归损失。目前,大多数基于锚框的目标检测算法通常使用预测边界框与真实边界框之间的l1范数和l2范数来计算损失中的位置回归损失。然而在评估过程中,通常使用交并比(iou,intersectionover union)来确定目标是否被检测到。这两种方法并不完全等价。iou损失用来衡量两个任意形状之间的相似性,公式如下:

14、

15、此度量具有非负性、对称性、三角不等式和尺度不敏感等良好的性质,但有两个缺点:一个是如果两个边界框之间没有任何交集,iou损失将始终为0,无法准确反映二者之间的接近程度;一个是iou损失的收敛速度较慢。

16、ciou损失考虑了三个重要的几何因素:重叠区域、中心点距离和宽高比。给定一个预测边界框b和一个真实目标框bgt,ciou损失定义如下:

17、

18、其中b和bgt分别表示b和bgt的中心点,ρ(·)=‖b-bgt‖2表示两个中心点间的欧几里得距离。c是覆盖两框的最小外接矩形的对角线长度。w和wgt分别表示预测框和真实框的宽度,h和hgt分别表示预测框和真实框的高度,用来衡量宽高比差异。然而,根据宽高比的定义,可以看出若满足线性比例{(w=kwgt,h=khgt)|k∈r+},那么在ciou中添加惩罚项的相对比例将不再起作用,这将阻碍模型优化的效果。为解决lciou的问题,eiou损失修正了ciou损失的不足,其定义如下:

19、

20、

21、其中cw和ch分别是能够包含预测框和真实框的最小外接矩形的宽度和高度,γ是控制异常值抑制程度的参数。

22、最终输出端的三个特征检测层对应于160×160、80×80和40×40分辨率的特征图,分别对应大、中、小目标的检测。

23、步骤4:模型训练完成后生成相关权重文件,在其基础上进行检测,输出行人携物对象的边界框位置、物体类别与置信度信息。

24、本专利技术的有益效果如下:

25、(1)将整个行人携物检测图像作为网络输入,并直接在输出层回归边界框的位置和类别,将目标检测问题转化为回归问题,从端到端一步解决。

26、(2)基于yolov5,本专利技术提出了mob-yolo网络结构,选择轻量化网络mobilenet v2作为特征提取的主干网络,大大减少模型的参数和计算量,并提高模型的运行速度。使用eiou损失函数修正并优化原有的边界框损失函数。

27、(3)虽然非线性激活函数作为relu的替代品可以显著提高神经网络的准确性,但在移动设备等嵌入式环境中计算成本较高,本专利技术通过分段线性的非线性激活函数hard-swish在保证准确性的同时降低计算成本。

本文档来自技高网...

【技术保护点】

1.一种基于YOLOv5的行人携物检测方法,其特征在于,步骤如下:

2.如权利要求1所述的一种基于YOLOv5的行人携物检测方法,其特征在于,将Hard-Swish激活函数用于替代YOLOv5网络结构中的SiLU激活函数;Hard-Swish激活函数的公式如下:

3.如权利要求1或2所述的一种基于YOLOv5的行人携物检测方法,其特征在于,所述的步骤3中,所述的损失函数采用EIoU损失函数计算边界框回归损失,其定义如下:

4.如权利要求1或2所述的一种基于YOLOv5的行人携物检测方法,其特征在于,所述的步骤4中,输出端的三个特征检测层对应于160×160、80×80和40×40分辨率的特征图,分别对应大、中、小目标的检测。

5.如权利要求3所述的一种基于YOLOv5的行人携物检测方法,其特征在于,所述的步骤4中,输出端的三个特征检测层对应于160×160、80×80和40×40分辨率的特征图,分别对应大、中、小目标的检测。

【技术特征摘要】

1.一种基于yolov5的行人携物检测方法,其特征在于,步骤如下:

2.如权利要求1所述的一种基于yolov5的行人携物检测方法,其特征在于,将hard-swish激活函数用于替代yolov5网络结构中的silu激活函数;hard-swish激活函数的公式如下:

3.如权利要求1或2所述的一种基于yolov5的行人携物检测方法,其特征在于,所述的步骤3中,所述的损失函数采用eiou损失函数计算边界框回归损失,其定义...

【专利技术属性】
技术研发人员:孙建人秦攀
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1