基于YOLOv5-Deepsort算法的矿井人员目标视频跟踪方法及存储介质技术

技术编号：38706019 阅读：12 留言：0更新日期：2023-09-08 14:46

本发明专利技术公开了一种基于YOLOv5

全部详细技术资料下载

【技术实现步骤摘要】
基于YOLOv5
‑
Deepsort算法的矿井人员目标视频跟踪方法及存储介质

[0001]本专利技术属于计算机视觉领域，具体涉及一种基于YOLOv5
‑
Deepsort算法的矿井人员目标视频跟踪方法。

技术介绍

[0002]矿井环境恶劣，光线昏暗，并且存在着一些危险区域，矿井人员在作业过程中随时都会有事故发生特别是井下一些危险区域，不允许工作人员在未采取保护措施的情况下进入，但由于一些环境与人为的因素，并不能完全防范，对人员安全有着严重隐患。所以为了实现安全生产，需要采取有效的人员目标跟踪手段。由于井下采用的是人工照明的方式，缺乏色彩信息，并且目标的颜色与背景的颜色相似，所以将智能监控技术用于井下时面临着很大的困难。传统的井下人员跟踪方法主要采用ZigBee、RFID、UWB、WIFI以及蓝牙连接等技术，而这些技术在使用过程中较易受环境的影响，操作性不高，且还易丢失目标。近些年来涌现了视频跟踪方法，在井下人员定位与跟踪领域取得了良好效果。但受井下光线、粉尘等因素影响，需要研究针对性的视频跟踪方法来解决井下人员跟踪难题。而实现对矿井人员的准确目标跟踪，对于提升煤矿安全预警水平、提高生产效率发挥了巨大作用。

技术实现思路

[0003]本专利技术提出的一种基于YOLOv5
‑
Deepsort算法的矿井人员目标视频跟踪方法，以解决上述技术问题。
[0004]为实现上述目的，本专利技术采用了以下技术方案：
[0005]一种基于YOLOv5r/>‑
Deepsort算法的矿井人员目标视频跟踪方法，包括以下6个步骤：
[0006]步骤1：获取井下工作人员的图片，通过使用限制对比度自适应直方图均衡算法和中值滤波算法对图片进行优化处理；
[0007]步骤2：标记优化后的图片制作井下人员的数据集，将数据集划分为训练集和验证集；
[0008]步骤3：对YOLOv5算法进行优化处理，将其骨干网络更换为PP
‑
LCNet网络结构，在YOLOv5算法颈部引入Selective Kernel Attention注意力机制模块，对原预测框的损失函数更改为GIOU_Loss；
[0009]步骤4：使用改进的YOLOv5模型训练井下人员数据集，在训练完成后得到最优权重，获取训练中目标检测的各项指标数据，测试井下人员的目标检测结果；
[0010]步骤5：将目标检测结果输入到Deepsort中，利用卡尔曼滤波完成对井下人员轨迹的预测和状态估计；
[0011]步骤6：对井下人员利用马氏距离计算运动匹配，利用余弦距离计算外观匹配，基于匈牙利算法对井下人员进行级联匹配和IOU匹配，通过卡尔曼滤波参数更新确定跟踪结
果，并对井下人员分配ID编号，实现井下人员的目标跟踪；
[0012]进一步的，步骤1、获取井下工作人员的图片，通过使用限制对比度自适应直方图均衡算法和中值滤波算法对图片进行优化处理，具体包括：
[0013]所述井下工作人员的图片信息是通过监控视频和摄像头拍照等方式获取井下不同工作场景下人员的图像视频；
[0014]所述限制对比度自适应直方图均衡算法通过在计算累积直方图函数前，用预先定义的阈值来裁剪直方图以达到限制放大幅度的目的，其公式如下：
[0015][0016]式中m(i)为局部映射函数，M
×
M为滑动窗口大小，C
DF(i)
为累积直方图函数，从而局部映射函数的斜率S为:
[0017][0018]式中H
ist
(i)为直方图高度，因此，限制直方图高度就等效于限制局部映射函数的斜率，进而限制对比度强度，设限定最大斜率为S
max
，则允许的直方图高度最大为：
[0019][0020][0021]限制对比度自适应直方图均衡算法通过限制局部直方图的高度来限制局部对比度的增强幅度，限制噪声的放大和局部对比度的过增强；
[0022]所述中值滤波算法是把数字图像或数字序列中一点的值用该点的一个领域中各点值的中值代换，使得周围像素灰度值的差比较大的像素改取与周围的像素值接近的值；
[0023]进一步的，步骤2、标记优化后图片制作井下人员的数据集，将数据集划分为训练集和验证集：
[0024]所述图片的优化后，本专利技术标注了1000张优化图像用于训练与测试检测网络，采用旋转、镜像翻转、亮度变换和对比度增强的方式对原始图像数据进行扩增；
[0025]所述井下人员数据集是由Labelimg工具标记图像制作而成，并转换为训练所需的TXT格式；
[0026]所述训练集为总标记数据的80％，验证集为总标记数据的20％；
[0027]进一步的，步骤3、对YOLOv5算法进行优化处理，将其骨干网络更换为PP
‑
LCNet网络结构，在YOLOv5算法颈部引入Selective Kernel Attention注意力机制模块，对原预测框的损失函数更改为GIOU_Loss，具体包括：
[0028]所述YOLOv5目标检测模型，由Input、Backbone、Neck已及Output四个部分组成；
[0029]所述Input部分包括Mosaic数据增强、自适应锚框计算、自适应图片缩放三部分；Mosaic数据增强是指随机使用4张图片，随机缩放，再随机分布进行拼接；自适应锚框计算是指计算不同训练集中的最佳锚框值；自适应图片缩放三部分是指通过对原始图像自适应添加最少的黑边，使图像高度上两端的黑边减少，减少计算量；
[0030]所述Backbone(骨干网络)替换为PP
‑
LCNet网络结构；所述PP
‑
LCNet网络结构包括
CBL结构和DepthSepConv结构；所述CBL结构为普通卷积层、归一化层和激活函数组成；所述DepthSepConv结构是将卷积操作分成了两层，一层做filter计算，一层做合并计算，标准卷积运算和DepthSepConv结构卷积运算计算量的比例为：
[0031][0032]式中，D
K
是kernel的长宽，M为输入的输入的channel，D
F
是输出的长宽，N是是输出的channel，DepthSepConv结构的运算量少于普通卷积；
[0033]所述Neck(颈部)部分包括FPN和PAN的结构并引入Selective Kernel Attention注意力机制模块；FPN结构是指自顶而下的把高层的特征向下传递，补充低层的语义；PAN结构是指自底向上的将低层的定位特征传递上去；所述Selective Kernel Attention注意力机制模块包括Split分割、Fuse融合和Select选择；所述Split分割是指对于给定的特征图，分别以3和5的卷积核进行转换，分割算子生成不同核大小的多条路径，对应不同的神经元感受野大小；所述Fuse融合本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于YOLOv5
‑
Deepsort算法的矿井人员目标视频跟踪方法：包括以下步骤，步骤一：获取井下工作人员的图片，通过使用限制对比度自适应直方图均衡算法和中值滤波算法对图片进行优化处理；步骤二：标记优化后图片制作井下人员的数据集，将数据集划分为训练集和验证集；步骤三：对YOLOv5算法进行改进处理，将其骨干网络更换为PP
‑
LCNet网络结构，在YOLOv5算法颈部引入Selective Kernel Attention注意力机制模块，对原预测框的损失函数更改为GIOU_Loss；步骤四：使用改进的YOLOv5目标检测模型训练井下人员数据集，在训练完成后得到最优权重，获取训练中目标检测的各项指标数据，测试井下人员的目标检测结果；步骤五：将目标检测结果输入到Deepsort中，利用卡尔曼滤波完成对井下人员轨迹的预测和状态估计；步骤六：对井下人员利用马氏距离计算运动匹配，利用余弦距离计算外观匹配，基于匈牙利算法对井下人员进行级联匹配和IOU匹配，再通过卡尔曼滤波参数更新确定跟踪结果，并对井下人员分配ID编号，实现井下人员的目标跟踪。2.根据权利要求1所述的一种基于YOLOv5
‑
Deepsort算法的矿井人员目标视频跟踪方法，其特征在于，所述限制对比度自适应直方图均衡算法通过在计算累积直方图函数前，用预先定义的阈值来裁剪直方图以达到限制放大幅度的目的，其公式如下：式中m(i)为局部映射函数，M
×
M为滑动窗口大小，C
DF()
为累积直方图函数，从而局部映射函数的斜率S为:式中H
ist
()为直方图高度，因此，限制直方图高度就等效于限制局部映射函数的斜率，进而限制对比度强度，设限定最大斜率为S
max
，则允许的直方图高度最大为：，则允许的直方图高度最大为：限制对比度自适应直方图均衡算法通过限制局部直方图的高度来限制局部对比度的增强幅度，限制噪声的放大和局部对比度的过增强。3.根据权利要求1所述的一种基于YOLOv5
‑
Deepsort算法的矿井人员目标视频跟踪方法，其特征在于，井下图片优化后，标注了1000张优化图像用于训练与测试检测网络，采用旋转、镜像翻转、亮度变换和对比度增强的方式对原始图像数据进行扩增；所述井下人员数据集是由Labelimg工具标记图像制作而成，并转换为训练所需的TXT格式；所述训练集为总标记数据的80％，验证集为总标记数据的20％。4.根据权利要求1所述的一种基于YOLOv5
‑
Deepsort算法的矿井人员目标视频跟踪方
法，其特征在于，所述改进的YOLOv5目标检测模型，由Input、骨干网络Backbone、颈部Neck已及Output四个部分组成；所述Input部分包括Mosaic数据增强、自适应锚框计算、自适应图片缩放三部分；所述骨干网络Backbone替换为PP
‑
LCNet网络结构；所述颈部Neck部分包括FPN和PAN的结构，并引入Selective Kernel Attention注意力机制模块；所述Output部分Bounding box损失函数更改为GIOU_Loss函数，NMS非极大值抑制采用DIOU_nms函数；其中，所述Mosaic数据增强是指随机使用4张图片，随机缩放，再随机分布进行拼接；所述自适应锚框计算是指计算不同训练集中的最佳锚框值；所述自适应图片缩放是指通过对原始图像自适应添加最少的黑边，使图像高度上两端的黑边减少，减少计算量；所述PP
‑
LCNet网络结构包括CBL结构和DepthSepConv结构；所述CBL结构为普通卷积层、归一化层和激活函数组成；所述DepthSepConv结构是将卷积操作分成了两层，一层做filter计算，一层做合并计算，标准卷积运算和DepthSepConv结构卷积运算计算量的比例为：式中，D
K
是kernel的长宽，M为输入的输入的channel，D
F
是输出的长宽，N是是输出的channel，DepthSepConv结构的运算量少于普通卷积；所述FPN结构是指自顶而下的把高层的特征向下传递，补充低层的语义；所述PAN结构是指自底向上的将低层的定位特征传递上去；所述Selective Kernel Attention注意力机制模块包括Split分割、Fuse融合和Select选择；所述Split分割是指对于给定的特征图，分别以3和5的卷积核进行...

【专利技术属性】
技术研发人员：靳华伟，王浩伟，寇子明，王开松，王旭，
申请(专利权)人：安徽理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人