当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于改进的YOLOv5和DeepSORT的行人追踪方法技术

技术编号:34105011 阅读:54 留言:0更新日期:2022-07-12 00:16
本发明专利技术公开了一种基于改进的YOLOv5和DeepSORT的行人追踪方法,包括:收集行人训练数据集和行人重识别数据集,进行数据预处理;搭建改进的YOLOv5模型并进行训练,用于对行人检测:以YOLOv5模型为基础,针对检测精度较小问题进行改进,得到改进的YOLOv5模型;搭建改进的DeepSORT模型并进行训练,用于对行人追踪;对检测结果使用区间重叠检测算法过滤误检单位;使用改进的YOLOv5和DeepSORT模型进行行人追踪。本发明专利技术能够捕捉小目标行人的特征和与行人特征类似的单位,不易发生漏检与误检现象,可有效保证检测与追踪的实时性,检测精度高。高。高。

【技术实现步骤摘要】
一种基于改进的YOLOv5和DeepSORT的行人追踪方法


[0001]本专利技术涉及计算机视觉
,具体涉及一种基于改进的YOLOv5和DeepSORT(Simple Online and Realtime Tracking with a Deep Association Metric,使用深度关联度量的简单在线实时跟踪)的行人追踪方法。

技术介绍

[0002]中国交通事业发展迅速,已进入基础设施发展、服务水平提高和转型发展的黄金时期。随着道路交通的发展,交通事故数量也在不断攀升,其中高速公路的交通事故所占比例最大。造成交通事故的客观因素除了外在的客观因素,例如道路、车辆、恶劣天气等外,还有更多的个人原因,比如行人乱穿公路不遵守交通规定等,这些行为严重危及生产与公共安全。因而,对研究和开发行人实时检测与跟踪技术是非常重要的。
[0003]现有技术的实时检测与跟踪方法,包括DeepSORT、KCF(Kernel Correlation Filter,核相关滤波算法)等。中国专利申请(CN112668432A)“一种基于YOLOv5和DeepSort的地面互动投影系统中人体检测跟踪方法”,采用YOLOv5和DeepSORT模型实现对多目标的检测与追踪。该方法适用于对非小目标行人的检测与追踪,当行人目标过小时,其表现不佳。主要表现为:(1)不易捕捉小目标行人的特征,易发生漏检问题;(2)对一些与行人特征类似的单位,易发生误检问题;(3)使用的DeepSORT模型跟踪精度较低,跟踪框表现不稳定,易发生跳变现象。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的缺陷,提供一种基于改进的YOLOv5和DeepSORT的行人追踪方法,可捕捉小目标行人的特征和与行人特征类似的单位,不易发生漏检与误检现象;跟踪框表现稳定,无跳变现象,因而可有效保证检测与追踪的实时性,检测精度高。
[0005]为解决上述技术问题,本专利技术采用以下技术方案。
[0006]一种基于改进的YOLOv5和DeepSORT的行人追踪方法,包括以下步骤:
[0007]步骤1、收集行人训练数据集和行人重识别数据集,并进行数据预处理;
[0008]步骤2、搭建改进的YOLOv5模型并进行训练,用于对行人的检测:以YOLOv5模型为基础,针对检测精度较小问题进行改进,得到改进的YOLOv5模型,其结构包括输入端、主干层、颈部层和头部层;
[0009]步骤3、搭建改进的DeepSORT模型并进行训练,用于对行人的追踪;改进的DeepSORT模型包括目标检测器、卡尔曼滤波预测器、FastReID特征提取网络、特征匹配器和级联匹配模块;
[0010]步骤4、对检测结果使用区间重叠检测算法过滤误检单位;
[0011]步骤5、使用改进的YOLOv5和DeepSORT模型进行行人追踪,其算法流程包括:获取视频、进入检测流程和跟踪流程。
[0012]步骤1中所述的数据集收集和数据预处理包括:
[0013]步骤1

1.收集行人数据集即针对改进的YOLOv5模型训练数据集,和收集行人重识别数据集:收集COCO数据集中的行人标注图片和标注信息、收集3000张在监控视频不同视角下易与行人发生误判单位,并使用LabelImg工具对收集到的图片进行矩形框标注然后写入XML文件中,最终得到易与行人发生误判单位的标注图片和标注信息;针对行人重识别数据集为Market

1501数据集中的行人标注图片和标注信息;
[0014]步骤1

2.对改进的YOLOv5模型训练数据集和行人重识别数据集进行数据增强,包括:随机裁剪:找到图像的中心点,以垂直方向进行裁剪,将原图像一分为二,得到两张新图像;镜像操作:通过找到图像的中心点,像素进行左右置换,得到新的图像。
[0015]步骤2中所述的搭建改进的YOLOv5模型并进行训练,包括:
[0016]步骤2

1.搭建改进的YOLOv5模型的输入端,包括:(1)Mosaic数据增强:将四张图片通过翻转、缩放、区域内的色域变化拼接在一张图片内;(2)自适应图片缩放:规定进行训练的图片大小为608
×
608,对x
×
y进行缩放;计算缩放后的x与y的大小,分别表示为x1与y1,其中x1=x
×
min{x/608,y/608},y1=y
×
min{x/608,y/608};如果x1<608,则对应的x高度上下添加[(608

x1)%64]/2高度的黑边,最终凑成608
×
608大小的图片;同理y方向操作,其中min操作表示为取花括号内最小的值,%表示为取余操作;
[0017]步骤2

2.搭建改进的YOLOv5模型的主干层:引入CBAM注意力机制改进C3结构,将其命名为C3A,且内部结构包括一个C3结构与一个CBAM注意力机制模块;C3结构包括两层卷积层与一次特征相加操作,通过对特征相加操作后输出的特征F,进入CBAM注意力机制模块,进行两步特征提取,最终输出提取后的结果,两步特征提取如公式(1)(2)所示:
[0018]M
c
(F)=σ(MLP(AvgPool(F))+MLP(MaxPool)(F)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0019]M
s
(F)=σ(f7×7([AvgPool(M
c
(F));MaxPool(M
c
(F))]))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0020]其中,Mc(F)为公式(1)特征提取后的输出值,AvgPool为平均池化层,MaxPool为最大池化层,MLP为两层神经元,f7×7为7
×
7的卷积,Ms(F)为第二步特征提取后的输出值,即最终输出值;
[0021]步骤2

3.搭建改进的YOLOv5模型的颈部层:采用FPN与PAN结构,对主干层输出的特征进行融合;
[0022]步骤2

4.搭建改进的YOLOv5模型的头部层:对采用FPN与PAN融合后的特征进行预测,使用CIOU_Loss作为预测框的损失函数与加权NMS方法对锚框进行筛选,CIOU_Loss函数如下:
[0023][0024]其中,ρ2(B,B
gt
)表示预测框和真实框他们中心点的距离,B表示为预测框,B
gt
表示为真实框,B∩B
gt
为预测框与真实框之间的并集,B∪B
gt
为预测框与真实框之间的交集,w表示为预测框的宽度,h表示预测框的高度,w
gt
为真实框的宽度,h
gt
表示为真实框的高度,c2表示预测框与真实框形成的外接矩形对角本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,包括以下步骤:步骤1、收集行人训练数据集和行人重识别数据集,并进行数据预处理;步骤2、搭建改进的YOLOv5模型并进行训练,用于对行人的检测:以YOLOv5模型为基础,针对检测精度较小问题进行改进,得到改进的YOLOv5模型,其结构包括输入端、主干层、颈部层和头部层;步骤3、搭建改进的DeepSORT模型并进行训练,用于对行人的追踪;改进的DeepSORT模型包括目标检测器、卡尔曼滤波预测器、FastReID特征提取网络、特征匹配器和级联匹配模块;步骤4、对检测结果使用区间重叠检测算法过滤误检单位;步骤5、使用改进的YOLOv5和DeepSORT模型进行行人追踪,其算法流程包括:获取视频、进入检测流程和跟踪流程。2.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,步骤1中所述的数据集收集和数据预处理包括:步骤1

1.收集行人数据集即针对改进的YOLOv5模型训练数据集,和收集行人重识别数据集:收集COCO数据集中的行人标注图片和标注信息、收集3000张在监控视频不同视角下易与行人发生误判单位,并使用LabelImg工具对收集到的图片进行矩形框标注然后写入XML文件中,最终得到易与行人发生误判单位的标注图片和标注信息;针对行人重识别数据集为Market

1501数据集中的行人标注图片和标注信息;步骤1

2.对改进的YOLOv5模型训练数据集和行人重识别数据集进行数据增强,包括:随机裁剪:找到图像的中心点,以垂直方向进行裁剪,将原图像一分为二,得到两张新图像;镜像操作:通过找到图像的中心点,像素进行左右置换,得到新的图像。3.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,步骤2中所述的搭建改进的YOLOv5模型并进行训练,包括:步骤2

1.搭建改进的YOLOv5模型的输入端,包括:(1)Mosaic数据增强:将四张图片通过翻转、缩放、区域内的色域变化拼接在一张图片内;(2)自适应图片缩放:规定进行训练的图片大小为608
×
608,对x
×
y进行缩放;计算缩放后的x与y的大小,分别表示为x1与y1,其中x1=x
×
min{x/608,y/608},y1=y
×
min{x/608,y/608};如果x1<608,则对应的x高度上下添加[(608

x1)%64]/2高度的黑边,最终凑成608
×
608大小的图片;同理y方向操作,其中min操作表示为取花括号内最小的值,%表示为取余操作;步骤2

2.搭建改进的YOLOv5模型的主干层:引入CBAM注意力机制改进C3结构,将其命名为C3A,且内部结构包括一个C3结构与一个CBAM注意力机制模块;C3结构包括两层卷积层与一次特征相加操作,通过对特征相加操作后输出的特征F,进入CBAM注意力机制模块,进行两步特征提取,最终输出提取后的结果,两步特征提取如公式(1)(2)所示:M
c
(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
ꢀꢀꢀꢀ
(1)M
s
(F)=σ(f7×7([Avgpool(M
c
(F));Maxpool(M
c
(F))]))
ꢀꢀꢀꢀ
(2)其中,Mc(F)为公式(1)特征提取后的输出值,AvgPool为平均池化层,MaxPool为最大池化层,MLP为两层神经元,f7×7为7
×
7的卷积,Ms(F)为第二步特征提取后的输出值,即最终输出值;步骤2

3.搭建改进的YOLOv5模型的颈部层:采用FPN与PAN结构,对主干层输出的特征
进行融合;步骤2

4.搭建改进的YOLOv5模型的头部层:对采用FPN与PAN融合后的特征进行预测,使用CIOU_Loss作为预测框的损失函数与加权NMS方法对锚框进行筛选,CIOU_Loss函数如下:其中,ρ2(B,B
gt
)表示预测框和真实框他们中心点的距离,B表示为预测框,B
gt
表示为真实框,B∩B
gt
为预测框与真实框之间的并集,B∪B
gt
为预测框与真实框之间的交集,w表示为预测框的宽度,h表示预测框的高度,w
gt
为真实框的宽度,h
gt
表示为真实框的高度,c2表示预测框与真实框形成的外接矩形对角线的长度;步骤2

5.将行人数据集中针对改进的YOLOv5模型训练数据集输入,将图片尺寸设置为608
×
608,batch

size设置为16,共训练260个epoch;一个epoch即训练集中的所有图片都在改进的YOLOv5模型中正向与反向各传播一次进行训练,得到效果最优的改进的YOLOv5模型用于后续检测。4.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法,其特征在于,步骤3中所述的搭建改进的DeepSORT模型并进行训练,包括:步骤3

1.使用改进的YOLOv5模型作为改进的DeepSORT模型的目标检测器;步骤3

2.使用卡尔...

【专利技术属性】
技术研发人员:胡鹤轩周洁胡强张晔袁子扬许天霖岳海洋
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1