一种改进YOLOX算法的地铁场景行人目标检测方法及系统技术方案

技术编号：40359413 阅读：8 留言：0更新日期：2024-02-09 14:46

本发明专利技术公开了一种改进YOLOX算法的地铁场景行人目标检测方法及系统，涉及深度学习和计算机视觉技术领域，包括以下步骤：接收行人目标数据集，对行人目标数据集进行预处理，得到预处理行人目标数据集，将预处理行人目标数据集按比例划分为训练集、验证集和测试集；将训练集和验证集输入至预先建立的改进YOLOX模型内，输出得到训练后的最优改进YOLOX模型，将测试集输入至训练后的最优改进YOLOX模型内，输出得到行人目标检测结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习和计算机视觉，具体的是一种改进yolox算法的地铁场景行人目标检测方法及系统。

技术介绍

1、目标检测是计算机视觉中重要研究领域之一，其任务是找出图像或视频中预定义的实例对象。目标检测技术在智能监控、城市交通管理、自动驾驶等领域有着广泛的应用。然而，将各类目标检测器应用于地铁场景中的智能监控系统，进而实现对于各类行人检测仍然具有挑战性。分析原因为：对于复杂的地铁环境，其生成图像中的行人复杂与背景信息的分布不平衡；由于监控设备非智能设置，当面对多变的视图、照明和遮挡情况时，其生成图像中的行人目标通常具有可变的视觉外观；与较大的行人目标相比，小行人目标通常缺乏充足的特征信息，使得从背景或类似物体中被识别出来更具挑战性。本研究旨在增强地铁场景中的各类行人目标检测性能以应对上述问题。由于实际行人目标检测要求趋于实时，因此算法检测速度也需实现对应提高。

2、目前主流的目标检测算法分为两类：两阶段算法和单阶段算法。两阶段算法是将目标识别和定位分为两步完成，这类算法对各类目标的漏检率和错检率都相对较低，但实时性较差，其中代表性的算法有r-cnn(region-convolutional neural networks)算法，fast r-cnn算法等。单阶段算法有效解决了双阶段算法的缺点，在满足高实时性的同时准确率也基本达到双阶段算法的水平，其中代表性的算法有yolo(you only look once)系列算法和ssd(single shotmultibox detector)算法等。

3、为

技术实现思路

1、为解决上述
技术介绍
中提到的不足，本专利技术的目的在于提供一种改进yolox算法的地铁场景行人目标检测方法及系统，能够有效解决地铁场景中小行人目标准确率和召回率低的问题。

2、第一方面，本专利技术的目的可以通过以下技术方案实现：一种改进yolox算法的地铁场景行人目标检测方法，方法包括以下步骤：

3、接收行人目标数据集，对行人目标数据集进行预处理，得到预处理行人目标数据集，将预处理行人目标数据集按比例划分为训练集、验证集和测试集；

4、将训练集和验证集输入至预先建立的改进yolox模型内，输出得到训练后的最优改进yolox模型，将测试集输入至训练后的最优改进yolox模型内，输出得到行人目标检测结果。

5、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述行人目标数据集中：一部分为地铁站监控视频内的采样图片，另一部分为crowd-human开源数据集。

6、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述对行人目标数据集进行预处理的过程：

7、运用mosaic数据增强算法对行人目标数据集内的图片进行随机缩放、随机裁剪、随机排布，得到预处理行人目标数据集。

8、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述预先建立的改进yolox模型包括：

9、基于窗口的多头自注意力模块、基于滑动窗口的多头自注意力模块和两个多层感知器mlp，基于窗口的多头自注意力模块与多层感知器mlp应用图层归一化层连接，基于滑动窗口的多头自注意力模块与多层感知器mlp应用残差结构连接。

10、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述将训练集和验证集输入至预先建立的改进yolox模型内，输出得到训练后的最优改进yolox模型的过程中设置的参数：

11、训练epochs设置为300，batchsize设置为8，改进yolox模型使用adam优化器对学习率进行优化，最大学习率设置为10-3，最小学习率为10-5，改进yolox模型使用权重衰减策略防止过拟合，权重衰减值设置为5*10-4；

12、当epoch为189次附近时，损失函数达到低值并保持小幅浮动，验证集的各项指标均取得最高值，得到训练后的最优改进yolox模型。

13、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述将测试集输入至训练后的最优改进yolox模型内，输出得到行人目标检测结果的过程：

14、精确率p：为所有检测出的目标检测正确率，表示为

15、

16、召回率r：为所有正样本中检测正确率，表示为

17、

18、平均精确率ap：为不同召回率下精确率的均值，表示为

19、

20、其中，tp为正样本预测为正类个数；fp为负样本预测为正类个数；fn为正样本预测为负类个数；r为召回率。

21、结合第一方面，在第一方面的某些实现方式中，该方法还包括，所述基于窗口的多头自注意力模块和基于滑动窗口的多头自注意力模块中自注意力的流程如下：

22、设输入序列的长度为2，x1和x2两个节点，使用embedding操作将x1和x2分别映射到向量a1和a2，然后经过一个可训练操作输出三个共享的权值变换矩阵wq、wk和wv，最后，向量a1和a2与权值变换矩阵结合输出对应的q1、q2和q3，实现过程映射到对应矩阵attention(q,k,v)、qi、ki和vi表示为：

23、

24、qi＝aiwq

25、ki＝aiwk

26、vi＝aiwv

27、式中，attention(q,k,v)代表自注意力，qi代表查询矩阵，后续会和每一个k进行匹配；ki代表键矩阵，后续会被每个qi匹配；vi代表qi和ki两者的相关性，v的值与相关性成正比；q、k和v分别为q、k和v对应矩阵；dk为方差系数。

28、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述基于窗口的多头自注意力模块和基于滑动窗口的多头自注意力模块的计算量ω(msa)和ω(w-msa)分别表示为：

29、ω(msa)＝4hwc2+2(hw)2c

30、ω(w-msa)＝4hwc2+2m2hwc

31、式中，h代表输入特征图高度；w代表输入特征图宽度；c代表输入特征图深度；m代表每个窗口的大小。

32、第二方面，为了达到上述目的，本专利技术公开了本文档来自技高网...

【技术保护点】

1.一种改进YOLOX算法的地铁场景行人目标检测方法，其特征在于，方法包括以下步骤：

2.根据权利要求1所述的一种改进YOLOX算法的地铁场景行人目标检测方法，其特征在于，所述行人目标数据集中：一部分为地铁站监控视频内的采样图片，另一部分为Crowd-Human开源数据集。

3.根据权利要求1所述的一种改进YOLOX算法的地铁场景行人目标检测方法，其特征在于，所述对行人目标数据集进行预处理的过程：

4.根据权利要求1所述的一种改进YOLOX算法的地铁场景行人目标检测方法，其特征在于，所述预先建立的改进YOLOX模型包括：

5.根据权利要求1所述的一种改进YOLOX算法的地铁场景行人目标检测方法，其特征在于，所述将训练集和验证集输入至预先建立的改进YOLOX模型内，输出得到训练后的最优改进YOLOX模型的过程中设置的参数：

6.根据权利要求1所述的一种改进YOLOX算法的地铁场景行人目标检测方法，其特征在于，所述将测试集输入至训练后的最优改进YOLOX模型内，输出得到行人目标检测结果的过程：

7.根据权利要求4

8.根据权利要求7所述的一种改进YOLOX算法的地铁场景行人目标检测方法，其特征在于，所述基于窗口的多头自注意力模块和基于滑动窗口的多头自注意力模块的计算量Ω(MSA)和Ω(W-MSA)分别表示为：

9.一种改进YOLOX算法的地铁场景行人目标检测系统，其特征在于，包括：

10.根据权利要求9所述的一种改进YOLOX算法的地铁场景行人目标检测系统，其特征在于，所述图像处理模块的行人目标数据集中：一部分为地铁站监控视频内的采样图片，另一部分为Crowd-Human开源数据集；

...

【技术特征摘要】

1.一种改进yolox算法的地铁场景行人目标检测方法，其特征在于，方法包括以下步骤：

2.根据权利要求1所述的一种改进yolox算法的地铁场景行人目标检测方法，其特征在于，所述行人目标数据集中：一部分为地铁站监控视频内的采样图片，另一部分为crowd-human开源数据集。

3.根据权利要求1所述的一种改进yolox算法的地铁场景行人目标检测方法，其特征在于，所述对行人目标数据集进行预处理的过程：

4.根据权利要求1所述的一种改进yolox算法的地铁场景行人目标检测方法，其特征在于，所述预先建立的改进yolox模型包括：

5.根据权利要求1所述的一种改进yolox算法的地铁场景行人目标检测方法，其特征在于，所述将训练集和验证集输入至预先建立的改进yolox模型内，输出得到训练后的最优改进yolox模型的过程中设置的参数：

6.根据权利要求1所述的一种改进yolo...

【专利技术属性】
技术研发人员：李亦涵，张秀再，沈涛，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人