一种基于深度学习的复杂环境下行人实时检测方法技术

技术编号:24458059 阅读:24 留言:0更新日期:2020-06-10 16:09
本发明专利技术提供一种基于深度学习的复杂环境下行人实时检测方法,包含步骤:S1、建立基于YOLO算法的检测模型;S2、选取色热图片库中复杂环境下的若干张行人图像,建立训练数据集和测试数据集,将所述训练数据集输入所述检测模型,训练检测模型;S3、将测试数据集输入训练好的检测模型,输出对测试数据集的红外热图像、RGB彩色图像中行人目标的检测结果,并通过非极大值抑制方法筛选所述检测结果;S4、与YOLOv3、YOLO‑tiny检测算法进行比对,验证检测精度、检测速度。

A real-time pedestrian detection method based on deep learning in complex environment

【技术实现步骤摘要】
一种基于深度学习的复杂环境下行人实时检测方法
本专利技术属于目标识别领域,特别涉及一种基于深度学习的复杂环境下行人实时检测方法。
技术介绍
行人检测因在驾驶辅助(自动驾驶车辆)、机器人技术、人的再识别、视频监控、行人行为分析等领域的广泛应用,而受到计算机视觉界的广泛关注。目前,与传统方法相比,深度学习技术在行人检测领域取得了良好的效果。然而,在一些复杂的自然环境中,仅依靠可见光谱图像或红外光谱图像的检测任务的结果不够准确。行人目标在复杂的环境中会遇到很多挑战,如:烟雾、雨水、灰尘、光线暗淡等。RGB彩色图像光谱信息丰富,在一定的光照下可以反映场景的细节,但在能见度较差时很难检测到目标;红外热图像是一种热辐射图像,灰度级是由观察目标和背景之间的温差确定,通常缺乏结构信息,因此,目标容易与背景混合,导致误检和漏检。在这种情况下,严重影响行人目标检测系统的可靠性和实用性,因此复杂环境下的实时行人检测这一研究课题具有重大的现实意义。
技术实现思路
本专利技术的目的是提供一种基于深度学习的复杂环境下行人实时检测方法,能够快速、准确的检测到复杂环境下红外光、RGB彩色图像中的行人目标,并提高对像素较小的小目标的识别能力,保证了检测效果和检测速度。为了达到上述目的,本专利技术提供一种基于深度学习的复杂环境下行人实时检测方法,包含步骤:S1、建立基于YOLO算法的检测模型;所述检测模型具体包含依序连接的:基于ResNet的五层卷积网络层、基于SPP的三层最大池化层、三层目标检测层;S2、选取色热图片库中复杂环境下的若干张行人图像,并将所述行人图像设置为预定的尺寸;从所述若干张行人图像中选取部分行人图像作为训练数据集,其余的行人图像作为测试数据集;将所述训练数据集输入所述检测模型,训练检测模型;S3、将测试数据集输入训练好的检测模型,输出对测试数据集中行人目标的检测结果,并筛选所述检测结果;S4、与YOLOv3、YOLO-tiny检测算法进行比对,验证检测精度、检测速度。步骤S1所述的检测模型中,每层最大池化层均包含一个滤波器,三层最大池化层的滤波器尺寸分别为5×5、9×9、13×13像素。步骤S1所述的检测模型中,三层目标检测层的检测尺度分别为13×13、26×26、104×104像素;通过K-means聚类算法根据每层目标检测层的检测尺度,分别为每层目标检测层生成对应的三个不同尺寸的锚箱。步骤S2中所述预定的尺寸为416×416像素。步骤S3具体包含:S31、通过基于ResNet的五层卷积网络层提取测试数据集中的行人目标特征;S32、通过基于SPP的三层最大池化层进一步提取测试数据集中的行人目标特征;S33、通过三层目标检测层,基于多尺度预测策略,根据提取的所述行人目标特征,预测测试数据集中行人目标的边界框坐标值、目标置信度得分、行人目标类别概率;S34、通过非极大值抑制方法根据所述边界框坐标值、目标置信度得分、行人目标类别概率,筛选得到行人目标的检测结果。与现有技术相比,本专利技术的优点在于:1)本专利技术能够从烟雾、雨水、灰尘、光线暗淡等复杂环境下所采集的RGB彩色图像、红外热图像中检测到行人目标,对于复杂环境对图像造成的干扰具有很好的鲁棒性;2)本专利技术所使用的检测模型减少用于目标特征提取的网络层数,通过基于ResNet的五层卷积网络层和基于SPP的三层最大池化层提取图像中的行人特征,能够在有效提取复杂环境下的目标特征、保证检测精度的同时,显著提高目标特征提取的速率;3)本专利技术通过基于ResNet的五层卷积网络层能够有效控制梯度的传播,避免梯度消失或爆炸不利于训练检测模型;4)本专利技术通过在三层目标检测层设置不同的检测尺度和不同尺寸的锚箱进行多尺度检测,大大提高对像素小于80×40的小目标的检测能力.附图说明为了更清楚地说明本专利技术技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:图1为本专利技术的检测模型示意图;图2为本专利技术中的三层目标检测层进行多尺度预测示意图;图3为本专利技术的基于ResNet的五层卷积网络层结构示意图;图4为本专利技术的基于深度学习的复杂环境下行人实时检测方法流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种基于深度学习的复杂环境下行人实时检测方法,用于检测复杂环境下行人图像中的行人目标。在本专利技术的实施例中,所采用的硬件配置为Inteli78700k处理器、NVIDIATITANXP显卡、64GBRAM的服务器,软件环境为Ubuntu16.04系统、Darknet框架。如图4所示,本专利技术的基于深度学习的复杂环境下行人实时检测方法包含步骤:S1、建立基于YOLO(YouOnlyLookOnce你只能活一次)算法的检测模型;如图1所示,所述检测模型具体包含依序连接的:基于ResNet(深度残差网络)的五层卷积网络层、基于SPP(SpatialPyramidPooling空间金字塔池)的三层最大池化层、三层目标检测层;所述基于ResNet的五层卷积网络层和三层最大池化层共同构成检测模型的特征提取网络,用于提取RGB彩色图像、红外热图像的行人目标特征。图3为本专利技术的基于ResNet的五层卷积网络层结构示意图,其中Conv(convolutionallayer)为卷积层,Max(maxpoollayer)为最大池化层,Res(residuallayer)为残差层,Filter为滤波器,Size表示滤波器尺寸,Output表示输出的特征图像素大小。如图1所示,所述五层卷积网络层输出的特征图像素大小依次为208×208、104×104、52×52、26×26、13×13。对于传统的基于深度学习的网络模型来说,网络越深,所能学到的东西越多。当然收敛速度也就越慢,训练时间越长。然而网络深度到了一定程度之后就会发现学习率降低的情况,甚至在一些场景下,学习网络层数越深反而降低了分类的准确率,而且很容易出现梯度消失和梯度爆炸。也即学习网络太深,检测模型就会变得不敏感,导致检测模型最后分类的效果往往不会太好。ResNet引入了残差块的设计,克服了这种由于网络深度的加深而产生的学习率变低、准确率无法有效提升的问题。使得在训练网络模型的同时,又能保证良好的性能。如图1所示,在本专利技术的检测模型中,基于SPP的三层最大池化层中,每层最大池化层均包含一个滤波器,三层最大池化层的滤波器尺寸分别为5×5、9×9、13×13像素。基于SPP的三层最大池化层能够将RGB本文档来自技高网...

【技术保护点】
1.一种基于深度学习的复杂环境下行人实时检测方法,其特征在于,包含步骤:/nS1、建立基于YOLO算法的检测模型;所述检测模型具体包含依序连接的:基于ResNet的五层卷积网络层、基于SPP的三层最大池化层、三层目标检测层;/nS2、选取色热图片库中复杂环境下的若干张行人图像,并将所述行人图像设置为预定的尺寸;从所述若干张行人图像中选取部分行人图像作为训练数据集,其余的行人图像作为测试数据集;将所述训练数据集输入所述检测模型,训练检测模型;/nS3、将测试数据集输入训练好的检测模型,输出对测试数据集中行人目标的检测结果,并筛选所述检测结果;/nS4、与YOLOv3、YOLO-tiny检测算法进行比对,验证检测精度、检测速度。/n

【技术特征摘要】
1.一种基于深度学习的复杂环境下行人实时检测方法,其特征在于,包含步骤:
S1、建立基于YOLO算法的检测模型;所述检测模型具体包含依序连接的:基于ResNet的五层卷积网络层、基于SPP的三层最大池化层、三层目标检测层;
S2、选取色热图片库中复杂环境下的若干张行人图像,并将所述行人图像设置为预定的尺寸;从所述若干张行人图像中选取部分行人图像作为训练数据集,其余的行人图像作为测试数据集;将所述训练数据集输入所述检测模型,训练检测模型;
S3、将测试数据集输入训练好的检测模型,输出对测试数据集中行人目标的检测结果,并筛选所述检测结果;
S4、与YOLOv3、YOLO-tiny检测算法进行比对,验证检测精度、检测速度。


2.如权利要求1所述的基于深度学习的复杂环境下行人实时检测方法,其特征在于,步骤S1所述的检测模型中,每层最大池化层均包含一个滤波器,三层最大池化层的滤波器尺寸分别为5×5、9×9、13×13像素。


3.如权利要求1所述的基于深度学习的复杂环境下行人实时检测方法,其特征在于,步骤S1所述的检测模型中,三层目标检测层的检测尺度分别为13×13、26×26、104×104像素;通过K-means聚类算法...

【专利技术属性】
技术研发人员:孙丽华周薇娜
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1