System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种复杂场景行人检测方法、系统及电子设备技术方案_技高网
当前位置: 首页 > 专利查询>云南大学专利>正文

一种复杂场景行人检测方法、系统及电子设备技术方案

技术编号:41245404 阅读:4 留言:0更新日期:2024-05-09 23:56
本发明专利技术提供了一种复杂场景行人检测方法、系统及电子设备,属于计算机视觉领域,方法包括:获取待检测行人图像;基于行人检测模型确定待检测行人图像中行人的位置和类别;行人检测模型为基于Deformable DETR构建,并采用训练样本集,基于L1位置损失及Giou综合预测质量损失进行训练得到的模型;行人检测模型包括依次连接的特征提取网络、第一对齐解码器、去同质化编码生成器、第二对齐解码器及预测模块;第一对齐解码器还分别与第二对齐解码器及预测模块连接;第一对齐解码器及第二对齐解码器均包括多头交叉注意力层及前馈神经网络。本发明专利技术提高了行人检测模型对复杂场景下行人检测的精度及效率。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域,特别是涉及一种基于改进deformable detr的复杂场景行人检测方法、系统及电子设备


技术介绍

1、随着自动驾驶、智能交通、智能视频监控等前沿领域的发展,行人检测作为其前驱的重点技术之一已经成为研发热点。行人检测是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位,该技术可与行人跟踪和行人重识别等技术结合,应用于车辆辅助驾驶系统、智能机器人、智能视频监控、人体行为分析、智能交通等领域。例如在车辆辅助驾驶系统领域,利用雷达摄像头和感应器来检测行人,并及时刹车从而减少事故伤害。

2、传统的行人检测算法主要是通过计算梯度直方图特征(histogram oforientedgradient,hog)构建特征,并结合支持向量机(support vectormachine,svm)分类器实现目标检测,此类方法虽然解决了局部遮挡等部分问题,但其需要大量人工设置的参数,导致只能应用在固定的场景中,且检测精度和效率明显不足。

3、随着深度学习在计算机视觉中的广泛应用,基于深度学习的检测器的效果相比传统方法在性能上已经有显著提升,对于非密集场景的行人检测,以faster r-cnn为代表的两阶检测模型以及yolo为代表的一阶段检测模型达到了工业级的检测效果,这两者都可以归类为anchor-based类检测模型,但是anchor-based类检测模型普遍使用非极大值抑制(non maximumsuppression,nms)等基于贪婪算法的后处理,导致极易出现漏检或者重复检测的问题。

4、此外,还有基于端到端的query-based类检测器,把目标检测看做集合预测问题,检测网络将去重等后处理工作融入到网络中得以端到端的学习去重能力,query-based模型以基于卷积的sparse rcnn和基于transformer的detr两大类模型为代表,在训练阶段使用二部图匹配在网络内部学习到去重能力,实现端到端的训练与预测,避免了人工设置anchors和nms等前处理和后处理的工作,获得了更好的性能,其中在detr模型的基础上改进的deformable detr在通过在注意力机制中加入图像的局部先验特征,并融合多尺度特征,在crowdhuman密集行人检测数据集中实现了平均精度为91.5%,漏检率为43.7%的效果,但是在实际检测效果依然不尽如人意。

5、综上,目前密集场景中的行人检测依然面临着三个最主要的问题:(1)高遮挡率的密集场景下,对于同一检测目标会产生重复检测;(2)由于高遮挡场景下行人可见区域面积很小,由此导致误检和漏检;(3)密集场景下,检测器的精度和速度的综合性能不足。


技术实现思路

1、本专利技术的目的是提供一种复杂场景行人检测方法、系统及电子设备,可提高复杂场景下行人检测的精度及效率。

2、为实现上述目的,本专利技术提供了一种复杂场景行人检测方法,包括如下步骤。

3、获取待检测行人图像。

4、基于行人检测模型确定所述待检测行人图像中行人的位置和类别;所述行人检测模型为基于deformable detr构建,并采用训练样本集,基于l1位置损失及giou综合预测质量损失进行训练得到的模型;所述训练样本集中包括多张样本图像及各样本图像中的位置标签及类别标签;所述行人检测模型包括依次连接的特征提取网络、第一对齐解码器、去同质化编码生成器、第二对齐解码器及预测模块;所述第一对齐解码器还分别与所述第二对齐解码器及所述预测模块连接;所述第一对齐解码器及所述第二对齐解码器均包括多头交叉注意力层及前馈神经网络。

5、为实现上述目的,本专利技术还提供了一种复杂场景行人检测系统包括图像获取单元和检测单元。

6、图像获取单元,用于获取待检测行人图像;

7、检测单元,与所述图像获取单元连接,用于基于行人检测模型确定所述待检测行人图像中行人的位置和类别;所述行人检测模型为基于deformabledetr构建,并采用训练样本集,基于l1位置损失及giou综合预测质量损失进行训练得到的模型;所述训练样本集中包括多张样本图像及各样本图像中的位置标签及类别标签;所述行人检测模型包括依次连接的特征提取网络、第一对齐解码器、去同质化编码生成器、第二对齐解码器及预测模块;所述第一对齐解码器还分别与所述第二对齐解码器及所述预测模块连接;所述第一对齐解码器及所述第二对齐解码器均包括多头交叉注意力层及前馈神经网络。

8、为实现上述目的,本专利技术还提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的复杂场景行人检测方法。

9、根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术基于deformable detr构建,并采用训练样本集,基于l1位置损失及giou综合预测质量损失进行训练得到行人检测模型,通过giou综合预测质量损失降低了行人检测模型的漏检率。行人检测模型包括依次连接的特征提取网络、第一对齐解码器、去同质化编码生成器、第二对齐解码器及预测模块,第一对齐解码器及第二对齐解码器均包括多头交叉注意力层及前馈神经网络。通过去同质化编码生成器提高了行人检测模型去除重复预测的能力,将deformable detr中解码器的自注意力层舍弃,只保留多头交叉注意力层和前馈神经网络,降低了行人检测模型的参数量,进而提高了行人检测模型对复杂场景下行人检测的精度及效率。

本文档来自技高网...

【技术保护点】

1.一种复杂场景行人检测方法,其特征在于,所述复杂场景行人检测方法包括:

2.根据权利要求1所述的复杂场景行人检测方法,其特征在于,基于行人检测模型确定所述待检测行人图像中行人的位置和类别,具体包括:

3.根据权利要求2所述的复杂场景行人检测方法,其特征在于,所述特征提取网络包括依次连接的骨干网络及6个编码器。

4.根据权利要求2所述的复杂场景行人检测方法,其特征在于,通过所述预测模块对各初步解码查询元素进行边框回归,以确定所述待检测行人图像中行人的位置,具体包括:

5.根据权利要求4所述的复杂场景行人检测方法,其特征在于,采用以下公式确定第i个初步解码查询元素的初步差值信息:

6.根据权利要求4所述的复杂场景行人检测方法,其特征在于,采用以下公式确定第i个初步解码查询元素的去同质化差值信息:

7.根据权利要求4所述的复杂场景行人检测方法,其特征在于,采用以下公式确定第i个初步解码查询元素的去同质化查询元素:

8.根据权利要求1所述的复杂场景行人检测方法,其特征在于,所述行人检测模型训练过程中的损失为:

9.一种复杂场景行人检测系统,其特征在于,所述复杂场景行人检测系统包括:

10.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至8中任一项所述的复杂场景行人检测方法。

...

【技术特征摘要】

1.一种复杂场景行人检测方法,其特征在于,所述复杂场景行人检测方法包括:

2.根据权利要求1所述的复杂场景行人检测方法,其特征在于,基于行人检测模型确定所述待检测行人图像中行人的位置和类别,具体包括:

3.根据权利要求2所述的复杂场景行人检测方法,其特征在于,所述特征提取网络包括依次连接的骨干网络及6个编码器。

4.根据权利要求2所述的复杂场景行人检测方法,其特征在于,通过所述预测模块对各初步解码查询元素进行边框回归,以确定所述待检测行人图像中行人的位置,具体包括:

5.根据权利要求4所述的复杂场景行人检测方法,其特征在于,采用以下公式确定第i个初步解码查询元素的初步差值信息:

...

【专利技术属性】
技术研发人员:袁国武黄越明周浩钱文华岳昆
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1