目标检测方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:31699142 阅读:18 留言:0更新日期:2022-01-01 10:59
本申请提供目标检测方法、装置、电子设备及计算机可读存储介质,方法包括:使用预设的滑动窗口从待检测图像中获取多个区域图像;针对每个区域图像,将区域图像输入目标检测模型的特征提取网络,得到区域图像的特征提取结果,特征提取网络采用ResNeXT

【技术实现步骤摘要】
目标检测方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及深度学习
,尤其涉及目标检测方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]目标检测是目前计算机视觉领域非常热门的研究方向,是无人驾驶技术重要环节。
[0003]公开号为CN110942000A的中国专利技术专利《一种基于深度学习的无人驾驶车辆目标检测方法》公开了一种基于深度学习的无人驾驶车辆目标检测方法,通过生成目标物体的三维模板对目标物体进行采样,结合生成的三维模板和物体采样策略对输入的图像生成候选框;对生成的候选框进行特征提取,构建目标函数;基于得到的目标函数,使用结构化支持向量机分类器完成对目标函数权值的训练和目标物体的初步检测;改进区域候选网络,构建效率更高的HRPN网络;基于构建的HRPN网络,训练Faster RCNN监测模型,再将结构化支持向量机分类器得到的初步检测结果输入网络进行训练,训练结束后将模型参数信息和结构信息保存,用于进行目标检测。该方法采用了将结构化支持向量机的分类结果输入到Faster R

CNN神经网络检测模型的方法,提高了三维物体的检测精度。
[0004]《软件导刊》2019年第9期42

46页的《融合深度学习的无人驾驶多目标检测算法》一文中,使用了SSD模型来完成目标检测,通过引入Focalloss函数设计新的损失函数,解决样本失衡问题;同时在不降低检测速率的情况下,提高检测精度。基于自行采集的车载视频数据集进行验证,结果表明改进后的SSD模型mAP相较于原始SSD模型提高了3%。
[0005]然而,在现有技术中,对于大范围高像素的待检测图像中的行人和车辆的检测存在稳定度、准确率不足的问题,例如,针对由十亿像素相机收集的大范围自然场景视觉数据集进行行人和车辆的检测,一方面由于计算资源的限制,超高分辨率使得网络无法接受大图作为输入,而单纯将原图缩放会使得目标丢失大量信息,另一方面图像中的近景和远景的目标尺度差异大,给检测带来了巨大的挑战。此外,由于视觉数据集是从商场、学校、广场等场景采集得到的,人流和车辆密度极大,行人和车辆的拥挤等情况频发,容易造成目标的漏检和误检,进而影响行人和车辆的检测的稳定度、准确率。

技术实现思路

[0006]本申请的目的在于提供目标检测方法、装置、电子设备及计算机可读存储介质,解决现有技术中对于大范围高像素的待检测图像中的行人和车辆的检测存在稳定度、准确率不足的问题。
[0007]本申请的目的采用以下技术方案实现:
[0008]第一方面,本申请提供了一种目标检测方法,所述方法包括:使用预设的滑动窗口从待检测图像中获取多个区域图像,所述待检测图像是拍摄行人和/或车辆得到的;针对每个区域图像,将所述区域图像输入目标检测模型的特征提取网络,得到所述区域图像的特
征提取结果,所述特征提取网络采用ResNeXT

101;将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器,得到所述区域图像对应的各检测器的检测结果;将所述区域图像对应的各检测器的检测结果融合,得到所述区域图像的融合检测结果;基于各所述区域图像的融合检测结果,获取所述待检测图像的检测结果,所述待检测图像的检测结果用于指示所述待检测图像中的行人和/或车辆的检测框。
[0009]该技术方案的有益效果在于:利用预设的滑动窗口从待检测图像中获取多个区域图像,将每个区域图像输入ResNeXT

101特征提取网络得到特征提取结果,将特征提取结果输入多个检测器得到多个检测结果,将多个检测结果融合得到融合检测结果并基于融合检测结果获取待检测图像的检测结果;由于多个区域图像是利用滑动窗口获得的,有效地保留待检测图像的高分辨率信息,使得输入特征提取网络的信息更加丰富,增强了对于大范围高像素的待检测图像中行人和机动车检测的准确度;融合多个检测器的检测结果,避免了漏检,并使得最终得到的检测图像的检测结果更加稳定和准确。
[0010]在一些可选实施例中,所述将所述区域图像输入目标检测模型的特征提取网络,得到所述区域图像的特征提取结果,包括:将所述区域图像输入所述特征提取网络的Stage1,得到所述区域图像对应的特征图F1;将所述区域图像对应的特征图F1输入所述特征提取网络的Stage
1_1
,得到所述区域图像对应的特征图F2;将所述区域图像对应的特征图F1输入所述特征提取网络的Stage2,得到所述区域图像对应的特征图F3;将所述区域图像对应的特征图F3和特征图F2相加后输入所述特征提取网络的Stage
2_2
,得到所述区域图像对应的特征图F4;将所述区域图像对应的特征图F3输入所述特征提取网络的Stage3,得到所述区域图像对应的特征图F5;将所述区域图像对应的特征图F5和特征图F4相加后输入所述特征提取网络的Stage
3_3
,得到所述区域图像对应的特征图F6;将所述区域图像对应的特征图F5输入所述特征提取网络的Stage4,得到所述区域图像对应的特征图F7;将所述区域图像对应的特征图F7和特征图F6相加后输入所述特征提取网络的Stage
4_4
,得到所述区域图像对应的特征图F8,并将所述区域图像对应的特征图F8作为所述区域图像对应的融合特征图M3;将所述区域图像对应的特征图F8输入所述特征提取网络的第三插值单元,得到所述区域图像对应的特征图F8的插值结果,并将所述区域图像对应的特征图F8的插值结果和所述区域图像对应的特征图F6相加,得到所述区域图像对应的融合特征图M2;将所述区域图像对应的融合特征图M2输入所述特征提取网络的第二插值单元,得到所述区域图像对应的融合特征图M2的插值结果,并将所述区域图像对应的融合特征图M2的插值结果和所述区域图像对应的特征图F4相加,得到所述区域图像对应的融合特征图M1;将所述区域图像对应的融合特征图M1输入所述特征提取网络的第一插值单元,得到所述区域图像对应的融合特征图M1的插值结果,并将所述区域图像对应的融合特征图M1的插值结果和所述区域图像对应的特征图F2相加,得到所述区域图像对应的融合特征图M0;将所述区域图像对应的融合特征图M3至融合特征图M0作为所述区域图像对应的特征提取结果。
[0011]该技术方案的有益效果在于:利用多个stage分别获得F1‑
F8,其中,F4是利用F2与F3相加后通过一个stage后得到的,F6是利用F4与F5相加后通过另一个stage后得到的,F8是利用F6与F7相加后通过又一个stage后得到的,然后将F8作为M3,F8的插值结果与F6相加得到M2,M2的插值结果与F4相加得到M1,M1的插值结果与F2相加得到M0,并将M3至M0作为区域图像对应的特征提取结果;特征图的获得是通过多个不同的stage并通过相加运算得到的,提高
了特征图的准确性,通过相加运算获得融合特征图,并将多个融合特征图作为区域图像对应的特征提取结果,保证了区本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标检测方法,其特征在于,所述方法包括:使用预设的滑动窗口从待检测图像中获取多个区域图像,所述待检测图像是拍摄行人和/或车辆得到的;针对每个区域图像,将所述区域图像输入目标检测模型的特征提取网络,得到所述区域图像的特征提取结果,所述特征提取网络采用ResNeXT

101;将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器,得到所述区域图像对应的各检测器的检测结果;将所述区域图像对应的各检测器的检测结果融合,得到所述区域图像的融合检测结果;基于各所述区域图像的融合检测结果,获取所述待检测图像的检测结果,所述待检测图像的检测结果用于指示所述待检测图像中的行人和/或车辆的检测框。2.根据权利要求1所述的目标检测方法,其特征在于,所述将所述区域图像输入目标检测模型的特征提取网络,得到所述区域图像的特征提取结果,包括:将所述区域图像输入所述特征提取网络的Stage1,得到所述区域图像对应的特征图F1;将所述区域图像对应的特征图F1输入所述特征提取网络的Stage
1_1
,得到所述区域图像对应的特征图F2;将所述区域图像对应的特征图F1输入所述特征提取网络的Stage2,得到所述区域图像对应的特征图F3;将所述区域图像对应的特征图F3和特征图F2相加后输入所述特征提取网络的Stage
2_2
,得到所述区域图像对应的特征图F4;将所述区域图像对应的特征图F3输入所述特征提取网络的Stage3,得到所述区域图像对应的特征图F5;将所述区域图像对应的特征图F5和特征图F4相加后输入所述特征提取网络的Stage
3_3
,得到所述区域图像对应的特征图F6;将所述区域图像对应的特征图F5输入所述特征提取网络的Stage4,得到所述区域图像对应的特征图F7;将所述区域图像对应的特征图F7和特征图F6相加后输入所述特征提取网络的Stage
4_4
,得到所述区域图像对应的特征图F8,并将所述区域图像对应的特征图F8作为所述区域图像对应的融合特征图M3;将所述区域图像对应的特征图F8输入所述特征提取网络的第三插值单元,得到所述区域图像对应的特征图F8的插值结果,并将所述区域图像对应的特征图F8的插值结果和所述区域图像对应的特征图F6相加,得到所述区域图像对应的融合特征图M2;将所述区域图像对应的融合特征图M2输入所述特征提取网络的第二插值单元,得到所述区域图像对应的融合特征图M2的插值结果,并将所述区域图像对应的融合特征图M2的插值结果和所述区域图像对应的特征图F4相加,得到所述区域图像对应的融合特征图M1;将所述区域图像对应的融合特征图M1输入所述特征提取网络的第一插值单元,得到所述区域图像对应的融合特征图M1的插值结果,并将所述区域图像对应的融合特征图M1的插值结果和所述区域图像对应的特征图F2相加,得到所述区域图像对应的融合特征图M0;将所述区域图像对应的融合特征图M3至融合特征图M0作为所述区域图像对应的特征提
取结果。3.根据权利要求1所述的目标检测方法,其特征在于,所述多个检测器包括至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器,所述将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器,得到所述区域图像对应的各检测器的检测结果,包括:将所述区域图像的特征提取结果分别输入所述目标检测模型的至少两个Ca scade RCNN检测器和一个Generalize Focal Loss检测器,得到所述区域图像对应的各检测器的检测结果,每个Cascade RCNN检测器用于检测一个类别的检测框,其中,行人的检测框包括...

【专利技术属性】
技术研发人员:陈海波
申请(专利权)人:深延科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1