目标检测方法及装置制造方法及图纸

技术编号:29287514 阅读:36 留言:0更新日期:2021-07-17 00:05
本申请提供一种目标检测方法及装置,该方法包括:获取训练数据样本;构建第一目标检测网络结构,第一目标检测网络结构包括:基于YOLOv3网络结构的第二目标检测网络结构和新增神经网络模块,新增神经网络模块的输入为第二目标检测网络结构中一神经网络层的输出,新增神经网络模块的输出为目标的多尺度融合特征,其融合的最大特征尺度为原始特征尺寸的1/4;进而利用第一目标检测网络结构对训练数据样本进行训练,训练过程采用适合密集型目标检测的损失函数,生成训练后的检测模型;最后根据训练生成的检测模型对图像或视频进行目标检测,实现对小目标的特征有效提取,提高小目标的检测效率。标的检测效率。标的检测效率。

Target detection method and device

【技术实现步骤摘要】
目标检测方法及装置


[0001]本申请涉及目标检测
,尤其涉及一种目标检测方法及装置。

技术介绍

[0002]目标检测一直是图像处理领域的热点,尤其针对密集型小目标的高鲁棒性、高准确性以及高实时性的检测,具有重要的应用价值。例如,对道路中电子眼的识别,一方面,要求密集型小目标的检测识别可靠性很高,尤其对于较远距离的密集型小目标需要有较高的检测准确率和召回率;另一方面对于图像信息的处理时间要尽可能短,以保证很高的实时性。
[0003]现有技术中,通常采用基于深度学习的目标检测方法,基于深度学习的目标检测可表示为:图像的深度特征提取、基于深度神经网络的目标识别与定位,由于基于回归的目标检测与识别算法实时性较好,如YOLO目标检测模型,备受青睐。现有技术中的YOLOv3将目标检测问题转化为回归问题,合并分类和定位任务到一个步骤,直接预测物体的位置及类别,检测速度可以满足实时分析的要求。
[0004]然而,现有技术中,使用YOLOv3目标检测模型对密集型小目标进行检测时,检测的准确率和召回率较低。

技术实现思路

[0005]本申请提供一种目标检测方法及装置,以实现对密集型小目标的高性能检测。
[0006]第一方面,本申请实施例提供一种目标检测方法,包括:
[0007]获取训练数据样本;
[0008]构建第一目标检测网络结构,第一目标检测网络结构包括:基于YOLOv3网络结构的第二目标检测网络结构和新增神经网络模块,神经网络模块的输入为第二目标检测网络结构中一神经网络层的输出,神经网络模块的输出为目标的多尺度融合特征,神经网络模块的输出融合的最大尺度为原始特征的1/4,原始特征为输入至第一目标检测网络结构的样本特征;
[0009]利用第一目标检测网络结构对训练样本数据进行训练,生成训练后的目标检测模型;
[0010]利用训练后的目标检测模型,对图像或视频进行目标检测。
[0011]本申请实施例中,通过在YOLOv3网络结构的第二目标检测网络结构的基础上,增加新增神经网络模块,且新增神经网络模块的输入为第二目标检测网络结构中一神经网络层的输出,新增神经网络模块输出特征有效融合了包括原始样本特征尺寸1/4在内的多尺度特征,有效的提取了小目标的特征信息,然后利用该第一目标检测网络结构对样本进行训练,最后根据训练后的目标检测模型,实现对图像或视频中小目标的有效检测。
[0012]在一种可实现的方式中,利用第一目标检测网络结构对训练数据样本进行训练,生成训练后的目标检测模型,包括:
[0013]采用数据增强技术对训练数据样本进行随机裁剪;将裁剪后的训练数据样本输入至第一目标检测网络中进行训练,用第一目标检测网络结构对训练数据样本进行训练,生成训练后的目标检测模型,直至训练的目标检测模型的损失函数收敛,并作为训练后的目标检测模型。
[0014]本申请实施例中,通过采用数据增强方式对训练数据样本进行随机裁剪,不仅可以保留输入到网络结构中目标的原始特征,还可以提高样本的利用率。
[0015]在一种可实现的实施方式中,训练数据样本包括预先标注的包含目标的真实目标框,预测结果包括目标的预测目标框,损失函数为:
[0016]L=L
Attr
+α*L
RepGT
+β*L
RepBox
[0017]其中,L表示损失函数,L
Attr
表示预测目标框与真实目标框所产生的损失值,L
RepGT
表示预测目标框与相邻真实目标框所产生的损失值,L
RepBox
表示预测目标框与相邻预测目标框所产生的损失值,α和β为权重因子,用于平衡L
RepGT
和L
RepBox
的损失值。
[0018]本申请实施例中,通过采用上述损失函数,充分考虑到相邻真实目标框对当前目标的影响因素,对密集遮挡类目标的检测具有更高的精度和鲁棒性。
[0019]可选的,在获取训练数据样本之后,还包括:
[0020]获取训练数据样本标注的多个真实目标框;
[0021]根据多个真实目标框,利用K-means算法聚类出第一目标检测网络结构中的N个不同大小的锚框,N为大于1的整数。
[0022]本申请实施例中,通过根据标注的真实目标框,利用K-means算法聚类出第一目标检测网络结构的N个不同大小的锚框,可以提高目标检测模型对数据样本的适应性和训练效率。
[0023]可选的,在生成训练后的目标检测模型之后,还包括:
[0024]获取测试数据样本,测试数据样本包括预先标注的包含目标的真实目标框;采用滑动窗口机制对测试数据样本进行裁剪;将裁剪后的测试数据样本输入至训练后的目标检测模型中,对裁剪后的测试数据样本中的目标进行预测;输出测试数据样本目标的预测目标框。
[0025]本申请实施例中,通过对训练后的目标检测模型进行测试,进而根据测试结果对目标检测模型进行调整,可以提高目标检测模块的可靠性。
[0026]可选的,YOLOv3网络结构的主框架为DarkNet 53网络结构或DetNet网络结构。
[0027]下面介绍本申请实施例提供的装置、电子设备、计算机可读存储介质以及计算机程序产品,其内容和效果可参考本申请实施例提供的目标检测方法,不再赘述。
[0028]第二方面,本申请实施提供一种目标检测装置,包括:
[0029]获取模块,用于获取训练数据样本;
[0030]生成模块,用于生成第一目标检测网络结构,第一目标检测网络结构包括:基于YOLOv3网络结构的第二目标检测网络结构和新增神经网络模块,新增神经网络模块的输入为第二目标检测网络结构中一神经网络层的输出,新增神经网络模块的输出为目标的多尺度融合特征,新增神经网络模块的输出融合的最大尺度为原始特征尺寸的1/4,原始特征为输入至第一目标检测网络结构的样本特征;
[0031]训练模块,利用第一目标检测网络结构对训练数据样本进行训练,生成训练后的
目标检测模型;
[0032]检测模块,利用训练后的目标检测模型,对图像或视频进行目标检测。
[0033]可选的,训练模块,具体用于:
[0034]采用数据增强技术对训练数据样本进行随机裁剪;
[0035]将裁剪后的训练数据样本输入至第一目标检测网络结构中进行训练,得到训练后的目标检测模型,直至训练的目标检测模型的损失函数收敛,并作为训练后的目标检测模型。
[0036]可选的,训练数据样本包括预先标注的包含目标的真实目标框,预测结果包括目标的预测目标框,损失函数为:
[0037]L=L
Attr
+α*L
RepGT
+β*L
RepBox
[0038]其中,L表示损失函数,L
Attr
表示预测目标框与真实目标框所产生的损失值,L
RepGT
表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标检测方法,其特征在于,包括:获取训练数据样本;构建第一目标检测网络结构,所述第一目标检测网络结构包括:基于YOLOv3网络结构的第二目标检测网络结构和新增神经网络模块,所述新增神经网络模块的输入为所述第二目标检测网络结构中一神经网络层的输出,所述新增神经网络模块的输出为目标的多尺度融合特征,所述新增神经网络模块的输出,融合的最大尺度为原始特征尺寸的1/4,所述原始特征为输入至所述第一目标检测网络结构的样本特征;利用所述第一目标检测网络结构对所述训练数据样本进行训练,生成训练后的目标检测模型;利用所述训练后的目标检测模型,对图像或视频进行目标检测。2.根据权利要求1所述的方法,其特征在于,利用所述第一目标检测网络结构对所述训练数据样本进行训练,生成训练后的目标检测模型,包括:采用数据增强技术对所述训练数据样本进行随机裁剪;将随机裁剪后的训练数据样本输入至所述第一目标检测网络结构中进行训练,得到训练的目标检测模型,直至所述训练的目标检测模型的损失函数收敛,并作为所述训练后的目标检测模型。3.根据权利要求2所述的方法,其特征在于,所述训练数据样本包括预先标注的包含所述目标的真实目标框,预测结果包括所述目标的预测目标框,所述损失函数为:L=L
Attr
+α*L
RepGT
+β*L
RepBox
其中,L表示损失函数,L
Attr
表示所述预测目标框与所述真实目标框所产生的损失值,L
RepGT
表示所述预测目标框与相邻真实目标框所产生的损失值,L
RepBox
表示预测目标框与相邻预测目标框所产生的损失值,α和β为权重因子,用于平衡L
RepGT
和L
RepBox
的损失值。4.根据权利要求1-3任一项所述的方法,其特征在于,在获取训练数据样本之后,还包括:获取所述训练数据样本标注的多个真实目标框;根据所述多个真实目标框,利用K-means算法聚类出所述第一目标检测网络结构的N个不同大小的锚框,N为大于1的整数。5.根据权利要求1-3任一项所述的方法,其特征在于,在所述生成训练后的目标检测模型之后,还包括:获取测试数据样本,所述测试数据样本包括预先标注的包含所述目标的真实目标框;采用滑动窗口机制对所述测试数据样本进行裁剪;将裁剪后的测试数据样本输入至所述训练后的目标检测模型中,对所述裁剪后的测试数据样本中的所述目标进行预测;输出预测后的测试数据样本,所述预测后的测试数据样本包括所述目标的预测目标框。6.根据权利要求1-3任一项所述的方法,其特征在于,所述YOLOv3网络结构的主框架为DarkNet 53网络结构或DetNet网络结构。7....

【专利技术属性】
技术研发人员:崔现军王磊肖旭
申请(专利权)人:北京四维图新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1