基于特征聚合的视频目标检测方法、装置、设备及介质制造方法及图纸

技术编号:32968518 阅读:30 留言:0更新日期:2022-04-09 11:29
本发明专利技术实施例涉及目标检测技术领域,公开了一种基于特征聚合的视频目标检测方法、装置、设备及介质。该方法包括:构建目标检测网络;获取视频的第一帧图像和第二帧图像,并通过目标检测网络确定第一支持帧的建议特征集和第二支持帧的建议特征集;将第t帧图像输入目标检测网络,结合第一支持帧的建议特征集和第二支持帧的建议特征集,输出目标检测结果;判断是否根据第t帧图像更新第一帧图像、第二帧图像以及它们对应的第一支持帧的建议特征集和第二支持帧的建议特征集。实施本发明专利技术实施例,可以提高目标检测速度。可以提高目标检测速度。可以提高目标检测速度。

【技术实现步骤摘要】
基于特征聚合的视频目标检测方法、装置、设备及介质


[0001]本专利技术涉及目标检测
,具体涉及一种基于特征聚合的视频目标检测方法、装置、设备及介质。

技术介绍

[0002]YOLO是一种一阶段的图像目标检测算法,与以Faster RCNN为代表的两阶段检测算法相比,其具有较高的检测速度。虽然YOLO可以直接用于视频目标检测,但其无法利用视频的时间上下文信息,而这部分信息可以有效减轻单帧图片检测中由于物体面积过小,运动模糊,姿态变化等原因导致的误检和漏检,提升算法性能。
[0003]现有的视频目标检测方法有基于跟踪、基于光流、基于建议区域特征等多种实现方案,但是,这些方案大多是基于两阶段目标检测算法进行改进,算法速度相对较慢。

技术实现思路

[0004]针对所述缺陷,本专利技术实施例公开了一种基于特征聚合的视频目标检测方法、装置、设备及介质,能够提升目标检测速度。
[0005]本专利技术实施例第一方面公开一种基于特征聚合的视频目标检测方法,所述方法包括:
[0006]构建目标检测网络,所述目标检测网络包括第一网络和第二网络,所述第一网络的输出信息发送至第二网络的输入端,所述第一网络由YOLOv5m网络结构,去除其最后一级的卷积层形成,所述第二网络为特征聚合网络;
[0007]获取所述视频的第一帧图像I1和第二帧图像I2,并通过所述目标检测网络确定所述第一帧图像I1和第二帧图像I2分别对应的第一支持帧的建议特征集和第二支持帧的建议特征集
[0008]将所述第t帧图像I
t
输入所述目标检测网络,结合第一支持帧的建议特征集和第二支持帧的建议特征集输出目标检测结果,t≥3;
[0009]判断是否根据所述第t帧图像更新所述第一帧图像I1、第二帧图像I2以及它们对应的第一支持帧的建议特征集和第二支持帧的建议特征集
[0010]作为较佳的实施例,在本专利技术实施例第一方面中,获取所述视频的第一帧图像I1和第二帧图像I2,并通过所述目标检测网络确定所述第一帧图像I1和第二帧图像I2分别对应的第一支持帧的建议特征集和第二支持帧的建议特征集包括:
[0011]将所述第一帧图像I1和第二帧图像I2分别输入第一网络,分别得到多尺度特征图其中l为尺度,l=1,2,3,S
l
×
S
l
为特征图在尺度l下的网格数目,D
l
为特征图网格在尺度l下的特征维数;
[0012]将所述多尺度特征图分别输入第二网络的第一卷积层,所述第一卷积层为每一个网格特征输出3个置信度得分,每一个得分对应一个预设的模板框,通过第一卷积层输出所述多尺度特征图分别对应的得分
[0013]将得分P
l1
、P
l2
分别输入第二网络的特征提取层,所述特征提取层首先用非极大值抑制方法对得分P
l1
、P
l2
进行分别处理,然后提取得分最高的N
l
个网格特征,并分别组合为第一支持帧的建议特征集和第二支持帧的建议特征集
[0014][0015][0016]保存所述第一帧图像I1、第二帧图像I2以及它们对应的第一支持帧的建议特征集和第二支持帧的建议特征集
[0017]作为较佳的实施例,在本专利技术实施例第一方面中,将所述第t帧图像输入所述目标检测网络,结合第一支持帧的建议特征集和第二支持帧的建议特征集输出目标检测结果,包括:
[0018]将所述第t帧图像I
t
输入第一网络,得到多尺度特征图
[0019]将多尺度特征图依次输入第二网络的第一卷积层和特征提取层,得到测试帧的建议特征集
[0020][0021]将第一支持帧的建议特征集第二支持帧的建议特征集以及测试帧的建议特征集输入第二网络的特征聚合层,得到聚合特征集
[0022][0023]将所述聚合特征集输入所述第二网络的第二卷积层,得到目标检测结果。
[0024]作为较佳的实施例,在本专利技术实施例第一方面中,将第一支持帧的建议特征集第二支持帧的建议特征集以及测试帧的建议特征集输入第二网络的特征聚合层,得到聚合特征集包括:
[0025]计算自适应权值
[0026][0027]其中,k=1,2,t,1≤i≤N
l
[0028]对所述自适应权值进行归一化处理:
[0029][0030]计算聚合特征集的第i个聚合特征
[0031][0032]得到聚合特征集
[0033]作为较佳的实施例,在本专利技术实施例第一方面中,判断是否根据所述第t帧图像更新所述第一帧图像I1、第二帧图像I2以及它们对应的第一支持帧的建议特征集和第二支持帧的建议特征集包括:
[0034]计算第t帧图像I
t
与第二帧图像I2的相关性;
[0035]如果所述相关性小于预设阈值,则将第二帧图像I2和第二支持帧的建议特征集分别替换第一帧图像I1和第一支持帧的建议特征集将第t帧图像I
t
和聚合特征集替换第二帧图像I2和第二支持帧的建议特征集用于对第t+1帧图像I
t+1
进行目标检测;
[0036]如果所述相关性大于或等于所述预设阈值,则保持第一帧图像I1、第二帧图像I2以及它们对应的第一支持帧的建议特征集和第二支持帧的建议特征集不变,继续对第t+1帧图像I
t+1
进行目标检测。
[0037]本专利技术实施例第二方面公开了基于特征聚合的视频目标检测装置,其包括:
[0038]构建单元,用于构建目标检测网络,所述目标检测网络包括第一网络和第二网络,所述第一网络的输出信息发送至第二网络的输入端,所述第一网络由YOLOv5m网络结构,去除其最后一级的卷积层形成,所述第二网络为特征聚合网络;
[0039]获取单元,用于获取所述视频的第一帧图像I1和第二帧图像I2,并通过所述目标检测网络确定所述第一帧图像I1和第二帧图像I2分别对应的第一支持帧的建议特征集和第二支持帧的建议特征集
[0040]目标检测单元,用于将所述第t帧图像I
t
输入所述目标检测网络,结合第一支持帧的建议特征集和第二支持帧的建议特征集输出目标检测结果,t≥3;
[0041]更新单元,用于判断是否根据所述第t帧图像更新所述第一帧图像I1、第二帧图像I2以及它们对应的第一支持帧的建议特征集和第二支持帧的建议特征集
[0042]作为较佳的实施例,在本专利技术实施例第二方面中,所述获取单元,包括:
[0043]第一输入子单元,用于将所述第一帧图像I1和第二帧图像I2分别输入第一网络,分别得到多尺度特征图其中l为尺度,l=1,2,3,S
l
×
S
l
为特
征图在尺度l下的网格数目,D
l
为特征图网格在尺度l下的特征维数;
[0044]第二输入子单元,用于将所述多尺度特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征聚合的视频目标检测方法,其特征在于,包括:构建目标检测网络,所述目标检测网络包括第一网络和第二网络,所述第一网络的输出信息发送至第二网络的输入端,所述第一网络由YOLOv5m网络结构,去除其最后一级的卷积层形成,所述第二网络为特征聚合网络;获取所述视频的第一帧图像I1和第二帧图像I2,并通过所述目标检测网络确定所述第一帧图像I1和第二帧图像I2分别对应的第一支持帧的建议特征集和第二支持帧的建议特征集将所述视频的第t帧图像I
t
输入所述目标检测网络,结合第一支持帧的建议特征集和第二支持帧的建议特征集输出目标检测结果,t≥3;判断是否根据所述第t帧图像更新所述第一帧图像I1、第二帧图像I2以及它们对应的第一支持帧的建议特征集和第二支持帧的建议特征集2.根据权利要求1所述的基于特征聚合的视频目标检测方法,其特征在于,获取所述视频的第一帧图像I1和第二帧图像I2,并通过所述目标检测网络确定所述第一帧图像I1和第二帧图像I2分别对应的第一支持帧的建议特征集和第二支持帧的建议特征集包括:将所述第一帧图像I1和第二帧图像I2分别输入第一网络,分别得到多尺度特征图其中l为尺度,l=1,2,3,S
l
×
S
l
为特征图在尺度l下的网格数目,D
l
为特征图网格在尺度l下的特征维数;将所述多尺度特征图分别输入第二网络的第一卷积层,所述第一卷积层为每一个网格特征输出3个置信度得分,每一个得分对应一个预设的模板框,通过第一卷积层输出所述多尺度特征图分别对应的得分将得分P
l1
、P
l2
分别输入第二网络的特征提取层,所述特征提取层首先用非极大值抑制方法对得分P
l1
、P
l2
进行分别处理,然后提取得分最高的N
l
个网格特征,并分别组合为第一支持帧的建议特征集和第二支持帧的建议特征集和第二支持帧的建议特征集和第二支持帧的建议特征集保存所述第一帧图像I1、第二帧图像I2以及它们对应的第一支持帧的建议特征集和第二支持帧的建议特征集3.根据权利要求2所述的基于特征聚合的视频目标检测方法,其特征在于,将所述第t帧图像输入所述目标检测网络,结合第一支持帧的建议特征集和第二支持帧的建议特征集输出目标检测结果,包括:将所述第t帧图像I
t
输入第一网络,得到多尺度特征图
将多尺度特征图依次输入第二网络的第一卷积层和特征提取层,得到测试帧的建议特征集特征集将第一支持帧的建议特征集第二支持帧的建议特征集以及测试帧的建议特征集输入第二网络的特征聚合层,得到聚合特征集输入第二网络的特征聚合层,得到聚合特征集将所述聚合特征集输入所述第二网络的第二卷积层,得到目标检测结果。4.根据权利要求3所述的基于特征聚合的视频目标检测方法,其特征在于,将第一支持帧的建议特征集第二支持帧的建议特征集以及测试帧的建议特征集输入第二网络的特征聚合层,得到聚合特征集包括:计算自适应权值计算自适应权值其中,k=1,2,t,1≤i≤N
l
对所述自适应权值进行归一化处理:计算聚合特征集的第i个聚合特征的第i个聚合特征得到聚合特征集5.根据权利要求3所述的基于特征聚合的视频目标检测方法,其特征在于,判断是否根据所述第t帧图像更新所述第一帧图像I1、第二帧图像I2以及它们对应的第一支持帧的建议特征集和第二支持帧的建议特征集包括:计算第t帧图像I
t
与第二帧图像I2的相关性;如果所述相关性小于预设阈值,则将第二帧图像I2和第二支持帧的建议特征集分别替换第一帧图像I1和第一支持帧的建议特征集将第t帧图像I
...

【专利技术属性】
技术研发人员:彭政刘健欣黄薇蓉黎颖刘晶易满成俞思帆李卓坚姜伟朱明华张连源
申请(专利权)人:广东电网有限责任公司广州供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1