一种结合帧间光流的表观运动联合弱小运动目标检测方法技术

技术编号:31907843 阅读:47 留言:0更新日期:2022-01-15 12:46
本发明专利技术提出一种结合帧间光流的表观运动联合弱小运动目标检测方法。该方法基于YOLOv3单帧目标检测网络框架构建表观运动联合网络,将多帧累积光流作为运动特征融合到输入的单帧图像中,对表观特征进行有效补充,从而提升弱小运动目标的检测准确率。其中,采用多帧累积光流来代替相邻两帧间光流,可以更好地突出慢速小目标的运动特征,当小目标存在运动甚至慢速运动时,可以有效地通过较长时间运动信息的累积结果来补充表观信息的缺失,提升弱小运动目标的检测准确率。针对运动目标检测任务,设计表观运动联合网络的运动目标置信度和损失函数,使网络可以进一步将运动目标和静止目标区分开。实验结果表明,结合帧间光流的表观运动联合网络相比于单帧目标检测网络,可以有效地提升弱小运动目标的检测准确率。效地提升弱小运动目标的检测准确率。效地提升弱小运动目标的检测准确率。

【技术实现步骤摘要】
一种结合帧间光流的表观运动联合弱小运动目标检测方法


[0001]本专利技术涉及一种结合帧间光流的表观运动联合弱小运动目标检测方法,属于计算机视觉


技术介绍

[0002]目标检测是计算机视觉领域的基本任务之一,其目的是找出图像或视频中的感兴趣物体。近年来,随着深度学习技术的发展,目标检测算法取得了突破,深度神经网络提取的特征能更好地适应目标外观、姿态等的变化,在光照、遮挡等因素影响下也能更加鲁棒地检测到目标。基于深度学习的视觉目标分析已经在人脸检测识别、可控环境下视频目标检测跟踪等任务上取得了较好的效果,在一些公开数据集上人车等目标检测识别已超过了人类的平均识别能力。例如,在Labeled Faces in the Wild(LFW)数据集上人脸识别精度超过99.7%(参考《Circle loss:A unified perspective of pairsimilarity optimization》,刊于《Proc of IEEE Conference on ComputerVision and Pattern Recognition》,2020年;《Towards universalrepresentation learning for deep face recognition》,刊于《Proc of IEEEConference on Computer Vision and Pattern Recognition》,2020年),在KITTI数据库上小汽车类别的识别精度达到96.1%(参考《RadhaCLOCs: Camera

LiDAR Object Candidates Fusion for 3D Object Detection》,刊于《IEEE/RSJ International Conference on Intelligent Robots andSystems》,2020年)。
[0003]然而,在面对弱小目标检测时,现有深度学习方法依然面临较大的问题,由于深度学习网络框架中往往有池化、卷积步长的限制,最终的目标表观特征图相对于原图经过了多次下采样,很多表观信息已经丢失,面对弱小目标时这些丢失的表观信息极大影响了检测精度。针对弱小目标难以被检测的问题,现有效果最明显的方法之一是FPN网络(参考《Feature pyramid networksfor object detection》,刊于《Proceedings of the IEEE conference oncomputer vision and pattern recognition》,2017年)中提出的多层特征融合。该方法将浅层特征与深层特征相融合,用浅层特征补充深层丢失的特征。但是对于浅层表观特征本身就已经较少的情况,该方法依然不能很好地解决弱小目标漏检的问题。
[0004]考虑到单纯利用目标表观信息无法很好地检测到弱小目标,结合运动特征的视频运动目标检测作为一类重要的应用也开展了广泛的研究。其中,现有基于深度神经网络的运动目标检测算法基本采用两步式方法,即首先基于单帧图像深度神经网络检测目标,再采用光流加阈值分割的方式获取视频帧中的运动区域,从而判断单帧图像检测到的目标是否运动。这样的分步式方法存在以下问题:在单帧目标检测的基础上再过滤非运动目标,进而得到运动目标,其结果受单帧检测的精度影响较大。一旦单帧目标检测算法不能准确地检测到所有目标,后续的运动判断也无从谈起。当前,单帧目标检测算法中针对弱小目标的漏检现象仍然非常严重,当目标表观信息缺失时,基于表观深度网络的单帧目标检测算法极易漏检弱小目标。以单帧目标检测为基础的分步式方法中,运动信息的使用并没有有效
提升运动目标的检测准确率。人类对于较小目标进行检测时,更多关注的是目标的运动特征,相比表观特征,运动使得我们更容易发现目标。运动特征的利用是视频目标检测与单帧目标检测的根本区别。现有分步式方法首先利用表观特征发现目标,在该阶段摒弃了帧间信息,减少了深度神经网络对外界信息的获取量,不利于提升目标检测的准确率。
[0005]为此,本申请提出了一种结合帧间光流的表观运动联合弱小运动目标检测方法。基于YOLOv3目标检测网络框架(参考《YOLOv3:an incrementalimprovement》,刊于《arXiv e

prints》,2018年),构建表观运动联合网络实现弱小运动目标的准确检测。具体地,将帧间光流场作为一种低层次运动特征,与单帧图像中的目标表观特征融合到神经网络中作为通道信息,以运动特征增强RGB图像特征,将运动特征、表观特征在一个统一网络框架内训练,结合两者的优势,最终准确检测到运动目标。这种一步式检测的应用模式相比分步式检测的应用模式,对运动小目标有更好的适应性。表观运动联合网络在目标较小、表观网络易漏检目标的情况下,利用弱小目标依然存在运动、甚至可能运动速度较快的特点,通过额外输入帧间光流进行表观和运动特征的联合训练,可以更好地检测到表观特征较少的弱小运动目标。

技术实现思路

[0006]本专利技术的目的是提供一种结合帧间光流的表观运动联合弱小运动目标检测方法。该方法不仅可以通过运动特征补充表观特征、提升弱小目标的检测准确率,还可以利用表观特征和运动特征联合预测运动目标,将运动目标和静止目标区分开来。
[0007]为实现上述目的,本专利技术采用的技术方案流程如下:
[0008]一种结合帧间光流的表观运动联合弱小运动目标检测方法,包括如下步骤:
[0009](1)累积光流计算:利用深度神经网络光流计算方法计算当前帧与前一帧之间的光流,得到当前帧每个像素点的光流,所述光流包含运动方向和运动大小;按照上述方法计算N个连续帧中每相邻两帧的光流,得到N

1个光流,将所述N

1个光流叠加,形成多帧累积光流;
[0010](2)表观运动联合网络构建:在YOLOv3单帧目标检测网络的基础上,通过用Darknet

53骨干网络提取特征,在不同尺度的YOLO层进行目标检测的结构构建表观运动联合网络,将所述多帧累积光流中包含的水平、垂直方向的运动信息作为双通道信息,连同当前帧图像的RGB三通道像素值,经过预处理后一同作为所述表观运动联合网络的输入;在YOLO层每一个预测边界框输出结果中增加运动目标置信度;并在YOLOv3单帧目标检测网络的五类损失之外,增加运动目标预测损失,从而改进损失函数;在训练过程中对所述表观运动联合网络进行约束,使所述表观运动联合网络在目标检测的基础上,进一步区分运动目标和静止目标。
[0011]如上所述的方法,其特征在于:所述步骤(1)中多帧累积光流的计算过程包括:针对N个连续帧,利用深度神经网络光流计算方法PWC

Net计算出每相邻两帧间的光流,得到N

1个光流结果,将所述每相邻两帧的光流结果以矩阵形式表示,所述矩阵中每个元素表示每个像素点的光流结果;将所述N<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合帧间光流的表观运动联合弱小运动目标检测方法,包括如下步骤:(1)累积光流计算:利用深度神经网络光流计算方法计算当前帧与前一帧之间的光流,得到当前帧每个像素点的光流,所述光流包含运动方向和运动大小;按照上述方法计算N个连续帧中每相邻两帧的光流,得到N

1个光流,将所述N

1个光流叠加,形成多帧累积光流;(2)表观运动联合网络构建:在YOLOv3单帧目标检测网络的基础上,通过用Darknet

53骨干网络提取特征,在不同尺度的YOLO层进行目标检测的结构构建表观运动联合网络,将所述多帧累积光流中包含的水平、垂直方向的运动信息作为双通道信息,连同当前帧图像的RGB三通道像素值,经过预处理后一同作为所述表观运动联合网络的输入;在YOLO层每一个预测边界框输出结果中增加运动目标置信度;并在YOLOv3单帧目标检测网络的五类损失之外,增加运动目标预测损失,从而改进损失函数;在训练过程中对所述表观运动联合网络进行约束,使所述表观运动联合网络在目标检测的基础上,进一步区分运动目标和静止目标。2.如权利要求1所述的方法,其特征在于:所述步骤(1)中多帧累积光流的计算过程包括:针对N个连续帧,利用深度神经网络光流计算方法PWC

Net计算出每相邻两帧间的光流,得到N

1个光流结果,将所述每相邻两帧的光流结果以矩阵形式表示,所述矩阵中每个元素表示每个像素点的光流结果;将所述N

1个光流结果进行叠加,形成所述多帧累积光流,以增强慢速小目标的运动信息,所述相邻两帧的光流结果记为(U
i

i+1
,V
i

i+1
),从第1帧到第N帧的N

1帧累积光流S1→
N
由下述公式(1)计算得到,3.如权利要求1所述的方法,其特征在于:所述步骤(2)中表观运动联合网络的具体构建过程为:(2.1)以YOLOv3单帧目标检测网络为基础,将输入的图像经过Darknet

53骨干网络提取特征,在YOLO层进行目标检测,并将该YOLO层中特征图经过上采样层,与Darknet

53后两层中相应尺度的特征图进行维度拼接,实现多层特征的融合,作为下一个YOLO层提供数据;(2.2)使用多个YOLO层进行不同尺度的目标检测,每个YOLO层将输入的特征图进行若干次Darknetconv2d_BN_Leaky,即DBL操作,所述DBL操作是在一个卷积层后跟一个Batch Normalization层和一个LeakyReLU层,得到输入到下一个YOLO层的特征图,再进行1次Darknetconv2d_BN_Leaky操作,并经过1
×
1卷积运算,输出对应的S
×
S
×
B
×
(C+(4+1))维度的张量,其中,S
×
S表示YOLO层中划分的网格数量,B表示每一个网格上产生的边框个数,C表示网络支持识别的类别数;输出张量中包含每个预测边界框的所属类别概率、位置参数以及物体置信度,其中,所属类别概率表示在预测框存在目标的情况下,目标属于各个类别的对应概率,位置参数包括4个参数x、y、w、h,分别表示预测框的中心点相对网格的偏移量和相对于S
×
S网格的宽、高,物体置信度表示预测框中存在目标的概率。4.如权利要求1所述的方法,其特征在于:所述步骤(2)中将多帧累积光流与当前帧图像的RGB三通道像素值一同作为表观运动联合网络的输入的计算过程包括:将多帧累积光流和RGB三通道像素值经...

【专利技术属性】
技术研发人员:郑锦王菲于智浩百晓
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1