一种结合帧间光流的表观运动联合弱小运动目标检测方法技术

技术编号：31907843 阅读：47 留言：0更新日期：2022-01-15 12:46

本发明专利技术提出一种结合帧间光流的表观运动联合弱小运动目标检测方法。该方法基于YOLOv3单帧目标检测网络框架构建表观运动联合网络，将多帧累积光流作为运动特征融合到输入的单帧图像中，对表观特征进行有效补充，从而提升弱小运动目标的检测准确率。其中，采用多帧累积光流来代替相邻两帧间光流，可以更好地突出慢速小目标的运动特征，当小目标存在运动甚至慢速运动时，可以有效地通过较长时间运动信息的累积结果来补充表观信息的缺失，提升弱小运动目标的检测准确率。针对运动目标检测任务，设计表观运动联合网络的运动目标置信度和损失函数，使网络可以进一步将运动目标和静止目标区分开。实验结果表明，结合帧间光流的表观运动联合网络相比于单帧目标检测网络，可以有效地提升弱小运动目标的检测准确率。效地提升弱小运动目标的检测准确率。效地提升弱小运动目标的检测准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种结合帧间光流的表观运动联合弱小运动目标检测方法

[0001]本专利技术涉及一种结合帧间光流的表观运动联合弱小运动目标检测方法，属于计算机视觉

技术介绍

[0002]目标检测是计算机视觉领域的基本任务之一，其目的是找出图像或视频中的感兴趣物体。近年来，随着深度学习技术的发展，目标检测算法取得了突破，深度神经网络提取的特征能更好地适应目标外观、姿态等的变化，在光照、遮挡等因素影响下也能更加鲁棒地检测到目标。基于深度学习的视觉目标分析已经在人脸检测识别、可控环境下视频目标检测跟踪等任务上取得了较好的效果，在一些公开数据集上人车等目标检测识别已超过了人类的平均识别能力。例如，在Labeled Faces in the Wild(LFW)数据集上人脸识别精度超过99.7％(参考《Circle loss:A unified perspective of pairsimilarity optimization》，刊于《Proc of IEEE Conference on ComputerVision and Pattern Recognition》，2020年；《Towards universalrepresentation learning for deep face recognition》，刊于《Proc of IEEEConference on Computer Vision and Pattern Recognition》，2020年)，在KITTI数据库上小汽车类别的识别精度达到96.1％(参考《Radh...

【技术保护点】

【技术特征摘要】
1.一种结合帧间光流的表观运动联合弱小运动目标检测方法，包括如下步骤：(1)累积光流计算：利用深度神经网络光流计算方法计算当前帧与前一帧之间的光流，得到当前帧每个像素点的光流，所述光流包含运动方向和运动大小；按照上述方法计算N个连续帧中每相邻两帧的光流，得到N
‑
1个光流，将所述N
‑
1个光流叠加，形成多帧累积光流；(2)表观运动联合网络构建：在YOLOv3单帧目标检测网络的基础上，通过用Darknet
‑
53骨干网络提取特征，在不同尺度的YOLO层进行目标检测的结构构建表观运动联合网络，将所述多帧累积光流中包含的水平、垂直方向的运动信息作为双通道信息，连同当前帧图像的RGB三通道像素值，经过预处理后一同作为所述表观运动联合网络的输入；在YOLO层每一个预测边界框输出结果中增加运动目标置信度；并在YOLOv3单帧目标检测网络的五类损失之外，增加运动目标预测损失，从而改进损失函数；在训练过程中对所述表观运动联合网络进行约束，使所述表观运动联合网络在目标检测的基础上，进一步区分运动目标和静止目标。2.如权利要求1所述的方法，其特征在于：所述步骤(1)中多帧累积光流的计算过程包括：针对N个连续帧，利用深度神经网络光流计算方法PWC
‑
Net计算出每相邻两帧间的光流，得到N
‑
1个光流结果，将所述每相邻两帧的光流结果以矩阵形式表示，所述矩阵中每个元素表示每个像素点的光流结果；将所述N
‑
1个光流结果进行叠加，形成所述多帧累积光流，以增强慢速小目标的运动信息，所述相邻两帧的光流结果记为(U
i
→
i+1
,V
i
→
i+1
)，从第1帧到第N帧的N
‑
1帧累积光流S1→
N
由下述公式(1)计算得到，3.如权利要求1所述的方法，其特征在于：所述步骤(2)中表观运动联合网络的具体构建过程为：(2.1)以YOLOv3单帧目标检测网络为基础，将输入的图像经过Darknet
‑
53骨干网络提取特征，在YOLO层进行目标检测，并将该YOLO层中特征图经过上采样层，与Darknet
‑
53后两层中相应尺度的特征图进行维度拼接，实现多层特征的融合，作为下一个YOLO层提供数据；(2.2)使用多个YOLO层进行不同尺度的目标检测，每个YOLO层将输入的特征图进行若干次Darknetconv2d_BN_Leaky，即DBL操作,所述DBL操作是在一个卷积层后跟一个Batch Normalization层和一个LeakyReLU层，得到输入到下一个YOLO层的特征图，再进行1次Darknetconv2d_BN_Leaky操作，并经过1
×
1卷积运算，输出对应的S
×
S
×
B
×
(C+(4+1))维度的张量，其中，S
×
S表示YOLO层中划分的网格数量，B表示每一个网格上产生的边框个数，C表示网络支持识别的类别数；输出张量中包含每个预测边界框的所属类别概率、位置参数以及物体置信度，其中，所属类别概率表示在预测框存在目标的情况下，目标属于各个类别的对应概率，位置参数包括4个参数x、y、w、h，分别表示预测框的中心点相对网格的偏移量和相对于S
×
S网格的宽、高，物体置信度表示预测框中存在目标的概率。4.如权利要求1所述的方法，其特征在于：所述步骤(2)中将多帧累积光流与当前帧图像的RGB三通道像素值一同作为表观运动联合网络的输入的计算过程包括：将多帧累积光流和RGB三通道像素值经...

【专利技术属性】
技术研发人员：郑锦，王菲，于智浩，百晓，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人