基于特征融合的自适应场面监视视频目标检测方法和系统技术方案

技术编号:39779295 阅读:8 留言:0更新日期:2023-12-22 02:24
本发明专利技术公开了一种基于特征融合的自适应场面监视视频目标检测方法和系统,解决了在机场场面监视场景下视频目标检测中时序上下文信息未充分融合及检测速度较慢的问题

【技术实现步骤摘要】
基于特征融合的自适应场面监视视频目标检测方法和系统


[0001]本专利技术属于计算机视觉中视频目标检测
,更具体地,涉及一种机场环境下,基于特征融合的自适应场面监视视频目标检测方法和系统,对机场航空器及车辆目标进行识别与检测


技术介绍

[0002]目标检测是计算机视觉领域的一项非常重要的研究课题

目标检测模型不仅可以应用于各种安防监控系统

自动驾驶系统

无人机等领域,而且还有着广泛的商业用途,例如人脸识别

车牌识别

医学影像分析等

随着深度学习技术的不断发展,越来越多的优秀的目标检测算法被提出,这使得目标检测有着更强的准确性

更快的速度和更高效的处理大量数据的能力

[0003]深度学习是一种人工智能的技术,它通过模拟人脑神经网络的结构和功能来实现机器学习

在图像目标检测方面,深度学习有着很多的优势,例如准确性高

速度快

能够处理大量数据等

因此,深度学习在图像目标检测方面得到了广泛的应用

但是在视频目标检测方面,面临着更为复杂的困难和挑战

首先,视频数据量巨大,处理起来非常耗时,这需要算法具备更高的速度和效率

其次,视频中的目标可能会发生运动

遮挡

形变等变化,这些都会给目标检测带来困难

此外,视频目标检测需要实时性,这对算法的速度和效率提出了更高的要求

[0004]在深度学习出现之前,传统的目标检测方法一般可以分为区域选择
(
滑窗
)、
特征提取
(SIFT、HOG

)
和分类器
(SVM、Adaboost

)
三个部分

例如,
Viola

Jones
检测器采用滑动窗口的方式以检查目标是否存在窗口之中

其主要问题有两方面:一方面滑窗选择策略没有针对性

时间复杂度高,窗口冗余;另一方面手工设计的特征鲁棒性较差

而在深度学习时代,目标检测可以分为两类:“双级检测
(two

stage detection)”和“单级检测
(one

stage detection)”。
前者将检测框定为一个“从粗到细”的过程,而后者则是“一步到位”。
例如,
RCNN
是一个典型的基于深度学习的二阶段目标检测算法

它首先通过选择性搜索算法从一组对象候选框中选择可能出现的对象框,然后将这些选择出来的对象框中的图像
resize
到某一固定尺寸的图像,并喂入到
CNN
模型提取特征,最后将提取出的特征送入到分类器来预测该对象框中的图像是否存在待检测目标,并进一步预测该检测目标具体属于哪一类

[0005]然而,这些视频目标检测方法往往对所有帧采取相同的处理方式,或者对选取固定帧作为关键帧进行目标检测,从而导致检测识别速度极慢

同时,这些方法往往忽视了视频中不同帧之间的时序信息,这对于提升检测精确度和速度而言是至关重要的

因此,如何准确地捕捉视频中不同上下文之间的时序信息,采取不同的处理策略,是值得深入研究的,它可以为提高视频目标检测的精确度和速度做出重要的贡献


技术实现思路

[0006]本专利技术的目的是于针对上述现有技术存在的问题,提供一种面向机场环境下,基于特征融合的自适应场面监视视频目标检测方法和系统,在充分融合时序上下文的特征实现检测精度的同时,达到检测速度的均衡

[0007]实现本专利技术目的的技术解决方案为:基于特征融合的自适应场面监视视频目标检测方法和系统,所述方法包括以下步骤:
[0008]步骤1:确定包括待检测目标的视频流,所述视频流包括多帧图像序列,图像中包括待检测目标;
[0009]步骤2:采用
ResNet
网络作为特征提取网络
Nfeat
,采用
RFCN
网络作为分类定位网络
Ntask
,设计一个卷积神经网络作为权重网络
Nw
,设计一个基于卷积神经网络的光流网络
FlowNet

[0010]步骤3:若当前帧为视频流第一帧,则将当前帧选为关键帧,利用所述特征提取网络
Nfeat
提取当前帧图像的特征,然后将其特征图直接输入所述分类定位网络
Ntask
,进行分类和定位,得到目标检测结果;
[0011]步骤4:若当前帧不是视频流第一帧,则根据时序自适应关键帧动态调度策略,计算当前帧和前一个关键帧的光流运动场及特征时序一致性判别矩阵
Qk2i
,判断当前帧是关键帧或非关键帧;
[0012]步骤5:若当前帧是关键帧,则利用所述特征提取网络
Nfeat
提取当前帧图像的特征,并计算当前帧与前一个关键帧的特征图经过权重网络
Nw
聚合后的融合特征图,然后进行分类和定位,得到目标检测结果;
[0013]步骤6:若当前帧是非关键帧,则采用空间自适应局部特征更新方法,根据所述步骤4得到的一致性判别矩阵
Qk2i
和前一个关键帧的特征图计算当前帧的特征图,然后进行分类和定位,得到目标检测结果

[0014]进一步地,步骤1:确定包括待检测目标的视频流,所述视频流包括多帧图像序列,图像中包括待检测目标;
[0015]进一步地,步骤2所述采用
ResNet
网络作为特征提取网络
Nfeat
,采用
RFCN
作为分类定位网络
Ntask
,设计一个卷积神经网络作为权重网络
Nw
,设计一个基于卷积神经网络的光流网络
FlowNet
,具体包括:
[0016]步骤2‑1:构造基于
ResNet
的特征提取网络
Nfeat
用于计算图像的特征图

这里使用经更改后的
ResNet

101
模型

[0017]其中
ResNet101
将最后的分类层丢弃,将
conv5
的第一个块的步幅修改为1,在
conv5
中的所有
3x3
卷积核上应用
holing
算法,这样可以保证模型的感受本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于特征融合的自适应场面监视视频目标检测方法,其特征在于,所述方法包括以下步骤:步骤1:确定包括待检测目标的视频流,所述视频流包括多帧图像序列,图像中包括待检测目标;步骤2:采用
ResNet
网络作为特征提取网络
Nfeat
,采用
RFCN
网络作为分类定位网络
Ntask
,设计一个卷积神经网络作为权重网络
Nw
,设计一个基于卷积神经网络的光流网络
FlowNet
;步骤3:若当前帧为视频流第一帧,则将当前帧选为关键帧,利用所述特征提取网络
Nfeat
提取当前帧图像的特征,然后将其特征图直接输入所述分类定位网络
Ntask
,进行分类和定位,得到目标检测结果;步骤4:若当前帧不是视频流第一帧,则根据时序自适应关键帧动态调度策略,计算当前帧和前一个关键帧的光流运动场及特征时序一致性判别矩阵
Qk2i
,判断当前帧是关键帧或者非关键帧;步骤5:若当前帧是关键帧,则利用所述特征提取网络
Nfeat
提取当前帧图像的特征,并计算当前帧与前一个关键帧的特征图经过权重网络
Nw
聚合后的融合特征图,然后进行分类和定位,得到目标检测结果;步骤6:若当前帧是非关键帧,则采用空间自适应局部特征更新方法,根据所述步骤4得到的一致性判别矩阵
Qk2i
和前一个关键帧的特征图计算当前帧的特征图,然后进行分类和定位,得到目标检测结果
。2.
根据权利要求1所述的基于特征融合的自适应场面监视视频目标检测方法,其特征在于,步骤2所述采用
ResNet
网络作为特征提取网络
Nfeat
,采用
RFCN
作为分类定位网络
Ntask
,设计一个卷积神经网络作为权重网络
Nw
,设计一个基于卷积神经网络的光流网络
FlowNet
,具体包括:步骤2‑1:构造基于
ResNet
的特征提取网络
Nfeat
用于计算图像的特征图

这里使用经更改后的
ResNet

101
模型,其中
ResNet

101
将最后的分类层丢弃,将
conv5
的第一个块的步幅修改为1,在
conv5
中的所有
3x3
卷积核上应用
holing
算法,并在
conv5
后添加
3x3
卷积层,将特征通道维度减少到
1024。
将当前关键帧的图像输入
Nfeat
网络,输出得到关键帧的特征图

步骤2‑2:构造基于
RFCN
的分类定位网络
Ntask
用于计算当前帧的分类和定位

将当前帧计算获得的特征图输入进
Ntask
网络,输出得到当前帧的分类和定位

步骤2‑3:采用自适应权重的特征融合方式

构造基于卷积神经网络的权重网络

将当前帧特征图和前一个关键帧特征图一起输入网络,在最后一层池化层处理结束后,经由余弦相似度函数处理,获得重要性权重

根据权重,对两张特征图进行加权融合得到新的关键帧的特征图;步骤2‑4:构造基于卷积神经网络的光流网络
FlowNet
用于计算光流运动场

将当前帧和前一个关键帧一起输入
FlowNet
,输出得到当前帧的光流运动场
。3.
根据权利要求1所述的基于特征融合的自适应场面监视视频目标检测方法,其特征在于,步骤4所述若当前帧不是视频流第一帧,则根据时序自适应关键帧动态调度策略,计算当前帧和前一个关键帧的光流运动场及特征时序一致性判别矩阵
Qk2i
,判断当前帧是...

【专利技术属性】
技术研发人员:王欣赵帅刘冠李涛李敏乐王晓磊郭晓喻王英杰张雨松
申请(专利权)人:苏州数智源信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1