适用于复杂环境的基于视频流数据的高空小目标检测方法技术

技术编号:33449728 阅读:11 留言:0更新日期:2022-05-19 00:34
本发明专利技术公开了一种适用于复杂环境的基于视频流数据的高空小目标检测方法,首先对输入视频进行划分,每6帧进行一次检测,分别使用神经网络和传统的光流法以及图像校准技术。通过光流法跟踪特征点,准确计算两个视频帧之间的变换矩阵,再用帧差法将前景和背景分离。通过这种方法克服视频质量低,镜头晃动等困难,再结合神经网络的候选目标,根据其置信度进行筛选,分离出最终结果。在视频质量低,环境复杂等情况下,本发明专利技术能显著提高检测精度。本发明专利技术能显著提高检测精度。本发明专利技术能显著提高检测精度。

【技术实现步骤摘要】
适用于复杂环境的基于视频流数据的高空小目标检测方法


[0001]本专利技术属于目标检测
,特别是一种适用于复杂环境的基于视频流数据的高空小目标检测方法、系统、计算机设备和存储介质。

技术介绍

[0002]目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标,确定它们的类别和位置,目标检测是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。传统目标检测的方法一般分为三个阶段:首先在给定的图像上选择一些候选的区域,这一步是为了对目标的位置进行定位。由于目标可能出现在图像的任何位置,而且目标的大小、长宽比例也不确定,所以需要设置不同的尺度,不同的长宽比。其次是对这些区域提取特征,常用的特征有SIFT、HOG等。最后使用训练的分类器进行分类,分类器主要有SVM,AdaBoost等。传统目标检测有许多缺点,首先候选区域生成时间复杂度高,影响后续特征提取和分类的速度和性能,其次,人工特征提取使得算法整体的多样性和鲁棒性无法保证,对于尺寸较小的目标,其特征很可能会被忽略。
[0003]如今,计算机性能的提升使得深度学习算法成为了目标检测领域的主流方法。尤其是2012年,基于CNN的AlexNet一举夺得ImageNet图像识别比赛的冠军,从此神经网络开始受到广泛的关注。深度学习利用多层计算模型来学习抽象的数据表示,能够发现大数据中的复杂结构,目前,这项技术已成功地应用在包括计算机视觉领域在内的多种模式分类问题上。常见的目标检测算法如R

CNN系列,YOLO系列等,均展现出了强大的检测精度。缺点是该类算法的深层神经网络依赖硬件性能,具有较高的计算成本。
[0004]基于视频的目标检测,由于视频中的目标具有不同姿态且经常出现遮挡、其运动具有不规则性,同时考虑到监控视频的景深、分辨率、天气、光照等条件和场景的多样性和复杂性,而且目标检测算法的结果将直接影响后续的跟踪、动作识别和行为描述的效果。故即使在技术发展的今天,视频目标检测这一基本任务仍然是非常具有挑战性的课题,存在很大的提升潜力和空间。尤其是对于机载计算机,其性能有限,神经网络难以部署,其次,摄像机拍摄抖动,不稳定等因素造成的图像模糊也严重限制了目标检测的精度。

技术实现思路

[0005]本专利技术的目的在于针对上述现有技术存在的问题,提供一种适用于复杂环境的基于视频流数据的高空小目标检测方法。
[0006]实现本专利技术目的的技术解决方案为:一种适用于复杂环境的基于视频流数据的高空小目标检测方法,所述方法包括以下步骤:
[0007]步骤1,构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;
[0008]步骤2,对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧
至第i+5帧;
[0009]步骤3,针对第i+3帧图像,将其输入至所述目标检测模型,获得目标信息;
[0010]步骤4,针对第i+1帧,第i+3帧和第i+5帧图像,首先构建图像金字塔并使用SIFT提取图像中的关键点,之后通过LK光流法估算当前特征点的光流;
[0011]步骤5,基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
[0012]步骤6,根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
[0013]步骤7,针对步骤3模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
[0014]步骤8,对于步骤6的每个输出结果,寻找与其IOU匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
[0015]一种适用于复杂环境的基于视频流数据的高空小目标检测系统,所述系统包括依次执行的以下模块:
[0016]模型构建模块,用于构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;
[0017]视频划分模块,用于对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧至第i+5帧;
[0018]目标信息获取模块,用于将第i+3帧图像输入至所述目标检测模型,获得目标信息;
[0019]关键点提取模块,用于针对第i+1帧,第i+3帧和第i+5帧图像,首先构建图像金字塔并使用SIFT提取图像中的关键点,之后通过LK光流法估算当前特征点的光流;
[0020]关键点匹配模块,用于基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
[0021]校正模块,用于根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
[0022]目标分类模块,用于针对目标信息获取模块中模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;
[0023]目标检测模块,用于针对所述校正模块的每个输出结果,寻找与其IOU匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。
[0024]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0025]步骤1,构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目
标检测模型;
[0026]步骤2,对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧至第i+5帧;
[0027]步骤3,针对第i+3帧图像,将其输入至所述目标检测模型,获得目标信息;
[0028]步骤4,针对第i+1帧,第i+3帧和第i+5帧图像,首先构建图像金字塔并使用SIFT提取图像中的关键点,之后通过LK光流法估算当前特征点的光流;
[0029]步骤5,基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;
[0030]步骤6,根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;
[0031]步骤7,针对步骤3模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于复杂环境的基于视频流数据的高空小目标检测方法,其特征在于,所述方法包括以下步骤:步骤1,构建神经网络,并利用高空小目标图像数据集训练所述神经网络,获得目标检测模型;步骤2,对待检测视频进行划分,每6帧为作为一个目标检测周期,分别记为第i帧至第i+5帧;步骤3,针对第i+3帧图像,将其输入至所述目标检测模型,获得目标信息;步骤4,针对第i+1帧,第i+3帧和第i+5帧图像,首先构建图像金字塔并使用SIFT提取图像中的关键点,之后通过LK光流法估算当前特征点的光流;步骤5,基于光流估算出该视频帧中关键点在下一帧中的位置,并获取匹配的关键点对;步骤6,根据成功匹配的关键点计算变换矩阵,将变换矩阵作用于后一帧图像进行校正,再利用帧差法和二值法获得该帧图像中运动目标的位置;步骤7,针对步骤3模型输出的目标信息,对其进行解码,获得目标的位置、类别和类别置信度,同时分别设置阈值一和阈值二两个阈值,且阈值一大于阈值二,置信度大于阈值一的目标为接收目标,置信度小于阈值二的目标舍弃,置信度位于阈值一和二之间的目标作为候选目标;步骤8,对于步骤6的每个输出结果,寻找与其IOU匹配的候选目标,若存在多个候选目标,则选择置信度最大的目标作为最终匹配结果,若不存在与之匹配的候选目标,则舍弃。2.根据权利要求1所述的适用于复杂环境的基于视频流数据的高空小目标检测方法,其特征在于,步骤1中所述神经网络的框架具体为:对输入图像进行一次3*3的卷积将通道数扩充到32维,然后将该特征层输入至残差网络中,分别进行1次,2次,2次,4次和1次的残差块计算,分别对输入进行下采样,并扩张一次通道数,将最终的3个特征层(52,52,128),(26,26,256)和(13,13,512)作为检测不同尺寸目标的特征输出;之后对输出特征进行进一步处理,对(13,13,512)尺度的特征层进行L5卷积正则化处理,之后通过3*3卷积和1*1卷积进行压缩,使得(13,13,512)尺度的特征层的输出格式为c*h*w*(5+cls);对(13,13,512)尺度特征层进行L5卷积正则化处理的结果进行上采样,并通过(26,26,256)全连接层和(26,26,256)的特征层进行拼接,然后进行L5卷积正则化处理,之后通过3*3卷积和1*1卷积进行压缩,使得(26,26,256)尺度的特征层的输出格式为c*h*w*(5+cls);对上述拼接后进行L5卷积正则化处理的结果进行上采样,并通过(52,52,256)全连接层和(52,52,128)的特征层进行拼接,然后进行L5卷积正则化处理,之后通过3*3卷积和1*1卷积进行压缩,使得(52,52,128)尺度的特征层的输出格式为c*h*w*(5+cls);其中,c为图像通道数,h为图像的高,w为图像的宽,cls为检测目标类别数,即代表每一个类别的置信度,5分别代表目标中心点坐标和长宽偏移量以及存在目标的置信度。3.根据权利要求1所述的适用于复杂环境的基于视频流数据的高空小目标检测方法,其特征在于,步骤4中LK光流法的计算公式为:I(x,y,z,t)=I(x+Δx,y+Δy,z+Δz,t+Δt)其中,x、y、z表示某一点的位置坐标,t表示当前的时刻,I(x,y,z,t)表示该点在t时刻
的灰度值,即亮度,Δx、Δy、Δz表示该点在经过Δt时间后的位移量,上述公式假设在一段时间内该点亮度恒定,对其进行泰勒展开可得下式:将上式两边除以Δt并移项,可简化为如下形式:I
x
V
x
+I
y
V
y


I
t
式中,I
x<...

【专利技术属性】
技术研发人员:顾晶晶冯晨
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1