一种基于时域关系的动量视频目标检测方法技术

技术编号:34767470 阅读:15 留言:0更新日期:2022-08-31 19:21
本发明专利技术公开一种基于时域关系的动量视频目标检测方法,包括:(1)利用实例级校准方法获得时间维度的实例级校准特征图;(2)为了获取到更有用的信息,进一步利用在时域方面关键帧之间的先后关系计算相邻实例级校准特征图产生的动量偏移量;(3)将产生的动量偏移量和时域信息最新的实例级校准特征图融合,即可获得动量级实例校准特征图,用动量级实例校准特征图代替下一关键帧的实例校准特征图。本发明专利技术利用两个相邻的实例级特征图产生动量级实例校准特征图,通过这种类似于速度相对于加速度的偏移量,结合实例级特征图产生动量级实例校准特征图,以已知信息来预测未知信息的位置信息,从而提高检测精确率。从而提高检测精确率。从而提高检测精确率。

【技术实现步骤摘要】
一种基于时域关系的动量视频目标检测方法


[0001]本专利技术涉及计算机视觉中的深度学习部分,特别是涉及目标检测中的视频目标检测方面, 一种基于时域关系的动量视频目标检测方法。

技术介绍

[0002]随着物联网以及多媒体技术的发展、计算机性能的显著提高,使得深度学习和云计算成 为可能。在监控领域一个1080P高清摄像头的码流率为8Mb/s,一天可捕获约86.4GB视频 数量。据《2017

2022年全球视频分析,VCA,ISR和智能视频监控市场报告》,视频监控 和分析2015

2022年市场复合增长率18.2%,将会形成167个子市场,视频监控、智能交通 系统、安全城市、无人驾驶自动驾驶汽车、无人机、警用摄像头、智能零售视频系统和社交 媒体视频流只是用户为提高其性能而使用的部分视频。
[0003]目标检测的目的是对图片或视频中多个感兴趣的目标进行检测和分类。其按检测对象可 以分为图像目标检测和视频目标检测。当前,图像目标检测在深度学习的背景下,已经趋于 成熟。但是,在无人驾驶、视频监控、人机交互等方面对视频目标检测有着广泛的需求。当 前的视频目标检测算法,大多数是将视频中独有的时序信息和上下文信息以不同的形式加入 到图像目标检测的框架中,从而对视频中包含的目标进行分类和检测。
[0004]相较于图像来说,视频的一个关键元素是时序信息,人们普遍认为图像内容在视频帧之 间变化缓慢,尤其是在高级语义上。因此,视频中目标的位置和外观在时间上应该是一致的, 即检测结果在边界框位置和检测置信度上不应该随着时间发生剧烈的变化。视频的另一个关 键因素是上下文信息,即在相邻的关键帧之间检测出来的目标应该具有一定的联系。虽然在 视频图像上下文信息方面已经有相关研究,但是将具有更丰富的上下文信息视频作为数百幅 静态图像的集合直接用于静态图像目标检测器得不到较好的检测结果。所以要做好视频目标 检测就要充分利用视频中包含的时序信息和上下文信息。
[0005]视频目标检测还在起步阶段,目前大部分的视频目标检测方案都是借助于静态图像目标 检测框架进一步利用视频的上下文信息和时序信息。2015年大规模视觉挑战赛中提出了 ImageNet VID数据集,作为视频目标检测的基准数据集。随后,视频目标检测在计算机视觉 领域内引起了广大的关注。非极大值抑制Seq

NMS方法将静止图像检测的结果关联到序列 中,构建高置信度边界框序列,并对检测框按平均置信度或最大置信度重新评分。该方法作 为一个后处理步骤,需要在每帧检测上额外运行。基于tubelets的视频目标检测算法采用对 象跟踪算法生成tubelets,虽然可以生成tubelets,但是计算量非常大。为了优化tubelets的 生成,T

CNN的算法基于运动的方式能够有效地获得致密的tubelets,但是长度通常仅为几 帧,这对于包含长期时间信息不是最佳方案。为了进一步优化,金字塔网络TPN和长短期 记忆网络通过产生时空候选区域并融合时间信息来获取高准确率。在大规模数据集ImageNetVID上的实验表明了这种框架可以在视频目标检测中取得很好的结果。
[0006]针对通过改善图像目标检测的后处理步骤来进行视频目标检测算法的计算量较
大问题, 深度前馈网络DFF方法按固定的时间间隔提取视频帧作为关键帧,在关键帧上运行计算量 极大的卷积神经网络,得到关键帧的检测结果,然后,采用光流表示视频中的时序信息,通 过光流场将关键帧的检测结果传播到相邻帧,大幅度提高了视频目标检测的精度。由于在检 测过程中,输入到卷积神经网络的信息不包含时序信息,光流引导的视频目标检测特征聚合 方法FGFA算法将通过光流图像得到的特征和原始视频帧提取到的特征进行融合,输入到卷 积神经网络中进行训练,最终,提高了视频目标检测算法的精度。针对算法中,在固定的时 间间隔提取关键帧可能会造成重要信息缺失的问题。全动作感知网络的视频对象检测方法 MANet模型先提取出帧的特征和用FlowNet(simple version)提取出帧间的光流信息,完成 像素级的校准,接着通过预测出来的实例的移动过程,其实就是R

FCN得到的建议区域, 再进行实例级别的校准,后融合像素级最和实例级得到的特征用于训练和测试。
[0007]但是以上的方法都没有考虑使用时域关系来处理相邻关键帧的信息,为了解决视频帧中 存在大量物体外观退化现象,导致目标特征不明显,视频中存在的噪声较多,其中最主要的 是因为视频质量的不同,视频中存在很多外观退化物体,这类图像具有很少的可利用信息。
[0008]目前还没有机构将相邻关键帧之间的时域关系应用到根据相邻关键帧产生动量偏移量, 得到动量级实例校准信息来提高视频目标的检测精确率。

技术实现思路

[0009]本专利技术技术解决问题:针对视频中存在部分遮挡、散焦、特殊姿势和动作模糊等视频帧 中存在的现象,提供一种基于时域关系的动量视频目标检测方法,利用两个相邻的实例级特 征图产生动量级校准特征图,通过这种类似于速度相对于加速度的偏移量,结合实例级特征 图产生动量级校准特征图,以已知信息来预测未知信息的位置信息,从而提高检测精确率。
[0010]本专利技术的技术方案如下:
[0011]一种基于时域关系的动量视频目标检测方法,解决视频帧中存在大量物体外观退化现象, 导致目标特征不明显,视频中存在很多外观退化物体,这类图像具有很少的可利用信息,为 了进一步提高视频目标检测的精确率。
[0012]具体包括以下步骤:
[0013]步骤(1)利用ImageNet VID数据集的视频帧之间存在的时序信息进行训练和验证;将 所有视频切割为先后顺序帧并存储;
[0014]步骤(2)利用OpenCV库中对应图像数据读取方法每次从步骤(1)中的顺序帧中读取 五个关键帧,作为输入;所述五个关键帧分别表示为第一张关键帧data_before_before,第二 张关键帧data_before,第三张关键帧data,第四张关键帧data_after,第五张关键帧 data_after_after,并分别给每个关键帧融合周围K张非关键帧图像特征图,K范围为1到25; 第二张和第四张为参考关键帧,并分别给每个关键帧融合周围K张非关键帧图像特征图,K 范围为1到25,K为13时效果最好;第二张和第四张为参考关键帧;
[0015]步骤(3)选择ResNet101深度残差网络作为特征提取主干网络,特征提取主干网络包 含由100个卷积层和一个全连接层,通过恒等映射(identity mapping)保持所述深度残
使用最后一张关键帧代替。
[0026]所述步骤(5)具体实现如下;
[0027]将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚 合,得到加强后的像素级校准特征图y
t
,如下:
[0028][0029]表示光流信息和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时域关系的动量视频目标检测方法,其特征在于,包括以下步骤:步骤(1)利用ImageNet VID数据集的视频帧之间存在的时序信息进行训练和验证;将所有视频切割为先后顺序帧并存储;步骤(2)利用图像数据读取方法每次从步骤(1)中的顺序帧中读取五个关键帧,作为输入;所述五个关键帧分别表示为第一张关键帧data_before_before,第二张关键帧data_before,第三张关键帧data,第四张关键帧data_after,第五张关键帧data_after_after,并分别给每个关键帧融合周围K张非关键帧图像特征图,K范围为1到25;第二张和第四张为参考关键帧;步骤(3)选择ResNet101深度残差网络作为特征提取主干网络,特征提取主干网络包含由100个卷积层和一个全连接层,通过恒等映射保持所述深度残差网络的最优性,使深度残差网络性能不会随着深度的影响降低;步骤(2)中得到的关键帧在经过ResNet101深度残差网络后,提取出基本特征,从而得到关键帧图像特征图;步骤(4):将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络,通过光流网络获取相邻关键帧中的光流信息;步骤(5):将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚合,得到加强后的像素级校准特征图;步骤(6):利用步骤(5)得到的加强后的像素级校准特征图,通过候选区域生成网络RPN生成候选区域,候选区域通过softmax判断生成的锚框属于正向判断还是属于负向判断,再利用边界框回归)修正锚框,得到精确的候选区域;步骤(7):将步骤(5)得到的加强后像素级校准特征图作为区域建议网络RPN的输入,获取到能更好抓取目标移动信息的实例级校准特征图,相对于获取具体目标的像素级校准,实例级校准精确抓取物体的刚性特征;同时为利用时域关系,将加强后图像特征图中的前三张关键帧获取的实例级校准特征图,即第一个实例级校准特征图和后三张关键帧获取的实例级校准特征图,即第二个实例级校准特征图在时域上融合获取动量偏移量,中间帧即第三张关键帧被使用两次;所述动量偏移量是仿照单位时间同一目标的速度变化量,求出两个实例级校准特征图中同一个目标的位移偏移量;步骤(8):利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到最终动量级校准特征图,动量级校准特征图的本质和实例级校准特征图的实质是一样的,只是动量级校准特征图带有时域信息,用来代替下一个实例级校准特征图,提高检测精度;步骤(9):将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征图进行融合,同时将步骤(6)中获取到的候选区域也带入到动量级校准特征图中,得到所有带有区域建议目标候选框的特征图;步骤(10):采用区域二分类器对步骤(9)中得到的所有区域建议目标候选框进行投票分类,筛选出包含真实目标的候选框,以判断区域建议目标候选框与真实目标的候选框的交并比IOU是否超过阈值,根据IOU的值决定候选框是否为感兴趣区域RoI,如果超过阈值,则说明该感兴趣区域中包含检测目标,并保留真实目标的候选框,否则丢弃;步骤(11):构建ImageNet VID数据集中包含的30个目标类的多分类器,对步骤(10)中得到的目标候选框进行分类,通过投票机制判断目标候选框属于ImageNet VID数据集中已知的30类标签中的哪一类,从而实现目标分类任务;
步骤(12)对步骤(10)中的区域建议目标候选框区域进行边界回归,使得生成的区域建议目标候选框与真实目标的候选框...

【专利技术属性】
技术研发人员:蔡强康楠李海生韩龙飞常浩东万如一
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1