一种基于时域关系的动量视频目标检测方法技术

技术编号：34767470 阅读：15 留言：0更新日期：2022-08-31 19:21

本发明专利技术公开一种基于时域关系的动量视频目标检测方法，包括：(1)利用实例级校准方法获得时间维度的实例级校准特征图；(2)为了获取到更有用的信息，进一步利用在时域方面关键帧之间的先后关系计算相邻实例级校准特征图产生的动量偏移量；(3)将产生的动量偏移量和时域信息最新的实例级校准特征图融合，即可获得动量级实例校准特征图，用动量级实例校准特征图代替下一关键帧的实例校准特征图。本发明专利技术利用两个相邻的实例级特征图产生动量级实例校准特征图，通过这种类似于速度相对于加速度的偏移量，结合实例级特征图产生动量级实例校准特征图，以已知信息来预测未知信息的位置信息，从而提高检测精确率。从而提高检测精确率。从而提高检测精确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时域关系的动量视频目标检测方法

[0001]本专利技术涉及计算机视觉中的深度学习部分，特别是涉及目标检测中的视频目标检测方面，一种基于时域关系的动量视频目标检测方法。

技术介绍

[0002]随着物联网以及多媒体技术的发展、计算机性能的显著提高，使得深度学习和云计算成为可能。在监控领域一个1080P高清摄像头的码流率为8Mb/s，一天可捕获约86.4GB视频数量。据《2017
‑
2022年全球视频分析，VCA，ISR和智能视频监控市场报告》，视频监控和分析2015
‑
2022年市场复合增长率18.2％，将会形成167个子市场，视频监控、智能交通系统、安全城市、无人驾驶自动驾驶汽车、无人机、警用摄像头、智能零售视频系统和社交媒体视频流只是用户为提高其性能而使用的部分视频。
[0003]目标检测的目的是对图片或视频中多个感兴趣的目标进行检测和分类。其按检测对象可以分为图像目标检测和视频目标检测。当前，图像目标检测在深度学习的背景下，已经趋于成熟。但是，在无人驾驶、视频监控、人机交互等方面对视频目标检测有着广泛的需求。当前的视频目标检测算法，大多数是将视频中独有的时序信息和上下文信息以不同的形式加入到图像目标检测的框架中，从而对视频中包含的目标进行分类和检测。
[0004]相较于图像来说，视频的一个关键元素是时序信息，人们普遍认为图像内容在视频帧之间变化缓慢，尤其是在高级语义上。因此，视频中目标的位置和外观在时间上应该是一致的，即检测结果在边...

【技术保护点】

【技术特征摘要】
1.一种基于时域关系的动量视频目标检测方法，其特征在于，包括以下步骤：步骤(1)利用ImageNet VID数据集的视频帧之间存在的时序信息进行训练和验证；将所有视频切割为先后顺序帧并存储；步骤(2)利用图像数据读取方法每次从步骤(1)中的顺序帧中读取五个关键帧，作为输入；所述五个关键帧分别表示为第一张关键帧data_before_before，第二张关键帧data_before，第三张关键帧data，第四张关键帧data_after，第五张关键帧data_after_after，并分别给每个关键帧融合周围K张非关键帧图像特征图，K范围为1到25；第二张和第四张为参考关键帧；步骤(3)选择ResNet101深度残差网络作为特征提取主干网络，特征提取主干网络包含由100个卷积层和一个全连接层，通过恒等映射保持所述深度残差网络的最优性，使深度残差网络性能不会随着深度的影响降低；步骤(2)中得到的关键帧在经过ResNet101深度残差网络后，提取出基本特征，从而得到关键帧图像特征图；步骤(4)：将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络，通过光流网络获取相邻关键帧中的光流信息；步骤(5)：将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚合，得到加强后的像素级校准特征图；步骤(6)：利用步骤(5)得到的加强后的像素级校准特征图，通过候选区域生成网络RPN生成候选区域，候选区域通过softmax判断生成的锚框属于正向判断还是属于负向判断，再利用边界框回归)修正锚框,得到精确的候选区域；步骤(7)：将步骤(5)得到的加强后像素级校准特征图作为区域建议网络RPN的输入，获取到能更好抓取目标移动信息的实例级校准特征图，相对于获取具体目标的像素级校准，实例级校准精确抓取物体的刚性特征；同时为利用时域关系，将加强后图像特征图中的前三张关键帧获取的实例级校准特征图，即第一个实例级校准特征图和后三张关键帧获取的实例级校准特征图，即第二个实例级校准特征图在时域上融合获取动量偏移量，中间帧即第三张关键帧被使用两次；所述动量偏移量是仿照单位时间同一目标的速度变化量，求出两个实例级校准特征图中同一个目标的位移偏移量；步骤(8)：利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到最终动量级校准特征图，动量级校准特征图的本质和实例级校准特征图的实质是一样的，只是动量级校准特征图带有时域信息，用来代替下一个实例级校准特征图，提高检测精度；步骤(9)：将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征图进行融合，同时将步骤(6)中获取到的候选区域也带入到动量级校准特征图中，得到所有带有区域建议目标候选框的特征图；步骤(10)：采用区域二分类器对步骤(9)中得到的所有区域建议目标候选框进行投票分类，筛选出包含真实目标的候选框，以判断区域建议目标候选框与真实目标的候选框的交并比IOU是否超过阈值，根据IOU的值决定候选框是否为感兴趣区域RoI,如果超过阈值，则说明该感兴趣区域中包含检测目标，并保留真实目标的候选框，否则丢弃；步骤(11)：构建ImageNet VID数据集中包含的30个目标类的多分类器，对步骤(10)中得到的目标候选框进行分类，通过投票机制判断目标候选框属于ImageNet VID数据集中已知的30类标签中的哪一类，从而实现目标分类任务；
步骤(12)对步骤(10)中的区域建议目标候选框区域进行边界回归，使得生成的区域建议目标候选框与真实目标的候选框...

【专利技术属性】
技术研发人员：蔡强，康楠，李海生，韩龙飞，常浩东，万如一，
申请(专利权)人：北京工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人