当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于区域候选框跟踪的视频目标定位方法技术

技术编号:18446374 阅读:72 留言:0更新日期:2018-07-14 10:58
一种基于区域候选框跟踪的视频目标定位方法,涉及视频智能监控。初始化;获取稠密光流;运动对象切割;分类及预测。通过对在视频中进行目标检测中共有的10类目标对象进行实验结果对比,比单用Faster R‑CNN不论是检测时长还是检测的准确率都得到了优化,从单类的检测结果来分析,80%的类别对象结果都得到了优化。

A video target location method based on region candidate box tracking

A video target location method based on region candidate box tracking involves video intelligent monitoring. Initialization; obtaining dense optical flow; moving object cutting; classification and prediction. By comparing the experimental results of 10 kinds of target objects in the video, compared with the single Faster R CNN, both the detection time and the detection accuracy are optimized. From the single class detection results, the 80% category object results are optimized.

【技术实现步骤摘要】
一种基于区域候选框跟踪的视频目标定位方法
本专利技术涉及视频智能监控,尤其是涉及一种基于区域候选框跟踪的视频目标定位方法。
技术介绍
过去几年,深度学习(DeepLearning,DL)技术在计算机视觉领域得到了广泛的应用,越来越多复杂任务得到了更好的解决方案,尤其是深度卷积神经网络(ConvolutionalNeuralNetwork,CNN)更是在图像分类,目标检测,语义分割等多个视觉任务中取得了巨大成功[1-6]。特别是在目标检测的效率和准确率上都有了显著的提升,这主要得益于先前卷积神经网络在图像分类上取得的巨大成功,比如AlexNet、GoogLeNet等[7,8],但视频的目标检测任然是个巨大的挑战。目前已有的针对视频目标检测的模型,还不能很好地在效率和准确率之间权衡,要么是模型复杂度过高导致检测效率太慢,无法满足实际场景的检测需求;要么是一味追求效率而出现了过多的漏检和误检的情况,也达不到实际场景的检测标准。所以视频的目标检测是计算机视觉领域的一个难题,但具有很大的实用价值和潜力,尤其是在智能视频监控的应用场景中。ImageNet是美国斯坦福的计算机科学家,模拟人类的识别系统建立的一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库[9]。其中一个关键任务就是在视频中进行目标检测(ObjectDetectionfromVideo,VID),这个任务为传统基于图像的目标检测和视频序列数据搭建了一个桥梁,不但要求模型能检测视频中的每一帧图像所包含的对象,还要标出目标所在的位置。当今主流的基于图像的目标检测技术多数是通过区域侯选款来进行分类和定位的,其中以Girshick等人提出的R-CNN(RegionswithCNNfeatures)网络为代表作[10],在此基础上HeK和Girshick等人又分别提出了SPPnet(SpatialPyramidPoolinginDeepConvolutionalNetworks)和FastR-CNN来解决网络模型不能以任意尺寸的图像作为输入的缺陷[11-12],之后又设计了用于生成区域侯选款的子网络(RegionProposalNetworks,RPN)替代之前的选择性搜索(SelectiveSearch)算法,最终合并形成了FasterR-CNN网络模型[13],这是当前最佳的目标检测模型之一,它在各个数据集上表现出上佳的性能。但若将FasterR-CNN直接应用于视频的目标检测上,依旧不能达到理想的检测效率。之后Redmon等人提出了YOLO模型[14],通过回归模型以整张图像作为输入,大大加速了视频的目标检测效率,虽然吸收先前基于R-CNN的各模型所忽略的全局信息,但是准确率却远不及FasterR-CNN。想要做到针对视频数据的实时检测,其算法需要高效地将视频中每一帧所包含目标都进行分类和定位。如今基于图像的目标检测显然已经成为视频的目标检测的基石,但即便是FasterR-CNN,也会由于连续帧中目标的外观形变或位置变化而出现漏检和误检的情况,所以直接将图像的目标检测算法应用于视频的目标检测并不能得到理想的效果。然而现有的方法要么是针对单类特殊目标的,如行人或车辆;要么是无法在效率和准确率之间做权衡,如YOLO仅有高效率而牺牲了准确率,而VideoTubelets仅有高准确率,但模型的复杂度过高[15],效率无法满足实际需求。视频智能监控需要将图像的目标检测和视频的视频序列的相关性相结合,在FasterR-CNN的基础上,融合视频中邻帧之间的光流信息[16],构建了一种基于区域候选框跟踪的视频目标定位方法。该方法主要源于图像的目标检测着重于图像上的外观信息,而视频序列数据所能提供的不仅是静态图像的特征,还有多个连续帧在时空维度上的信息。所以为了吸收所包含的时空信息,该方法会基于上一帧图像的预测结果都会通过光流微调产生下一帧图像的区域候选框,同时捕获到视频中的运动目标,这样既提高了产生区域候选框的效率,而且大大减少了数量,还能改善目标检测的准确率。参考文献:[1]LongJ,ShelhamerE,DarrellT.Fullyconvolutionalnetworksforsemanticsegmentation[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015:3431-3440.[2]KrizhevskyA,SutskeverI,HintonGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//Advancesinneuralinformationprocessingsystems.2012:1097-1105.[3]NamH,HanB.Learningmulti-domainconvolutionalneuralnetworksforvisualtracking[J].arXivpreprintarXiv:1510.07945,2015.[4]WangL,OuyangW,WangX,etal.Visualtrackingwithfullyconvolutionalnetworks[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.2015:3119-3127.[5]ValipourS,SiamM,JagersandM,etal.RecurrentFullyConvolutionalNetworksforVideoSegmentation[J].arXivpreprintarXiv:1606.00487,2016.[6]XuK,BaJ,KirosR,etal.Show,attendandtell:Neuralimagecaptiongenerationwithvisualattention[J].arXivpreprintarXiv:1502.03044,2015,2(3):5.[7]HeK,ZhangX,RenS,etal.Deepresiduallearningforimagerecognition[J].arXivpreprintarXiv:1512.03385,2015.[8]SzegedyC,LiuW,JiaY,etal.Goingdeeperwithconvolutions[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015:1-9.[9]DengJ,DongW,SocherR,etal.Imagenet:Alarge-scalehierarchicalimagedatabase[C]//ComputerVisionandPatternRecognition,2009.CVPR2009.IEEEConferenceon.IEEE,2009:248-255.[10]GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarc本文档来自技高网...

【技术保护点】
1.一种基于区域候选框跟踪的视频目标定位方法,其特征在于包括以下步骤:1)初始化;2)获取稠密光流;3)运动对象切割;4)分类及预测。

【技术特征摘要】
1.一种基于区域候选框跟踪的视频目标定位方法,其特征在于包括以下步骤:1)初始化;2)获取稠密光流;3)运动对象切割;4)分类及预测。2.如权利要求1所述一种基于区域候选框跟踪的视频目标定位方法,其特征在于在步骤1)中,所述初始化的具体方法为:首先对视频序列数据进行分帧,连续获取所有的帧图像,将第一帧图像作为初始帧,数据流流过FasterR-CNN网络,得到初始帧的检测结果,再根据已有的区域候选框数量和通过稠密光流所捕获的运动目标数量总和是否超过10个判定下一帧图像数据是否需要流过区域候选框跟踪模块。3.如权利要求1所述一种基于区域候选框跟踪的视频目标定位方法,其特征在于在步骤2)中,所述获取稠密光流的具体方法为:除第一帧以外的每一帧都计算与前一帧图像之间的稠密光流,根据光流信息估计目标的运动情况;在CPU模式下,稀疏光流的计算量远小于稠密光流的计算量,利用GPU加速稠密光流的计算,通过OpenCV获取到的帧图像分辨率,将图像长宽各减半,然后送入GPU计算稠密光流。4.如权利要...

【专利技术属性】
技术研发人员:张仲楠谢凌伟朱展图郑小平
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1