当前位置: 首页 > 专利查询>东北大学专利>正文

基于监控视频的多区域实时动作检测方法技术

技术编号:19343553 阅读:49 留言:0更新日期:2018-11-07 14:24
本发明专利技术公开了一种基于监控视频的多区域实时动作检测方法,具有如下步骤:模型训练阶段和测试阶段,其中,模型训练阶段为获取训练数据:标注好的特定动作的数据库;计算训练数据中的视频序列的稠密光流,获取训练数据中的视频序列的光流序列,并对光流序列中的光流图像进行标注;利用训练数据中的视频序列和光流序列分别训练目标检测模型yolo v3,分别得到RGB yolo v3模型和光流yolo v3模型。本发明专利技术不仅能实现对监控视频中特定动作的时空位置检测,并且能实现对监控的实时处理。

Multi area real-time action detection method based on surveillance video

The invention discloses a multi-area real-time action detection method based on surveillance video, which has the following steps: model training stage and test stage, in which the model training stage is to obtain training data: a database of specified actions marked; calculating dense optical flow of video sequence in training data, and obtaining training number. According to the optical flow sequence of the video sequence, the optical flow image in the optical flow sequence is labeled; the target detection model Yolo V3 is trained by using the video sequence and optical flow sequence in the training data, and the RGB Yolo V3 model and the optical flow Yolo V3 model are obtained respectively. The invention can not only realize space-time position detection of specific actions in surveillance video, but also realize real-time processing of surveillance.

【技术实现步骤摘要】
基于监控视频的多区域实时动作检测方法
本专利技术属于计算机视觉领域,具体涉及监控视频场景下的人体动作检测系统。
技术介绍
随着监控设施的应用越来越普及,越多的基于监控的技术得到应用,动作识别作为其中很有价值的技术之一,主要应用于室内、工厂环境下人机设备的交互,以及公共环境安全领域用于特定危险动作的检测与识别。大部分基于监控视频中的动作识别方法主要集中于整个场景的动作识别与分类任务上,这类视频一般是人工处理好的视频片段,视频片段中一般只包含一类动作,但是这种视频和自然的视频片段相差很大,还用一部分学者把研究任务放在检测动作在整个时间轴上发生的开始于接受的位置,但是在现实应用中获取视频中的动作的开始和结束以及动作在空间发生的范围都是很有用的,另外虽然现有的动作检测方法在现有的数据库以及竞赛中取得了很好的检测效果,但是这些方法一般都是通过把整个视频划分为很多的小块或者对整个视频进行处理,然后再输出这段视频中动作的时空位置,而要达到实时动作检测就要实现视频帧级别的处理,所以这类方法没有办法部署到监控系统中。随着监控设备的普及,监控视频中人体动作的检测逐渐成为一个流行的研究领域,WangL.,QiaoY.,TangX.的”Actionrecognitionwithtrajectory-pooleddeepconvolutionaldescriptors.”(在2015IEEEConferenceonComputerVisionandPatternRecognition(CVPR)(2015)。)方法中通过整合深度神经网络提取视频特征和利用密集跟踪算法的到的特征。来实现对整个视频的动作识别,D.Tran,L.Bourdev,R.Fergus,L.Torresani,andM.Paluri.的”Learningspatiotemporalfeatureswith3dconvolutionalnetworks.”(在2015IEEEInternationalConferenceonComputerVision(ICCV)(2015))方法提出用3D卷积和3Dpooling来形成C3D框架来提取视频中的人体动作特征,SimonyanK,ZissermanA.的”Two-StreamConvolutionalNetworksforActionRecognitioninVideos”(在ComputationalLinguistics,2014)中通过把RGB图像序列提取光流序列,分别用卷积神经网络训练并把两个网络得到的特征进行融合来实现对动作的识别效果。虽然上面的这些模型取得了很好的效果,但是这种方法只能实现对整个视频进行识别,不能定位动作的时空位置。G.GkioxariandJ.Malik.的“Findingactiontubes”(在IEEEInt.Conf.onComputerVisionandPatternRecognition,2015.)中主要是检测每一帧的动作proposals然后再连接每一帧的动作proposal形成动作序列,J.Lu,r.Xu,andJ.J.Corso的”Humanactionsegmentationwithhierarchicalsupervoxelconsistency”(在IEEEInt.Conf.onComputerVisionandPatternRecognition,June2015)中提出了一种层次化的MRF模型,以将具有高层次人体运动和表观的低级视频片段连接起来以实现在视频中对动作的分割,这些方法主要实现了对视频中的动作进行空间的分割,并且这些算法需要大量的帧级别的regionproposals需要大量的计算。YuanJ,NiB,YangX的“TemporalActionLocalizationwithPyramidofScoreDistributionFeatures”(在IEEE:ComputerVisionandPatternRecognition.2016)中基于iDT特征对视频提取了一种分数分布金字塔特征(PyramidofScoreDistributionFeature,PSDF),之后再使用了LSTM网络对PSDF特征序列进行处理,并根据输出的frame-level的行为类别置信度分数处理得到行为片段的预测。ShouZ,WangD,ChangSF.的”TemporalActionLocalizationinUntrimmedVideosviaMulti-stageCNNs”(在IEEEConferenceonComputerVisionandPatternRecognition(CVPR)(2016))中首先使用滑窗的方法生成多种尺寸的视频片段(segment),再使用多阶段的网络(Segment-CNN)来处理,最后采用了非极大化抑制来去除重叠的片段,完成预测。ShouZ,ChanJ,ZareianA,的”CDC:Convolutional-De-ConvolutionalNetworksforPreciseTemporalActionLocalizationinUntrimmedVideos”(在2017IEEEConferenceonComputerVisionandPatternRecognition(CVPR)(2017))中基于C3D(3DCNN网络)设计了一个卷积逆卷积网络(CDC),输入一小段视频,输出帧级别的动作类别概率。该网络主要是用来对temporalactiondetection中的动作边界进行微调,使得动作边界更加准确,上面的框架虽然能达到实时的效果但是,上面的算法主要是实现动作在时间维度精确地检测,而不能实现动作的时空检测。J.C.vanGemert,M.Jain,E.Gati,andC.G.Snoek.的”APT:Actionlocalizationproposalsfromdensetrajectories”(在BMVC,volume2,page4,2015)中使用无监督聚类来生成一组边界框式的时空动作提议。由于该方法基于密集轨迹特征,因此该方法无法检测以小运动为特征的动作。P.Weinzaepfel,Z.Harchaoui,andC.Schmid.的”Learningtotrackforspatio-temporalactionlocalization”(IEEEComputerVisionandPatternRecognition,2015.)通过将帧级EdgeBoxes区域提议与跟踪检测框架相结合来执行动作的时空检测。然而,动作的时间维度的检测仍然通过每个轨道上的多尺度滑动窗口来实现,使得对于较长的视频序列该方法效率低下。
技术实现思路
本专利技术针对现有的动作检测存在的一些问题,提出一种基于监控视频的多区域实时动作检测方法。本专利技术采用的技术手段如下:一种基于监控视频的多区域实时动作检测方法,其特征在于具有如下步骤:模型训练阶段:A1、获取训练数据:标注好的特定动作的数据库;A2、计算训练数据中的视频序列的稠密光流,获取训练数据中的视频序列的光流序列,并对光流序列中的光流图像进行标注;A3、利用训练数据中的视频序列和光本文档来自技高网
...

【技术保护点】
1.一种基于监控视频的多区域实时动作检测方法,其特征在于具有如下步骤:模型训练阶段:A1、获取训练数据:标注好的特定动作的数据库;A2、计算训练数据中的视频序列的稠密光流,获取训练数据中的视频序列的光流序列,并对光流序列中的光流图像进行标注;A3、利用训练数据中的视频序列和光流序列分别训练目标检测模型yolo v3,分别得到RGB yolo v3模型和光流yolo v3模型;测试阶段:B1、通过金字塔Lucas‑Kanande光流法提取视频的稀疏光流图像序列,然后把视频的RGB图像序列和稀疏光流图像序列分别送入RGB yolo v3模型和光流yolo v3模型中,RGB yolo v3模型输出的一系列检测框使用非极大值抑制方法提取所有动作类别的前n个检测框

【技术特征摘要】
1.一种基于监控视频的多区域实时动作检测方法,其特征在于具有如下步骤:模型训练阶段:A1、获取训练数据:标注好的特定动作的数据库;A2、计算训练数据中的视频序列的稠密光流,获取训练数据中的视频序列的光流序列,并对光流序列中的光流图像进行标注;A3、利用训练数据中的视频序列和光流序列分别训练目标检测模型yolov3,分别得到RGByolov3模型和光流yolov3模型;测试阶段:B1、通过金字塔Lucas-Kanande光流法提取视频的稀疏光流图像序列,然后把视频的RGB图像序列和稀疏光流图像序列分别送入RGByolov3模型和光流yolov3模型中,RGByolov3模型输出的一系列检测框使用非极大值抑制方法提取所有动作类别的前n个检测框每个检测框有一个动作类别的标签和属于该动作的一个概率分数光流yolov3模型输出的一系列检测框使用非极大值抑制方法提取所有动作类别的前n个检测框每个检测框有一个动作类别的标签和属于该动作的一个概率分数分别遍历RGByolov3模型和光流yolov3模型输出的检测框,每个RGByolov3模型输出的检测框与光流yolov3模型输出的相同动作类别的检测框做交并比,并把最大的交并比对应的光流yolov3模型输出的同动作类别的检测框设为若最大的交并比大于阈值K,则把对应的两个RGByolov3模型和光流yolov3模型输出的检测框的概率分数融合为作为该RGByolov3模型输出的检测框的置信度,满足以下公式:其中,表示和的交并比,为与交并比最大的同动作类别的概率分数;B2、根据融合得到的每个RGByolov3模型输出的检测框的每个动作类别的置信度分数,连接视频的RGB图像序列之间的检测框形成tube:对tube进行初始化,使用视频的RGB图像序列中的第一帧图像的检测框进行初始化tube;分别对所有的动作类别进行以下操作:S1、匹配每个tube和t帧产生的检测框,首先遍历属于同动作类别的tube,若该动作类别有n个tube,对每个tube求该tube每帧的置信度的平均值,作为该tube的值,并对该动作类别的n个tube的值进行降序排列形成列表list类别,确定每...

【专利技术属性】
技术研发人员:陈东岳任方博王森贾同
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1