一种基于卷积神经网络的动作检测模型制造技术

技术编号:15330420 阅读:508 留言:0更新日期:2017-05-16 13:53
一种基于卷积神经网络的动作检测模型,属于计算机视觉研究领域,通过运用深度学习中卷积神经网络的方法构建一个高效的动作检测模型,实现从视频中识别动作并对动作进行检测定位。动作检测模型由Faster RCNN、SVM分类器和动作管道组成。动作检测模型的每个部分分别完成相应工作。Faster RCNN对每帧图片获取多个兴趣区域,并对每个兴趣区域提取特征。本检测模型提取特征采用双通道模型,即基于帧图的Faster RCNN通道和基于光流图的Faster RCNN通道,他们分别提取表观特征和动作特征。然后将这两种特征融合形成时空域特征,把时空域特征输入到SVM分类器中,经SVM分类给出相应区域的动作类别预测值。最后由动作管道从视频角度出发给出最终的动作检测结果。

An action detection model based on convolutional neural network

A convolutional neural network model based on motion detection, which belongs to the field of computer vision research, by using the method of convolution neural network in deep learning to build an efficient motion detection model, to identify the action from the video and to detect the location of action. Action detection model by Faster RCNN, SVM classifier and action pipeline. Each part of the motion detection model completes the corresponding work. Faster RCNN multiple region of interest for each frame of image acquisition, and extract the characteristics of each region of interest. The detection model of feature extraction using double channel model, namely Faster RCNN channel frame map based on RCNN and Faster based channel optical flow diagram, they were extracted from the apparent characteristics and motion characteristics. Then, the two features are fused to form temporal and spatial features, and the spatio-temporal features are input into the SVM classifier. The SVM classification is used to give the prediction of the action category of the corresponding region. Finally, from the video angle, the final detection result is given by the action pipeline.

【技术实现步骤摘要】
一种基于卷积神经网络的动作检测模型
本专利技术属于计算机视觉研究领域,通过运用深度学习中卷积神经网络的方法构建一个高效的动作检测模型,实现从视频中识别动作并进一步对动作进行检测定位。
技术介绍
计算机视觉领域的视频识别分为动作分类和动作检测。动作分类要解决的问题类似“这段视频中有‘跑步’这样的动作或者行为么”;动作检测所解决的问题类似“这段视频中有‘跑步’这样动作或行为么,如果有,那么该动作出现在哪一段帧序列集以及该动作都在每帧的什么位置”。近些年,受益于图像识别所取得的巨大进展,视频识别也同样取得了很大的进展。其中大多数动作识别方法都是针对动作分类任务而被提出,事实上这些方法也同样可以用于动作检测任务。J.Aggarwal、M.Ryoo、R.Poppe等人对近些年动作识别领域的方法和进展进行了很好的总结和梳理。许多传统的动作分类方法提取的特征多是采用手工特征提取法,例如使用HOG、SIFT等提取静态的外观特征,使用光流(opticalflow)、MBH等提取动态的运动特征,再使用词袋(BagofWords)、Fisher向量等方法对这些特征编码。动作分类则使用像SVM支持向量机、决策森林(decisionforests)等方法。近几年,许多动作识别方法采用深度学习模型并取得很大的进展。受视觉层背侧通路理论的启发,Jhuang等人构建了一个由多层级的时空特征检测器组成的前馈网络,此网络中包含预设计好的分别用来提取表观和运动特征的过滤器。最近,Ji等人构建了3DCNNs,其卷积操作实施在三维的时空域,因此该网络在提取特征时能够获取更多的动作信息。动作检测在实现动作分类的基础上还要对动作进行定位。过去许多动作检测方法采用滑动窗口法(slidingwindow),然而基于滑动窗口法的动作定位极为耗时,时间效率低,为了加快动作的定位,Oneatra等人提出了一种逼近规范化的FisherVector策略,此策略使用一个比滑动窗口更有效的方法,即branch-and-bound搜寻算法。另一类动作定位的方法是基于“以人为中心”的模型。Lan等人通过使用“以人为中心”的视觉方法——学习得到一个时空动作模型,其中特征表示中的目标位置被视为潜变量(latentvariable)并根据潜变量推断与某个动作标签高度关联性。最近,有一种基于区域的卷积神经网络的方法被用于动作检测任务中,取得了更好的动作检测效果。该方法最先由Girshick等人在做目标检测任务时提出的,其思想是先用选择搜索(SelectiveSearch)、Edgeboxes等工具在每张图片上生成多个兴趣区域,然后将兴趣区域输入卷积神经网络并提取特征,最后将该特征用于分类。之后相继出现了效率更好的目标检测方法FastRCNN、FasterRCNN。Gkioxari等人将基于区域的目标检测思想移植到动作检测任务中,他们采用双通路网络分别对兴趣区域和对应光流图提取特征,再用SVM分类器进行分类,最后将分类过后的兴趣区域在时间维度上进行链接形成最优的管道并给出动作类别预测。
技术实现思路
本专利技术提出的动作检测模型由三个部分组成,即FasterRCNN(更高效的基于区域的卷积神经网络)、SVM分类器和动作管道(ActionTubes),动作检测模型的整体结构如图1所示。动作检测模型的每个部分分别完成相应工作,最终实现对一段或多段视频中所包含动作行为的检测任务。FasterRCNN对每帧图片获取多个兴趣区域,并对每个兴趣区域提取特征。本检测模型提取特征采用双通道模型,即基于帧图的FasterRCNN通道和基于光流图的FasterRCNN通道,他们分别提取表观特征和动作特征。然后将表观特征和动作特征联合形成时空域特征,把时空域特征输入到SVM分类器中,经SVM分类给出相应区域的动作类别预测值。本模型中的SVM分类器是由多个二分器组成,每个动作类别有一个二分器。该阶段的SVM分类器从帧层面做出的动作预测,此预测将作为第三部分预测视频所属动作类别的凭据。第三部分即动作管道部分在视频层面给出最终的动作检测结果。该阶段从视频时序角度出发,基于相邻的帧一般包含着相同动作且包含动作的区域重合度高的特点,将视频帧中综合得分高的区域链接起来,形成一个个竞选管道,最终将得分值最高竞选管道作为最终的动作检测结果。第一部分:FasterRCNNFasterRCNN由两个深度神经网络组成,即RPN(RegionProposalNetwork)和FastRCNN(高效的基于区域的卷积神经网络),FasterRCNN的整体结构如图2所示,网络中包含多层的卷积层、下采样层和全连接层,这些层通过组合形成了一个深度神经网络,其中每种类型的层都可对输入到深度网络中图像进行特征的提取。RPN网络如图3所示,该网络是一个全卷积网络,由多层卷积层构建,RPN网络最后输出值有两个,分别输出区域位置信息和对应区域包含及不包含目标的置信度。RPN和FastRCNN分别完成获取兴趣区域和提取区域特征的任务。本方法提取深度特征采用双通路模型,两个通路的FasterRCNN网络分别是基于原始帧图数据集和光流图数据集训练而成,因此两个通路的FasterRCNN网络都具备获取兴趣区域和提取兴趣区域特征的能力。然而本方法期望得到的兴趣区域包含的信息中,更多的是动作信息,所以选择使用基于光流图数据集训练的FasterRCNN网络的RPN来获取兴趣区域。此RPN基于光流信息生成兴趣区域,这些兴趣区域被双通路的FasterRCNN共享,分别作为这两个网络的后继网络FastRCNN的输入,最终输出对应的动作特征和表观特征。第二部分:SVM分类器FasterRCNN深度网络实现对帧图的兴趣区域的获取和对兴趣区域特征的提取,SVM分类器基于深度特征对区域所属的动作类别进行预测,给出每个区域属于每个动作类别的置信度大小,这个置信度大小将作为第三阶段链接最终动作管道的依据。SVM分类器的训练过程如下。训练SVM分类器是基于从深度卷积神经网络获取的深度特征的联合特征,即时空域特征。任给一个区域R,分别假定φs(R)和φm(R)是由基于原帧图区域的FasterRCNN网络和基于光流图区域的FasterRCNN网络的第7层全连接层输出的特征向量,分别是4096维,联合这两个特征向量,得到时空域特征向量φ(R)=[φs(R)Tφm(R)T]T,其中“T”代表转置操作,时空域特征向量φ(R)维度为8192。然后对每个动作类别α∈A,A代表动作类别集,分别训练对应动作类别的SVM分类器Wα。第三部分:动作管道本动作检测模型的第二阶段只是从帧层面给出相关区域的动作类别预测,还没有考虑视频的时序性,需要从整段视频角度出发给出动作类别的预测。这里将对第三阶段如何从帧层面到视频层面做出最终的动作检测进行介绍。本方法中把组成视频的帧序列中包含某个动作类别的竞选区域按时间序列链接的集合叫做动作管道,动作管道就是最终的动作检测结果。假定分别从视频中在时刻t、t+1的相邻两帧获取了两个区域,记为Rt和Rt+1,对于某个动作类别α∈A,定义链接这两个区域的得分公式为:这里表示动作类别α对应的分类器函数,δ(Rt+Rt+1)表示两个区域的交集;λ是常量,该常量是调整两区域本文档来自技高网
...
一种基于卷积神经网络的动作检测模型

【技术保护点】
一种基于卷积神经网络的动作检测模型,其特征在于:本方法提出的动作检测模型由三个部分组成,即更高效的基于区域的卷积神经网络Faster RCNN、SVM分类器和动作管道ActionTubes;动作检测模型的每个部分分别完成相应工作,最终实现对一段或多段视频中所包含动作行为的检测任务;Faster RCNN对每帧图片获取多个兴趣区域,并对每个兴趣区域提取特征;本检测模型提取特征采用双通道模型,即基于帧图的Faster RCNN通道和基于光流图的Faster RCNN通道,他们分别提取表观特征和动作特征;然后将表观特征和动作特征联合形成时空域特征,把时空域特征输入到SVM分类器中,经SVM分类给出相应区域的动作类别预测值;本模型中的SVM分类器是由多个二分器组成,每个动作类别有一个二分器;该阶段的SVM分类器从帧层面做出的动作预测,此预测将作为第三部分预测视频所属动作类别的凭据;第三部分即动作管道部分在视频层面给出最终的动作检测结果;该阶段从视频时序角度出发,基于相邻的帧一般包含着相同动作且包含动作的区域重合度高的特点,将视频帧中综合得分高的区域链接起来,形成一个个竞选管道,最终将得分值最高竞选管道作为最终的动作检测结果;第一部分:Faster RCNNFaster RCNN由两个深度神经网络组成,即RPN和Fast RCNN,网络中包含多层的卷积层、下采样层和全连接层,这些层通过组合形成了一个深度神经网络,其中每种类型的层都可对输入到深度网络中图像进行特征的提取;RPN网络是一个全卷积网络,由多层卷积层构建,RPN网络最后输出值有两个,分别输出区域位置信息和对应区域包含及不包含目标的置信度;RPN和Fast RCNN分别完成获取兴趣区域和提取区域特征的任务;本方法提取深度特征采用双通路模型,两个通路的Faster RCNN网络分别是基于原始帧图数据集和光流图数据集训练而成,因此两个通路的Faster RCNN网络都具备获取兴趣区域和提取兴趣区域特征的能力;然而本方法期望得到的兴趣区域包含的信息中,更多的是动作信息,所以选择使用基于光流图数据集训练的Faster RCNN网络的RPN来获取兴趣区域;此RPN基于光流信息生成兴趣区域,这些兴趣区域被双通路的Faster RCNN共享,分别作为这两个网络的后继网络Fast RCNN的输入,最终输出对应的动作特征和表观特征;第二部分:SVM分类器Faster RCNN深度网络实现对帧图的兴趣区域的获取和对兴趣区域特征的提取,SVM分类器基于深度特征对区域所属的动作类别进行预测,给出每个区域属于每个动作类别的置信度大小,这个置信度大小将作为第三阶段链接最终动作管道的依据;SVM分类器的训练过程如下;训练SVM分类器是基于从深度卷积神经网络获取的深度特征的联合特征,即时空域特征;任给一个区域R,分别假定φ...

【技术特征摘要】
1.一种基于卷积神经网络的动作检测模型,其特征在于:本方法提出的动作检测模型由三个部分组成,即更高效的基于区域的卷积神经网络FasterRCNN、SVM分类器和动作管道ActionTubes;动作检测模型的每个部分分别完成相应工作,最终实现对一段或多段视频中所包含动作行为的检测任务;FasterRCNN对每帧图片获取多个兴趣区域,并对每个兴趣区域提取特征;本检测模型提取特征采用双通道模型,即基于帧图的FasterRCNN通道和基于光流图的FasterRCNN通道,他们分别提取表观特征和动作特征;然后将表观特征和动作特征联合形成时空域特征,把时空域特征输入到SVM分类器中,经SVM分类给出相应区域的动作类别预测值;本模型中的SVM分类器是由多个二分器组成,每个动作类别有一个二分器;该阶段的SVM分类器从帧层面做出的动作预测,此预测将作为第三部分预测视频所属动作类别的凭据;第三部分即动作管道部分在视频层面给出最终的动作检测结果;该阶段从视频时序角度出发,基于相邻的帧一般包含着相同动作且包含动作的区域重合度高的特点,将视频帧中综合得分高的区域链接起来,形成一个个竞选管道,最终将得分值最高竞选管道作为最终的动作检测结果;第一部分:FasterRCNNFasterRCNN由两个深度神经网络组成,即RPN和FastRCNN,网络中包含多层的卷积层、下采样层和全连接层,这些层通过组合形成了一个深度神经网络,其中每种类型的层都可对输入到深度网络中图像进行特征的提取;RPN网络是一个全卷积网络,由多层卷积层构建,RPN网络最后输出值有两个,分别输出区域位置信息和对应区域包含及不包含目标的置信度;RPN和FastRCNN分别完成获取兴趣区域和提取区域特征的任务;本方法提取深度特征采用双通路模型,两个通路的FasterRCNN网络分别是基于原始帧图数据集和光流图数据集训练而成,因此两个通路的FasterRCNN网络都具备获取兴趣区域和提取兴趣区域特征的能力;然而本方法期望得到的兴趣区域包含的信息中,更多的是动作信息,所以选择使用基于光流图数据集训练的FasterRCNN网络的RPN来获取兴趣区域;此RPN基于光流信息生成兴趣区域,这些兴趣区域被双通路的Fas...

【专利技术属性】
技术研发人员:刘波贾川川
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1