A convolutional neural network model based on motion detection, which belongs to the field of computer vision research, by using the method of convolution neural network in deep learning to build an efficient motion detection model, to identify the action from the video and to detect the location of action. Action detection model by Faster RCNN, SVM classifier and action pipeline. Each part of the motion detection model completes the corresponding work. Faster RCNN multiple region of interest for each frame of image acquisition, and extract the characteristics of each region of interest. The detection model of feature extraction using double channel model, namely Faster RCNN channel frame map based on RCNN and Faster based channel optical flow diagram, they were extracted from the apparent characteristics and motion characteristics. Then, the two features are fused to form temporal and spatial features, and the spatio-temporal features are input into the SVM classifier. The SVM classification is used to give the prediction of the action category of the corresponding region. Finally, from the video angle, the final detection result is given by the action pipeline.
【技术实现步骤摘要】
一种基于卷积神经网络的动作检测模型
本专利技术属于计算机视觉研究领域,通过运用深度学习中卷积神经网络的方法构建一个高效的动作检测模型,实现从视频中识别动作并进一步对动作进行检测定位。
技术介绍
计算机视觉领域的视频识别分为动作分类和动作检测。动作分类要解决的问题类似“这段视频中有‘跑步’这样的动作或者行为么”;动作检测所解决的问题类似“这段视频中有‘跑步’这样动作或行为么,如果有,那么该动作出现在哪一段帧序列集以及该动作都在每帧的什么位置”。近些年,受益于图像识别所取得的巨大进展,视频识别也同样取得了很大的进展。其中大多数动作识别方法都是针对动作分类任务而被提出,事实上这些方法也同样可以用于动作检测任务。J.Aggarwal、M.Ryoo、R.Poppe等人对近些年动作识别领域的方法和进展进行了很好的总结和梳理。许多传统的动作分类方法提取的特征多是采用手工特征提取法,例如使用HOG、SIFT等提取静态的外观特征,使用光流(opticalflow)、MBH等提取动态的运动特征,再使用词袋(BagofWords)、Fisher向量等方法对这些特征编码。动作分类则使用像SVM支持向量机、决策森林(decisionforests)等方法。近几年,许多动作识别方法采用深度学习模型并取得很大的进展。受视觉层背侧通路理论的启发,Jhuang等人构建了一个由多层级的时空特征检测器组成的前馈网络,此网络中包含预设计好的分别用来提取表观和运动特征的过滤器。最近,Ji等人构建了3DCNNs,其卷积操作实施在三维的时空域,因此该网络在提取特征时能够获取更多的动作信息。动作检测在实 ...
【技术保护点】
一种基于卷积神经网络的动作检测模型,其特征在于:本方法提出的动作检测模型由三个部分组成,即更高效的基于区域的卷积神经网络Faster RCNN、SVM分类器和动作管道ActionTubes;动作检测模型的每个部分分别完成相应工作,最终实现对一段或多段视频中所包含动作行为的检测任务;Faster RCNN对每帧图片获取多个兴趣区域,并对每个兴趣区域提取特征;本检测模型提取特征采用双通道模型,即基于帧图的Faster RCNN通道和基于光流图的Faster RCNN通道,他们分别提取表观特征和动作特征;然后将表观特征和动作特征联合形成时空域特征,把时空域特征输入到SVM分类器中,经SVM分类给出相应区域的动作类别预测值;本模型中的SVM分类器是由多个二分器组成,每个动作类别有一个二分器;该阶段的SVM分类器从帧层面做出的动作预测,此预测将作为第三部分预测视频所属动作类别的凭据;第三部分即动作管道部分在视频层面给出最终的动作检测结果;该阶段从视频时序角度出发,基于相邻的帧一般包含着相同动作且包含动作的区域重合度高的特点,将视频帧中综合得分高的区域链接起来,形成一个个竞选管道,最终将得分值最高 ...
【技术特征摘要】
1.一种基于卷积神经网络的动作检测模型,其特征在于:本方法提出的动作检测模型由三个部分组成,即更高效的基于区域的卷积神经网络FasterRCNN、SVM分类器和动作管道ActionTubes;动作检测模型的每个部分分别完成相应工作,最终实现对一段或多段视频中所包含动作行为的检测任务;FasterRCNN对每帧图片获取多个兴趣区域,并对每个兴趣区域提取特征;本检测模型提取特征采用双通道模型,即基于帧图的FasterRCNN通道和基于光流图的FasterRCNN通道,他们分别提取表观特征和动作特征;然后将表观特征和动作特征联合形成时空域特征,把时空域特征输入到SVM分类器中,经SVM分类给出相应区域的动作类别预测值;本模型中的SVM分类器是由多个二分器组成,每个动作类别有一个二分器;该阶段的SVM分类器从帧层面做出的动作预测,此预测将作为第三部分预测视频所属动作类别的凭据;第三部分即动作管道部分在视频层面给出最终的动作检测结果;该阶段从视频时序角度出发,基于相邻的帧一般包含着相同动作且包含动作的区域重合度高的特点,将视频帧中综合得分高的区域链接起来,形成一个个竞选管道,最终将得分值最高竞选管道作为最终的动作检测结果;第一部分:FasterRCNNFasterRCNN由两个深度神经网络组成,即RPN和FastRCNN,网络中包含多层的卷积层、下采样层和全连接层,这些层通过组合形成了一个深度神经网络,其中每种类型的层都可对输入到深度网络中图像进行特征的提取;RPN网络是一个全卷积网络,由多层卷积层构建,RPN网络最后输出值有两个,分别输出区域位置信息和对应区域包含及不包含目标的置信度;RPN和FastRCNN分别完成获取兴趣区域和提取区域特征的任务;本方法提取深度特征采用双通路模型,两个通路的FasterRCNN网络分别是基于原始帧图数据集和光流图数据集训练而成,因此两个通路的FasterRCNN网络都具备获取兴趣区域和提取兴趣区域特征的能力;然而本方法期望得到的兴趣区域包含的信息中,更多的是动作信息,所以选择使用基于光流图数据集训练的FasterRCNN网络的RPN来获取兴趣区域;此RPN基于光流信息生成兴趣区域,这些兴趣区域被双通路的Fas...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。