The invention belongs to the field of computer vision and video action recognition, and discloses a method for human behavior recognition 3D convolutional network based on the method, firstly a video is divided into a series of video clips; then, the video clip is a continuous input by convolution calculation of 3D neural network layer and temporal Pyramid pool layer composition of video features continuous video features; and then through the length calculation of the global memory model as a behavior model. The technology of the invention has the obvious advantages, through 3 dimensional convolution network C3D to improve the standard, introduce multi-stage pool to the arbitrary resolution and the length of the video clip for feature extraction; at the same time improve the model of behavior change to robustness, to increase the size of training data while maintaining the video quality of video case; association to improve the integrity of the information embedding behavior information through various motion state.
【技术实现步骤摘要】
一种基于3D深度卷积网络的人类行为识别的方法
本专利技术属于计算机视觉视频识别领域,尤其涉及一种基于3D深度卷积网络的人类行为识别的方法。
技术介绍
在计算机视觉领域中,对行为识别的研究历经了10年以上。特征工程作为模式识别重要组成部分,一直在行为识别的领域中占主导地位。在深度学习之前,法国计算机视觉机构Inria的科学家EvanLaptev和CordeliaSchmid在行为特征学习方面的贡献最为突出。类似于ILSVRC图像识别挑战赛,基于行为识别的挑战赛THUMOS每年都在不断刷新识别记录。而来自Inria推出的行为特征计算方法一直都名列前茅。尤其在2013年,Inria的WangHeng博士提出的基于轨迹的行为特征计算方法,通过记录像素点的运动轨迹构成行为的局部特征。是目前最有效的局部特征方法。即使在当前深度学习流行的时代,该特征计算方法达到的识别性能都难以重大突破。然而,传统的特征工程方法以一种信息的量化为主,存在着信息量单一,领域知识需求性强,特征维度高等挑战,阻碍了识别性能的提升和向产业界的推广。高效地提取行为特征成为了行为识别领域的重要课题。自201 ...
【技术保护点】
一种基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述基于3D深度卷积网络的人类行为识别的方法首先将一个视频划分为一系列连续的视频片段;然后,将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征;然后通过长短记忆模型计算全局的视频特征作为行为模式。
【技术特征摘要】
1.一种基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述基于3D深度卷积网络的人类行为识别的方法首先将一个视频划分为一系列连续的视频片段;然后,将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征;然后通过长短记忆模型计算全局的视频特征作为行为模式。2.如权利要求1所述的基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述基于3D深度卷积网络的人类行为识别的方法具体包括:改进标准的3维卷积网络C3D,引入多级池化的方法,将任意大小的卷积特征图谱映射成固定维度的特征向量;通过递归网络或者1维卷积网络对各个运动子状态进行关联性信息嵌入,并生成行为特征,用于行为分类;根据不同模态特征,并采用多模态的学习方法进行多模态特征融合,得到需要的行为特征。3.如权利要求2所述的基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述改进了标准的3维卷积网络C3D,通过引入多级池化的方法,能够将任意大小的卷积特征图谱映射成固定维度的特征向量,具体包括:基于基本的3维卷积网络设计深度神经网络;深度网络包括用于提取视频片段的特征和将片段特征合成代表为行为的表征,并进行识别;进行基于空域和时域的金字塔池化:在最后一层卷积层之后添加空域与时域的金字塔池化层,通过空域和时域的金字塔池化层将具有不同维度的特征图谱映射成固定维度的特征向量。4.如权利要求2所述的基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述通过递归网络或者1维卷积网络对各个运动子状态进行关联性信息嵌入,并生成行为特征,用于行为分类;具体包括:行为完整性建模:在不同大小的输入视频片段的场景下,提取相应特征;将视频片段进行类比,并引入递归神经网络的变体长短期记忆模型LSTM和1维卷积嵌入CNN-E两种关联性学习。5.如权利要求4所述的基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述变体长短期记忆模型LSTM为网络对序列数据{X1,...,Xt...,XN}的计算方式;通过LSTM的门机制,子动作状态Xt通过式LSTM网络转换为具有前后情景信息的状态ht;具体包括:LSTM网络根据当前的运动状态和上一情景状态ht-1,通过logist回归得到输入门,遗忘门和输出门的控制信号;然后通过门信号计算新的情景状态ht;得到新的序列状态特征{h1,...,ht...,...
【专利技术属性】
技术研发人员:高联丽,宋井宽,王轩瀚,邵杰,申洪宇,
申请(专利权)人:成都考拉悠然科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。