基于多时空信息融合卷积神经网络的人体行为识别方法技术

技术编号:21362794 阅读:41 留言:0更新日期:2019-06-15 09:37
本发明专利技术提出了一种基于多时空信息融合卷积神经网络的人体行为识别方法,首先构建(2+1)D卷积神经网络,经训练后直到网络模型评估准确率达到稳定值后,使用网格模型进行视频人体行为识别。本发明专利技术中提出的(2+1)D卷积神经网络同时使用不同尺度空间感受野的空间卷积层进行空间信息提取,同时使用多个不同尺度时域感受野的时域卷积层进行时域信息提取,将提取的特征信息融合后作为下一层的输入,将包含n种尺度空间感受野的卷积核与包含m种尺度时域感受野的卷积核进行串联,设计了包含k种时空感受野的多时空融合卷积层,能够同时利用视频较长和较短时间范围内的特征信息建模,更准确地识别人体行为。

Human Behavior Recognition Based on Convolutional Neural Network of Multi-Spatial Information Fusion

A human behavior recognition method based on Multi-temporal information fusion convolution neural network is proposed in this paper. Firstly, a (2+1) D convolution neural network is constructed. After training, the human behavior is recognized by using grid model until the accuracy of network model evaluation reaches a stable value. The (2+1) D convolution neural network proposed in the present invention simultaneously uses spatial convolution layers of different scale spatial receptive fields to extract spatial information, and uses temporal convolution layers of multiple different scale temporal receptive fields to extract temporal information. The extracted feature information is fused into the input of the next layer, and the convolution core containing N scale spatial receptive fields and the time containing m scales are used to extract spatial information. The convolution core of domain receptive field is connected in series, and a multi-temporal fusion convolution layer containing K kinds of space-time receptive field is designed. It can use the feature information of video in a longer and shorter time range to model and recognize human behavior more accurately.

【技术实现步骤摘要】
基于多时空信息融合卷积神经网络的人体行为识别方法
本专利技术涉及一种视频人体行为识别方法,具体涉及一种基于多时空信息融合卷积神经网络的人体行为识别方法。
技术介绍
视频人体行为识别是计算机视觉中最具挑战性的任务之一,而且可以在众多领域具有广泛的应用,如视频监控、运动检索、人机交互、智能家居以及医疗保健。传统的视频行为识别方法一般是通过人工设计的视频时空特征,如SIFT-3D、STIPs、HOG3D、HOF、密集轨迹(iDT)等。随着卷积神经网络在静态图像识别领域取得了引人注目的进步,涌现出了一大批具有强大特征提取能力的网络结构。近年,将卷积神经网络应用于视频行为识别成为了国内外研究热点。Ji等人将2D卷积扩展为能够获取时域信息的3D卷积,并应用到了视频行为识别中。Tran等人进一步研究时间建模在行为识别中的作用(对视频进行3D卷积),设计了一个只输入RGB图像的卷积神经网络模型,取得了不错的效果,同时也证明了在视频行为识别中3D卷积神经网络显著优于2D卷积神经网络。利用时空信息而不仅仅是空间信息进行视频分类的优势在各种研究成果中已经得到验证。例如3D卷积神经网络的变体(2+1)D卷积、P3D卷积等。但上述方法都存在一定的缺陷:第一,计算复杂,存在参数冗余;第二这些方法都只对单一时空感受野的信息建模,存在一定的局限性,难以提取多变的时空信息,影响了卷积网络性能,不能有效地识别复杂的人体行为。
技术实现思路
为克服现有技术中的问题,本专利技术提出的一种基于多时空信息融合卷积神经网络的人体行为识别方法,包括如下步骤:步骤一:制作样本标签,将样本数据集根据类别制作不同的标签,将样本数据集分为训练数据集和评估数据集;步骤二:构建(2+1)D卷积神经网络,使用MST单元替换(2+1)D网络中的卷积单元,构建MST-(2+1)D模型;步骤三:初始化和设置网络模型,将网络模型参数随机初始化;步骤四:训练和评估模型,将所述训练数据集的每一帧图像裁剪成尺寸为112*112的图像输入网络模型进行训练,在每一轮训练后对网络模型进行评估;经多次训练后直到网络模型评估准确率达到一个稳定值后停止训练,保留网格模型的权重;步骤五:使用网格模型进行视频人体行为识别,将得到的权重导入构建的MST-(2+1)D模型中,进行人体行为识别。本专利技术提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中,训练数据集和评估数据集的比例为2:1。本专利技术提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中,所述MST(2+1)D模型中含有一个输入层、6个MST单元、一个全局池化层、一个全连接层、一个softmax分类层;每一个MST单元都包含一个空间卷积层、一个时域卷积层、两个BN层、两个非线性层,其中空间卷积层含有两种空间感受野,大小分别为1*1、3*3,时域卷积层含有三种时域感受野大小分别为1、3、5;对卷积层输出的张量进行池化,然后输入全连接层,将全连接层的输出作为最终的特征输入到softmax分类层进行分类。本专利技术提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中,采用4个步长为2*2*1的空间下采样层,3个步长为1*1*2的时域下采样层;将3个时域下采样层分别设置在第4、5、6个MST单元,将4个空间下采样层分别设置在第1、4、5、6个MST单元,每个下采样层紧接在非线性层后。本专利技术提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中,步骤三中,初始学习率设置为0.005,在第10、20、30轮迭代时分别再乘以0.1,权重衰减设置为0.005,训练以n段子视频/批进行迭代,每段子视频含有m帧RGB图像。本专利技术提出的所述基于多时空信息融合卷积神经网络的人体行为识别方法中,利用训练过程中学习到的参数对输入的子视频同时进行不同尺度的空间信息和时域信息的特征提取并在每一个卷积层后进行特征融合,将低维特征转换为高维特征,并将高维特征经过全连接层,最终输入softmax分类层进行人体行为识别。与现有技术相比,本专利技术的有益效果:本专利技术在进行人体行为识别过程中不仅利用不同尺度的空间信息对动作幅度不同的人体行为进行建模,而且通过不同深度的时域信息有效地对动作周期不同的人体行为进行建模,然后对空间信息和时域信息进行交叉组合,有效地识别不同空间幅度、不同时间周期的人体行为。本专利技术中的方法是一种更有效的视频人体行为特征描述符,能够同时利用视频较长和较短时间范围内的特征信息建模,能够更准确的对不同的人体行为识别。附图说明图1为基于多时空信息融合卷积神经网络的人体行为识别方法的流程图。图2为多时空信息融合层的结构图。图3为具体实例网络结构示意图。具体实施方式下面将结合示意图对本专利技术提出的基于多时空信息融合卷积神经网络的人体行为识别方法进行更详细的描述,其中表示了本专利技术的优选实施例,应该理解本领域技术人员可以修改在此描述的本专利技术,而仍然实现本专利技术的有利效果。因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本专利技术的限制。图1显示的是本专利技术基于多时空信息融合卷积神经网络的人体行为识别方法的流程图。其中,包括如下步骤:步骤一:制作样本标签,将样本数据集根据类别制作成不同的标签,将样本数据集分为训练数据集和评估数据集;步骤二:构建(2+1)D卷积神经网络,使用MST单元替换(2+1)D网络中的卷积单元,构建MST-(2+1)D模型;步骤三:初始化和设置网络模型,将网络模型参数随机初始化;步骤四:训练和评估模型,将所述训练数据集的每一帧图像裁剪成尺寸为112*112的图像输入网络模型进行训练,在每一轮训练后对网络模型进行评估;经多次训练后直到网络模型评估准确率达到一个稳定值后停止训练,保留网格模型的权重;步骤五:使用网格模型进行视频人体行为识别,将权重导入构建的MST-(2+1)D模型中,进行人体行为识别。其中,本专利技术提出了一种应用于卷积神经网络的(2+1)D多时空信息融合层(Multi-time-spacefusionconvolutionlayer-MST),如图2所示。本专利技术充分利用(2+1)D卷积将时间和空间在一定程度上解耦,以便于优化的特性,分别在空间和时间信息上应用不同尺度的感受野获取人体行为多运动幅度、多时间周期信息。将输入的特征图,首先使用多个不同尺度空间感受野的空间卷积层进行空间信息提取,将提取到的特征信息进行融合作为时域卷积层的输入,然后使用多个不同尺度时域感受野的时域卷积层进行时域信息提取,将提取到的特征信息进行融合作为下一个层的输入。本专利技术将n种尺度空间感受野的卷积核与m种尺度时域感受野的卷积核进行串联,设计了一个包含k种不同时空感受野的多时空融合卷积层(MST),如图2所示。每一个MST包含k种感受野,计算如(1)式所示:k=m*n(1)本专利技术在进行人体行为识别过程中不仅利用不同尺度的空间信息对动作幅度不同的人体行为进行建模,而且通过不同深度的时域信息有效地对动作周期不同的人体行为进行建模,然后对空间信息和时域信息进行交叉组合,有效地识别不同空间幅度、不同时间周期的人体行为。本专利技术中的方法是一种更有效的视频人体行为特征描述符,能够同时利用视频较长和较短时间范围内的特征信息建模,能够更准确的对不同的人体行本文档来自技高网...

【技术保护点】
1.一种基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,包括如下步骤:步骤一:制作样本标签,将样本数据集根据类别制作不同的标签,将样本数据集分为训练数据集和评估数据集;步骤二:构建(2+1)D卷积神经网络,使用MST单元替换(2+1)D网络中的卷积单元,构建MST‑(2+1)D模型;步骤三:初始化和设置网络模型,将网络模型参数随机初始化;步骤四:训练和评估模型,将所述训练数据集的每一帧图像裁剪成固定大小的图像输入网络模型进行训练,在每一轮训练后对网络模型进行评估;经多次训练后直到网络模型评估准确率达到一个稳定值后停止训练,保留网格模型的权重;步骤五:使用网格模型进行视频人体行为识别,将权重导入构建的MST‑(2+1)D模型中,进行人体行为识别。

【技术特征摘要】
1.一种基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,包括如下步骤:步骤一:制作样本标签,将样本数据集根据类别制作不同的标签,将样本数据集分为训练数据集和评估数据集;步骤二:构建(2+1)D卷积神经网络,使用MST单元替换(2+1)D网络中的卷积单元,构建MST-(2+1)D模型;步骤三:初始化和设置网络模型,将网络模型参数随机初始化;步骤四:训练和评估模型,将所述训练数据集的每一帧图像裁剪成固定大小的图像输入网络模型进行训练,在每一轮训练后对网络模型进行评估;经多次训练后直到网络模型评估准确率达到一个稳定值后停止训练,保留网格模型的权重;步骤五:使用网格模型进行视频人体行为识别,将权重导入构建的MST-(2+1)D模型中,进行人体行为识别。2.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,训练数据集和评估数据集的比例为2:1。3.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,所述MST-(2+1)D模型中含有一个输入层、6个MST单元、一个全局池化层、一个全连接层、一个softmax分类层;每一个MST单元都包含一个空间卷积层、一个时域卷积层、两个BN层、两个非线性层,其中空...

【专利技术属性】
技术研发人员:王永雄谈咏东黄强
申请(专利权)人:上海理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1