A human behavior recognition method based on Multi-temporal information fusion convolution neural network is proposed in this paper. Firstly, a (2+1) D convolution neural network is constructed. After training, the human behavior is recognized by using grid model until the accuracy of network model evaluation reaches a stable value. The (2+1) D convolution neural network proposed in the present invention simultaneously uses spatial convolution layers of different scale spatial receptive fields to extract spatial information, and uses temporal convolution layers of multiple different scale temporal receptive fields to extract temporal information. The extracted feature information is fused into the input of the next layer, and the convolution core containing N scale spatial receptive fields and the time containing m scales are used to extract spatial information. The convolution core of domain receptive field is connected in series, and a multi-temporal fusion convolution layer containing K kinds of space-time receptive field is designed. It can use the feature information of video in a longer and shorter time range to model and recognize human behavior more accurately.
【技术实现步骤摘要】
基于多时空信息融合卷积神经网络的人体行为识别方法
本专利技术涉及一种视频人体行为识别方法,具体涉及一种基于多时空信息融合卷积神经网络的人体行为识别方法。
技术介绍
视频人体行为识别是计算机视觉中最具挑战性的任务之一,而且可以在众多领域具有广泛的应用,如视频监控、运动检索、人机交互、智能家居以及医疗保健。传统的视频行为识别方法一般是通过人工设计的视频时空特征,如SIFT-3D、STIPs、HOG3D、HOF、密集轨迹(iDT)等。随着卷积神经网络在静态图像识别领域取得了引人注目的进步,涌现出了一大批具有强大特征提取能力的网络结构。近年,将卷积神经网络应用于视频行为识别成为了国内外研究热点。Ji等人将2D卷积扩展为能够获取时域信息的3D卷积,并应用到了视频行为识别中。Tran等人进一步研究时间建模在行为识别中的作用(对视频进行3D卷积),设计了一个只输入RGB图像的卷积神经网络模型,取得了不错的效果,同时也证明了在视频行为识别中3D卷积神经网络显著优于2D卷积神经网络。利用时空信息而不仅仅是空间信息进行视频分类的优势在各种研究成果中已经得到验证。例如3D卷积神经网络的变体(2+1)D卷积、P3D卷积等。但上述方法都存在一定的缺陷:第一,计算复杂,存在参数冗余;第二这些方法都只对单一时空感受野的信息建模,存在一定的局限性,难以提取多变的时空信息,影响了卷积网络性能,不能有效地识别复杂的人体行为。
技术实现思路
为克服现有技术中的问题,本专利技术提出的一种基于多时空信息融合卷积神经网络的人体行为识别方法,包括如下步骤:步骤一:制作样本标签,将样本数据集根据类别制作不同 ...
【技术保护点】
1.一种基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,包括如下步骤:步骤一:制作样本标签,将样本数据集根据类别制作不同的标签,将样本数据集分为训练数据集和评估数据集;步骤二:构建(2+1)D卷积神经网络,使用MST单元替换(2+1)D网络中的卷积单元,构建MST‑(2+1)D模型;步骤三:初始化和设置网络模型,将网络模型参数随机初始化;步骤四:训练和评估模型,将所述训练数据集的每一帧图像裁剪成固定大小的图像输入网络模型进行训练,在每一轮训练后对网络模型进行评估;经多次训练后直到网络模型评估准确率达到一个稳定值后停止训练,保留网格模型的权重;步骤五:使用网格模型进行视频人体行为识别,将权重导入构建的MST‑(2+1)D模型中,进行人体行为识别。
【技术特征摘要】
1.一种基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,包括如下步骤:步骤一:制作样本标签,将样本数据集根据类别制作不同的标签,将样本数据集分为训练数据集和评估数据集;步骤二:构建(2+1)D卷积神经网络,使用MST单元替换(2+1)D网络中的卷积单元,构建MST-(2+1)D模型;步骤三:初始化和设置网络模型,将网络模型参数随机初始化;步骤四:训练和评估模型,将所述训练数据集的每一帧图像裁剪成固定大小的图像输入网络模型进行训练,在每一轮训练后对网络模型进行评估;经多次训练后直到网络模型评估准确率达到一个稳定值后停止训练,保留网格模型的权重;步骤五:使用网格模型进行视频人体行为识别,将权重导入构建的MST-(2+1)D模型中,进行人体行为识别。2.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,训练数据集和评估数据集的比例为2:1。3.根据权利要求1所述的基于多时空信息融合卷积神经网络的人体行为识别方法,其特征在于,所述MST-(2+1)D模型中含有一个输入层、6个MST单元、一个全局池化层、一个全连接层、一个softmax分类层;每一个MST单元都包含一个空间卷积层、一个时域卷积层、两个BN层、两个非线性层,其中空...
【专利技术属性】
技术研发人员:王永雄,谈咏东,黄强,
申请(专利权)人:上海理工大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。