一种基于双流卷积网络的视频中人体行为识别方法技术

技术编号:23558725 阅读:22 留言:0更新日期:2020-03-25 04:11
本发明专利技术公开了一种基于双流卷积网络的视频中人体行为识别方法,涉及计算机视觉领域。本发明专利技术的目的是识别出视频片段中出现的人体行为。本发明专利技术包括:将视频片段预处理成连续的视频帧;对视频帧进行稀疏采样;将采样到的视频帧输入到所设计的行为识别网络模型中,利用卷积操作初步提取卷积特征;然后将特征向量同时输入空间流分支和时间流分支,分别提取视频的空间外观特征和时序运动特征;将两种特征融合后输入分类器中,得到视频片段中人体行为的识别结果。本发明专利技术利用卷积网络预测光流场,节省了大量的计算时间和存储空间,并融合了视频的外观特征和运动特征,利用两种特征信息互补来表征人体行为,提高识别的性能。

A method of human behavior recognition in video based on double flow convolution network

【技术实现步骤摘要】
一种基于双流卷积网络的视频中人体行为识别方法
本专利技术涉及计算机视觉领域,具体涉及一种基于双流卷积网络的视频中人体行为识别的方法。
技术介绍
视频中人体行为识别作为计算机视觉领域的一个重要研究方向,已经被广泛用于诸多实际应用场景中,如智能监控、智能家居、视频检索等,近年来受到了国内外学者的广泛关注,涌现出了大量的人体行为识别方法,但由于人体行为的非刚性、复杂性以及视频的视角变换、遮挡、光照变化等因素,目前的人体行为识别方法大都存在计算效率较低、识别准确率不足等问题,视频中人体行为仍是计算机视觉领域的热点和难题。受卷积网络在图像识别领域性能卓越的启发,将卷积神经网络应用于视频人体行为识别领域已成为一种发展趋势。近年来,随着深度学习的迅猛发展,越来越多的基于卷积神经网络的模型被提出,在人体行为识别方法上也得到了广泛的应用。Simonyan等人(SIMONYANK,ZISSERMANA.Two-StreamConvolutionalNetworksforActionRecognitioninVideos[C]//AdvancesinNeuralInformationProcessingSystems,2014:568-576.)提出了一种双流卷积网络的人体行为识别方法,双流卷积网络分为时间流卷积神经网络和空间流卷积神经网络两个分支,且两个分支具有同样的网络结构。时间流网络需要预先计算光流图像,输入光流图像提取时序特征,空间流网络输入RGB图像提取空间特征,最后通过分类得分融合得到最终的人体行为识别结果,实验证明了通过计算光流场来提取时序运动特征,对提高视频中的人体行为识别准确率非常有效。尽管双流卷积网络能够取得较高的识别率,但是光流图像的计算成本和存储空间成本太过昂贵,并且难以有效地对长时运动特征建模,在实际场景中无法得到有效的应用,因此设计一种更高效的光流计算方法对时序特征建模尤为重要。
技术实现思路
本专利技术技术解决问题:克服现有技术的不足,提供一种基于双流卷积网络的视频中人体行为识别方法,以采用多个2D和3DInception模块堆叠组成的空间流网络作为空间流分支,提高对视频片段的高层语义信息建模能力,采用光流预测卷积网络作为时间流分支,对相邻特征向量计算梯度,预测特征残差的光流场,降低计算光流场产生的时间和空间成本,并将空间外观特征和时序运动特征信息互补,增强视频中人体行为识别方法对人体行为的表征能力。本专利技术技术解决方案:一种基于双流卷积网络的视频中人体行为识别方法,本专利技术的目的是在视频片段人体行为识别过程中,更快速更准确地获得表示视频片段中出现的人体行为的标签。本专利技术包括:利用计算机视觉库OpenCV将视频切分成连续的视频帧,调整成固定尺寸后,采用稀疏采样的方式依次随机选取视频帧,采样的视频帧通过网络底层的卷积操作初步提取卷积特征后,分别输入到空间流分支和时间流分支中提取用来表示视频中人体行为的空间外观特征和时序运动特征,接着将两种特征在通道上进行融合,训练网络模型,确定模型参数,在模型趋于稳定后停止训练,并将测试视频相同预处理后进行输入,经过所述训练好的模型后,得到最终的识别结果。具体步骤如下:(1)利用计算机视觉库OpenCV中提取视频帧的方法,从包含人体行为的视频片段中提取连续视频帧,并将视频帧全部处理成尺寸为112*112像素的RGB图像,接着根据视频帧数量平均分成三个部分,依次从三个部分中随机选取8、9、8张图像,组成25张连续视频帧。(2)将步骤(1)中采样到的25张连续视频帧输入到双流卷积网络模型中,由网络最先开始的卷积操作初步提取特征,其中第一个卷积层采用1*7*7的卷积核,获取较大的网络感受野,然后通过最大池化层进行下采样,接着通过1*1卷积层和3*3卷积层对卷积特征降维,然后将特征向量同时输入双流卷积网络模型的时间流分支和空间流分支。(3)利用空间流分支对步骤(2)中初步提取的卷积特征提取空间外观特征,所述空间流分支由多个2DInception模块和3DInception模块堆叠构成,其中Inception模块是图像识别领域网络结构常用的模块,空间流分支的底层采用2DInception模块,利用在ImageNet上训练好的模型进行初始化,而高层采用3DInception模块则可以更好地捕捉高层语义特征信息。(4)利用时间流分支对步骤(2)中初步提取的卷积特征提取时序运动特征,时间流分支采用1*1*1的卷积层调整输入特征向量的通道数,将相邻通道的特征向量F1,F2输入光流预测卷积层,采用Sobel算子作为卷积核,预测特征残差的光流场,捕捉视频的时序运动特征,所涉及的计算方式为u=Flow(F1,F2),其中张量u表示特征向量上每个位置水平方向和垂直方向的预测光流,Flow表示光流预测卷积层。(5)将空间流分支和时间流分支提取的特征在通道上融合后输入到Softmax分类器中,在避免梯度消失的基础上训练网络,使分类器获得的预测分类得分尽可能地接近真实标签值,最后将分类得分进行输出,在训练过程中采用交叉熵损失函数。本专利技术与现有技术相比的优点在于:(1)相比现有技术,本专利技术首先利用2D卷积层提取视频图像的外观特征,2D卷积层可以利用图像识别领域在ImageNet上预训练过的模型进行初始化,可以有效地加快模型收敛,提高训练的速度,并且加入多个3DInception模块,增加了网络的深度的同时并没有带来大量的网络参数,对长时视频中的人体行为识别有较好的效果。(2)相比现有技术,本专利技术利用光流预测卷积网络对特征残差计算预测光流场,经过迭代优化参数后,可以产生预测光流场,提取时序运动特征,快速地对人体行为的时序运动变化建模,不需要预先计算光流图像以及存储光流图像,节省了行为识别所需的计算时间和存储空间,提高了识别效率。附图说明图1是根据本专利技术进行视频中人体行为识别的整体流程示意图;图2是根据本专利技术人体行为识别方法的网络结构示意图;图3是图2网络模型中的Inception模块的结构示意图;具体实施方式下面结合附图和具体实施方式对本专利技术进行描述。其中图1描述了基于双流卷积网络的视频中人体行为识别过程。如图1所示,本专利技术包括以下步骤:(1)输入视频片段,利用计算机视觉库OpenCV对视频片段切帧,并将视频帧全部处理成尺寸为112*112像素的RGB图像,接着进行稀疏采样,根据视频帧数量平均分成三个部分,依次从三个部分中随机选取8、9、8张图像,组成25张连续视频帧作为网络的输入。(2)将步骤(1)中采样到的25张连续视频帧输入到双流卷积网络模型中,利用网络最先开始的卷积操作初步提取特征,其中第一个卷积层采用1*7*7的卷积核,获取较大的网络感受野,然后通过最大池化层进行下采样,接着通过1*1卷积层和3*3卷积层对卷积特征降维,降低卷积计算成本,提高特征的鲁棒性,然后将特征向量同时输入所设计的双流卷积网络模型的时间流分支和空间流分支。(3)利用空间流分支本文档来自技高网
...

【技术保护点】
1.一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:包括以下步骤:/n(1)对视频片段进行切帧、调整尺寸等预处理,获取连续的视频帧,接着对视频帧进行稀疏采样;/n(2)将采样获取的视频帧输入到所述双流卷积网络模型中,利用卷积操作初步提取视频帧的卷积特征;/n(3)将步骤(2)中初步提取的卷积特征分别输入空间流分支和时间流分支提取空间外观特征和时序运动特征,接着进行特征融合;/n(4)将步骤(3)中融合后的特征向量输入Softmax分类器中进行分类,得到行为类别得分,模型经过不断地训练,趋于稳定后,输入测试视频片段,就能够得到最终的人体行为识别结果。/n

【技术特征摘要】
1.一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:包括以下步骤:
(1)对视频片段进行切帧、调整尺寸等预处理,获取连续的视频帧,接着对视频帧进行稀疏采样;
(2)将采样获取的视频帧输入到所述双流卷积网络模型中,利用卷积操作初步提取视频帧的卷积特征;
(3)将步骤(2)中初步提取的卷积特征分别输入空间流分支和时间流分支提取空间外观特征和时序运动特征,接着进行特征融合;
(4)将步骤(3)中融合后的特征向量输入Softmax分类器中进行分类,得到行为类别得分,模型经过不断地训练,趋于稳定后,输入测试视频片段,就能够得到最终的人体行为识别结果。


2.根据权利要求1所述的一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:在步骤(1)中,利用计算机视觉库OpenCV中提取视频帧的方法,从包含人体行为的视频片段中提取连续视频帧,并将视频帧全部处理成尺寸为112*112像素的RGB图像,接着根据视频帧数量平均分成三个部分,依次从三个部分中随机选取8、9、8张图像,组成25张连续视频帧输入到步骤(2)的网络模型中。


3.根据权利要求1所述的一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:在步骤(2)中,初步提取特征的卷积操作包括3个卷积层和2个最大池化层,其中第一个卷积层采用1*7*7的卷积核,获取较大的网络感受野,然后通过最大池化层进行下采样,接着通过1*1卷积层和3*3卷积层对卷积特征降维,减少网络模型的参数量,提高特征的鲁棒性。


4.根据权利要求1所述的一种基于双流卷积网络的视频中人体行为识别方法,其特征在于:在步骤(3)中,所述空间流分支由多个2DInception模块和3DInception模块堆叠构成,其中In...

【专利技术属性】
技术研发人员:邓毅彪蔡强李海生毛典辉颜津
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1