The invention discloses a video behavior recognition method based on three-dimensional spatiotemporal representation learning of attention enhancement, and designs a spatiotemporal attention enhancement residual learning module, which adopts a two branch residual learning structure, including a main branch for feature processing of input data and an attention mask branch for attention feature learning based on the input data, and two branches In addition, the spatiotemporal attention enhancement learning module is embedded in the main network, so that the main branch of the spatiotemporal attention enhancement learning module can reuse the basic network units of the main network to form the overall network model. On the premise of ensuring the recognition accuracy, the network structure is simple Single, lightweight and flexible.
【技术实现步骤摘要】
基于注意力增强三维时空表征学习的视频行为识别方法
本专利技术涉及计算机视觉技术、视频理解
,更具体地说,涉及一种基于注意力增强三维时空表征学习的视频行为识别方法。
技术介绍
作为计算机视觉中的传统问题,图像识别被应用于执行大量基于机器的视觉任务,例如用标签标记图像内容,图像内容搜索和引导机器人,自动驾驶汽车和事故避免系统。深层卷积网络和大规模数据集使得这个领域有了一系列的突破。AlexNet是第一个在深层卷积网络中被广泛应用的网络,和LeNet有一些类似。与传统方法相比,它利用了群组卷积并显著提高了性能。紧接着,VGG模型通过运用很小的3×3卷积块来加深了CNN网络的层数,并且表明了在网络深度达到16层和19层的时候有明显的提升。Inception模型则是很成功的多分支结构,每一条分支上都经过精心设计。DenseNet以前馈方式将每一层连接到每一层,这样任何两层都可以直接相互“沟通”。近几年来,通过使用帧级别的CNN模型,我们可以获得显着的行为识别性能提升。比如Karpathy他们团队的工作,是第一次提出使用卷积神经网络来做行为识别工作。紧接着,双流模型和3D-CNN的提出使得这两个框架成为了这项任务的两条主流。通常双流模型使用RGB视频数据和视频特征(比如像光流)来完善表示和分类任务。C3D使用一个三维卷积去学习时空特征,但是大量的参数导致了计算资源的损耗,因此亟需提供一种在保证识别精度的前提下,简单、且能节约计算资源的图像行为识别方法。近期3D-CNN方法比如I3D(Inflated-3D)使用的是 ...
【技术保护点】
1.一种基于注意力增强三维时空表征学习的视频行为识别方法,其特征在于,包括如下步骤:/nS1:建立主网络和时空注意力增强残差学习模块,所述时空注意力增强残差学习模块包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支;/n所述注意力掩膜分支包括相串联的注意力单元和归一化单元,所述主干分支包括至少一个基本网络单元,所述注意力掩膜分支通过注意力单元来提取注意力特征,并在通过归一化单元生成三维时空范围内注意力特征的概率分布信息后通过函数H(X)=(1+M(X))*T(X)与所述主干分支联合在一起,从而输出注意力增强的时空特征;其中,H(X)表示注意力增强的时空特征,M(X)表示所述归一化单元输出的信息,T(X)表示所述主干分支输出的信息;/nS2:将时空注意力增强残差学习模块嵌入到所述主网络的网络卷积层中,使主干分支中的基本网络单元与所述主网络的基本网络单元复用从而形成总体的网络模型;/nS3:用训练集训练所述网络模型,优化参数得到注意力增强的识别网络;/nS4:将测试集输入到所述识别网络中进行视频行为识别。/n
【技术特征摘要】
1.一种基于注意力增强三维时空表征学习的视频行为识别方法,其特征在于,包括如下步骤:
S1:建立主网络和时空注意力增强残差学习模块,所述时空注意力增强残差学习模块包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支;
所述注意力掩膜分支包括相串联的注意力单元和归一化单元,所述主干分支包括至少一个基本网络单元,所述注意力掩膜分支通过注意力单元来提取注意力特征,并在通过归一化单元生成三维时空范围内注意力特征的概率分布信息后通过函数H(X)=(1+M(X))*T(X)与所述主干分支联合在一起,从而输出注意力增强的时空特征;其中,H(X)表示注意力增强的时空特征,M(X)表示所述归一化单元输出的信息,T(X)表示所述主干分支输出的信息;
S2:将时空注意力增强残差学习模块嵌入到所述主网络的网络卷积层中,使主干分支中的基本网络单元与所述主网络的基本网络单元复用从而形成总体的网络模型;
S3:用训练集训练所述网络模型,优化参数得到注意力增强的识别网络;
S4:将测试集输入到所述识别网络中进行视频行为识别。
2.如权利要求1所述的基于注意力增强三维时空表征学习的视频行为识别方法,其特征在于,所述主网络为ResNet-50,所述基本网络单元为残差单元。
3.如权利要求2所述的基于注意力增强三维时空表征学习的视频行为识别方法,其特征在于,每一所述时空注意力增强残差学习模块的主干分支由一个残差单元构成,所述ResNet-50的第2~4层卷积层中依次具有3、4、6个残差单元,所述步骤S2包括:
在ResNet-50的第2~4层卷积层中依次嵌入6个时空注意力增强残差学习模块,相邻的两个双分支时空注意力增强残差学习模块之间通过一个残差单元连接,且第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元中。
4.如权利要求3所述的基于注意力增强三维时空表征学习的视...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。