基于注意力增强三维时空表征学习的视频行为识别方法技术

技术编号:22565584 阅读:18 留言:0更新日期:2019-11-16 12:14
本发明专利技术公开了一种基于注意力增强三维时空表征学习的视频行为识别方法,设计了时空注意力增强残差学习模块,其采用双分支残差学习结构,包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支,且两个分支的输出集成在一起,由此产生时空注意力增强功能,提升了识别精度,另外,将时空注意力增强残差学习模块嵌入到主网络中,使时空注意力增强残差学习模块的主干分支复用主网络的基本网络单元从而形成整体的网络模型,在保证识别精度的前提下,网络结构简单、轻量且灵活。

Video behavior recognition based on three-dimensional spatiotemporal representation of attention enhancement

The invention discloses a video behavior recognition method based on three-dimensional spatiotemporal representation learning of attention enhancement, and designs a spatiotemporal attention enhancement residual learning module, which adopts a two branch residual learning structure, including a main branch for feature processing of input data and an attention mask branch for attention feature learning based on the input data, and two branches In addition, the spatiotemporal attention enhancement learning module is embedded in the main network, so that the main branch of the spatiotemporal attention enhancement learning module can reuse the basic network units of the main network to form the overall network model. On the premise of ensuring the recognition accuracy, the network structure is simple Single, lightweight and flexible.

【技术实现步骤摘要】
基于注意力增强三维时空表征学习的视频行为识别方法
本专利技术涉及计算机视觉技术、视频理解
,更具体地说,涉及一种基于注意力增强三维时空表征学习的视频行为识别方法。
技术介绍
作为计算机视觉中的传统问题,图像识别被应用于执行大量基于机器的视觉任务,例如用标签标记图像内容,图像内容搜索和引导机器人,自动驾驶汽车和事故避免系统。深层卷积网络和大规模数据集使得这个领域有了一系列的突破。AlexNet是第一个在深层卷积网络中被广泛应用的网络,和LeNet有一些类似。与传统方法相比,它利用了群组卷积并显著提高了性能。紧接着,VGG模型通过运用很小的3×3卷积块来加深了CNN网络的层数,并且表明了在网络深度达到16层和19层的时候有明显的提升。Inception模型则是很成功的多分支结构,每一条分支上都经过精心设计。DenseNet以前馈方式将每一层连接到每一层,这样任何两层都可以直接相互“沟通”。近几年来,通过使用帧级别的CNN模型,我们可以获得显着的行为识别性能提升。比如Karpathy他们团队的工作,是第一次提出使用卷积神经网络来做行为识别工作。紧接着,双流模型和3D-CNN的提出使得这两个框架成为了这项任务的两条主流。通常双流模型使用RGB视频数据和视频特征(比如像光流)来完善表示和分类任务。C3D使用一个三维卷积去学习时空特征,但是大量的参数导致了计算资源的损耗,因此亟需提供一种在保证识别精度的前提下,简单、且能节约计算资源的图像行为识别方法。近期3D-CNN方法比如I3D(Inflated-3D)使用的是对应二维网络扩展到三维的方法来学习时空特征,并且展示出了有效的结果提升以及计算资源的节省
技术实现思路
为解决上述技术问题,本专利技术提供一种基于注意力增强三维时空表征学习的视频行为识别方法。为实现上述目的,本专利技术所采用的具体技术方案如下:一种基于注意力增强三维时空表征学习的视频行为识别方法,包括如下步骤:S1:建立主网络和时空注意力增强残差学习模块,所述时空注意力增强残差学习模块包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支;所述注意力掩膜分支包括相串联的注意力单元和归一化单元,所述主干分支包括至少一个基本网络单元,所述注意力掩膜分支通过注意力单元来提取注意力特征,并在通过归一化单元生成三维时空范围内注意力特征的概率分布信息后通过函数H(X)=(1+M(X))*T(X)与所述主干分支联合在一起,从而输出注意力增强的时空特征;其中,H(X)表示注意力增强的时空特征,M(X)表示所述归一化单元输出的信息,T(X)表示所述主干分支输出的信息;S2:将时空注意力增强残差学习模块嵌入到所述主网络的网络卷积层中,使主干分支中的基本网络单元与所述主网络的基本网络单元复用从而形成总体的网络模型;S3:用训练集训练所述网络模型,优化参数得到注意力增强的识别网络;S4:将测试集输入到所述识别网络中进行视频行为识别。进一步地,所述主网络为ResNet-50,所述基本网络单元为残差单元。进一步地,每一所述时空注意力增强残差学习模块的主干分支由一个残差单元构成,所述ResNet-50的第2~4层卷积层中依次具有3、4、6个残差单元,所述步骤S2包括:在ResNet-50的第2~4层卷积层中依次嵌入6个时空注意力增强残差学习模块,相邻的两个时空注意力增强残差学习模块之间通过一个残差单元连接,且第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元中。进一步地,所述注意力掩膜分支仅由依次串联的注意力单元和归一化单元构成;所述注意力掩膜分支由依次串联的注意力单元、残差单元以及归一化单元构成。进一步地,每一所述时空注意力增强残差学习模块的主干分支由两个残差单元构成,所述ResNet-50的第2~4层卷积层中依次具有3、4、6个残差单元,所述步骤S2包括:在ResNet-50的第2~4层卷积层中依次嵌入4个时空注意力增强残差学习模块,第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元和倒数第二个残差单元中,第二个双时空注意力增强残差学习模块嵌入到ResNet-50第3个卷积层的最后一个残差单元和倒数第二个残差单元中,第三个时空注意力增强残差学习模块嵌入到ResNet-50第4个卷积层的第2个残差单元和第3个残差单元中,第四个时空注意力增强残差学习模块嵌入到ResNet-50第4个卷积层的最后一个残差单元和倒数第二个残差单元中。进一步地,所述注意力掩膜分支包括以下结构中的至少一种:所述注意力掩膜分支仅由依次串联的注意力单元和归一化单元构成;所述注意力掩膜分支由依次串联的注意力单元、残差单元以及归一化单元构成;所述注意力掩膜分支由依次串联的残差单元、注意力单元、残差单元以及归一化单元构成。进一步地,所述训练集和所述测试集中的数据为单RGB视频数据。进一步地,所述注意力单元通过三维池化操作以及三维插值操作来提取注意力特征。本专利技术提供的基于注意力增强三维时空表征学习的视频行为识别方法,设计了时空注意力增强残差学习模块,其采用双分支残差学习结构,包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行时空注意力特征学习的注意力掩膜分支,且两个分支的输出集成在一起,由此产生时空注意力增强功能,提升了识别精度,另外,将时空注意力增强残差学习模块嵌入到主网络中,使模块的主干分支复用主网络的基本网络单元从而形成整体的网络模型,在保证识别精度的前提下,网络结构简单、轻量且灵活。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1为本专利技术实施例提供的基于注意力增强三维时空表征学习机制的行为识别方法的流程示意图;图2为本专利技术实施例提供的时空注意力增强残差学习模块的结构示意图;图3为本实施例提供的第一种网络模型N1的模型示意图;图4为本实施例提供的第二种网络模型N2的模型示意图;图5-1为本实施例提供的时空注意力增强残差学习模块M1的结构示意图;图5-2为本实施例提供的时空注意力增强残差学习模块M2的结构示意图;图5-3为本实施例提供的时空注意力增强残差学习模块M3的结构示意图;图5-4为本实施例提供的时空注意力增强残差学习模块M4的结构示意图;图5-5为本实施例提供的时空注意力增强残差学习模块M5的结构示意图;图6为本实施例提供的模型提取到的三维时空特征的可视化示意图。具体实施方式为了使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本实施例提供一种基于注意力增强三维时空表征学习的视频行为识别方法,请参见图1所示,包括如下步骤:S1本文档来自技高网
...

【技术保护点】
1.一种基于注意力增强三维时空表征学习的视频行为识别方法,其特征在于,包括如下步骤:/nS1:建立主网络和时空注意力增强残差学习模块,所述时空注意力增强残差学习模块包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支;/n所述注意力掩膜分支包括相串联的注意力单元和归一化单元,所述主干分支包括至少一个基本网络单元,所述注意力掩膜分支通过注意力单元来提取注意力特征,并在通过归一化单元生成三维时空范围内注意力特征的概率分布信息后通过函数H(X)=(1+M(X))*T(X)与所述主干分支联合在一起,从而输出注意力增强的时空特征;其中,H(X)表示注意力增强的时空特征,M(X)表示所述归一化单元输出的信息,T(X)表示所述主干分支输出的信息;/nS2:将时空注意力增强残差学习模块嵌入到所述主网络的网络卷积层中,使主干分支中的基本网络单元与所述主网络的基本网络单元复用从而形成总体的网络模型;/nS3:用训练集训练所述网络模型,优化参数得到注意力增强的识别网络;/nS4:将测试集输入到所述识别网络中进行视频行为识别。/n

【技术特征摘要】
1.一种基于注意力增强三维时空表征学习的视频行为识别方法,其特征在于,包括如下步骤:
S1:建立主网络和时空注意力增强残差学习模块,所述时空注意力增强残差学习模块包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支;
所述注意力掩膜分支包括相串联的注意力单元和归一化单元,所述主干分支包括至少一个基本网络单元,所述注意力掩膜分支通过注意力单元来提取注意力特征,并在通过归一化单元生成三维时空范围内注意力特征的概率分布信息后通过函数H(X)=(1+M(X))*T(X)与所述主干分支联合在一起,从而输出注意力增强的时空特征;其中,H(X)表示注意力增强的时空特征,M(X)表示所述归一化单元输出的信息,T(X)表示所述主干分支输出的信息;
S2:将时空注意力增强残差学习模块嵌入到所述主网络的网络卷积层中,使主干分支中的基本网络单元与所述主网络的基本网络单元复用从而形成总体的网络模型;
S3:用训练集训练所述网络模型,优化参数得到注意力增强的识别网络;
S4:将测试集输入到所述识别网络中进行视频行为识别。


2.如权利要求1所述的基于注意力增强三维时空表征学习的视频行为识别方法,其特征在于,所述主网络为ResNet-50,所述基本网络单元为残差单元。


3.如权利要求2所述的基于注意力增强三维时空表征学习的视频行为识别方法,其特征在于,每一所述时空注意力增强残差学习模块的主干分支由一个残差单元构成,所述ResNet-50的第2~4层卷积层中依次具有3、4、6个残差单元,所述步骤S2包括:
在ResNet-50的第2~4层卷积层中依次嵌入6个时空注意力增强残差学习模块,相邻的两个双分支时空注意力增强残差学习模块之间通过一个残差单元连接,且第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元中。


4.如权利要求3所述的基于注意力增强三维时空表征学习的视...

【专利技术属性】
技术研发人员:石珍生郑海永
申请(专利权)人:中国海洋大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1