一种基于双流时空注意力机制的动作识别方法技术

技术编号:25524682 阅读:60 留言:0更新日期:2020-09-04 17:14
本发明专利技术公开了一种基于双流时空注意力机制的动作识别方法T‑STAM,包括如下步骤:S1:对视频进行处理获取RGB帧的光流图;S2:将通道注意力网络SE‑Net融入到双流基础网络BN‑Inception中得到SE‑BN‑Inception;S3:将选取的RGB帧及光流场信息输入到SE‑BN‑Inception中,对特征中不同通道的依赖关系进行建模得到视频的特征向量X;S4:将特征X输入到基于CNN的时间注意力网络来计算每帧对应的时间注意力得分;S5:将特征X输入到多空间注意力网络,提取帧的多个运动空间显著区域;S6:融合时空特征进一步增强视频的特征表达,按不同权重融合两流输出得到动作识别结果。

【技术实现步骤摘要】
一种基于双流时空注意力机制的动作识别方法
本专利技术涉及计算机视觉、视频分类等领域,特别提供了一种基于双流时空注意力机制的动作识别方法T-STAM。
技术介绍
近年来,随着深度学习的兴起,基于卷积神经网络的方法在视频动作识别研究领域应用广泛。其中双流法将RGB输入到CNN中来获取外观信息,将多帧的光流场输入到CNN中来获取运动信息,能有效结合视频中的时空信息,在性能上相对较优。但双流法在提取视频特征时忽略了不同通道信息的联系。此外,它平等的处理视频中采样的帧,未对帧的不同位置的信息加以区分,无法重点利用视频中关键的时空信息。基于注意力机制的动作识别方法可以突出视频中的关键信息。基于时空注意力的人体行为识别方法(专利申请号:CN201910250775.7,专利公开号:CN110059587A)的专利技术使用LSTM设计的时空注意力网络来提取视频中关键的时空信息。该方法存在以下不足:(1)在提取运动显著空间区域信息时,仅使用一个空间注意力网络关注帧的多个显著区域,造成提取的部分区域不准确;(2)使用LSTM设计的时间注意力本文档来自技高网...

【技术保护点】
1.一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于:包括如下步骤:/nS1:对视频进行处理选择RGB帧,方法为将视频等分成N段,每段中随机选取一帧,共选取N帧,并获取选取的RGB帧的光流图;/nS2:将通道注意力网络SE-Net填加到双流基础网络BN-Inception中,得到能对通道特征进行建模的SE-BN-Inception;/nS3:将选取的RGB帧以及光流场信息输入到SE-BN-Inception中,对特征的不同通道信息进行建模,能增强特征的表达力,得到视频的特征向量X,具体步骤如下:/nS31:将经过卷积层之后的特征沿着通道维度执行全局平均池化的压缩操作;/nS32...

【技术特征摘要】
1.一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于:包括如下步骤:
S1:对视频进行处理选择RGB帧,方法为将视频等分成N段,每段中随机选取一帧,共选取N帧,并获取选取的RGB帧的光流图;
S2:将通道注意力网络SE-Net填加到双流基础网络BN-Inception中,得到能对通道特征进行建模的SE-BN-Inception;
S3:将选取的RGB帧以及光流场信息输入到SE-BN-Inception中,对特征的不同通道信息进行建模,能增强特征的表达力,得到视频的特征向量X,具体步骤如下:
S31:将经过卷积层之后的特征沿着通道维度执行全局平均池化的压缩操作;
S32:将压缩后的特征通过两个全连接层来建模不同通道间的依赖关系,再通过一个Sigmoid函数获得归一化的权重;
S33:通过特征重定向操作将权重加权到每个通道的特征上,得到视频级特征X;
S4:将视频级特征X输入到基于CNN的时间注意力网络来计算每帧对应的时间注意力权重,重点关注运动幅度明显的帧,获取时间特征。步骤如下:
S41:对于视频第i帧特征向量xi,先通过全连接层进行线性映射,映射后的特征为如下:



其中w1、b1是网络中可学习的参数,整个视频的映射特征为X∈RN×D(D=256);
S42:将特征通过一个卷积核大小为1×1的卷积层将视频特征维度变为1×N,沿视频帧的时间维度使用softmax函数得到视频的每一帧的时间注意力分数
S43:获得第i帧的注意力得分后,将其与特征相乘得到第i帧的时间特征,对所有帧的时间特征求和得到整个视频的时间特征ft;
S5:将特征向量X输入到多空间注意力网络从不同角度计算帧的各个位置的注意力得分,提取帧的不同运动显著区域,获取空间特征。步骤如下:
S51:本发明共设计l个空间注意力网络,对于第jj∈(1,l)个空间注意力网络,先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F=256)以减少计算代价,然后经过第二个卷积层得到的特征为计算如下:



其中w2、w3、b2、b3是网络中可学习的参数,第二个卷积层的卷积核尺寸为5×5,卷积步长为1。l表示空间注意力网络数;
S52:将经过两个卷积层之后的特征输入到softmax函数计算第i帧中每个空间区域的概率得分
S53:将与每个映射特征进行元素相乘得到加权的空间特征,由于使用了l个空间注意力,每帧可提取l个空间特征,将每个视频选取帧的第j(j∈l)个空间特征求和,得到整个视频的第j个空间特征
S6:融合时空特征进一步增强视频的特征表达,将融合的特征送入到分类网络,步骤如下:
S61:经过S4和S5,每个视频分别获得l个空间特征和一个时间特征ft,先将每个空间特征映射到时间特征上,即把视频的空间特征分别和视频的时间特征ft相加得到l个特征Fl,计算如下:

【专利技术属性】
技术研发人员:代钦王黎明李怡颖王洪江刘芳
申请(专利权)人:沈阳工程学院
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1