基于随机帧补帧和注意力的视频交互动作检测方法及系统技术方案

技术编号:38142483 阅读:7 留言:0更新日期:2023-07-08 09:58
本发明专利技术属于计算机视觉和模式识别技术领域,尤其涉及一种基于随机帧补帧和注意力的视频交互动作检测方法及系统,方法的具体步骤如下:(1)特征提取网络的选择;(2)自注意力全局信息建模;(3)随机帧补帧数据增强;(4)金字塔特征的生成;(5)边界定位与分类。本发明专利技术能够同时聚合全局时序与多尺度的局部时序信息,通过产生的金字塔特征进行高效的动作定位。应用基于随机帧补帧进行数据增强,通过LSTM+Transformer的结合来解决单个模型在不同大小数据集上性能表现不同的问题,以获得更精确的动作定位与分类结果。动作定位与分类结果。动作定位与分类结果。

【技术实现步骤摘要】
基于随机帧补帧和注意力的视频交互动作检测方法及系统


[0001]本专利技术属于计算机视觉和模式识别
,尤其涉及一种基于随机帧补帧和注意力的视频交互动作检测方法及系统。

技术介绍

[0002]近几年中,随着深度学习技术的飞速发展,许多学者提出了许多基于深度学习技术的时序动作定位方法。及时识别动作实例并识别其类别,即时序动作定位,仍然是视频理解中的一个具有挑战性的问题。在TAL的深度模型开发方面取得了重大进展。以前的大多数工作都考虑使用动作Proposals[BMN]或Anchor窗口[GTAN],并为TAL开发了卷积神经网络[CDC,SSN]、循环神经网络[SS

TAD]和图神经网络[BC

GNN,G

TAD]。尽管在主要基准上取得了稳定的进展,但现有方法的准确性通常是以建模复杂性为代价的,包括越来越复杂的Proposal生成、Anchor设计和损失函数,网络结构和输出解码过程。同时,由于视频中动作边界不明确,现有的方法往往存在边界预测不准确的问题。
[0003]如何解决时序动作定位的问题,在之前已经提出的方法中已经给出了一些解决方法,但是这些方法仍然存在着一些问题。基于Anchor的方法需要很强的先验知识,对每个数据集定义的anchor的数量也不一样,这些问题会影响最终的结果。虽然Actionness

Guided的方法能取得不错的效果,但是Actionness

Guided方法的计算量太大。因此Anchor

free的方法可能是一种很好的解决方案。

技术实现思路

[0004]本专利技术的目的是解决时序动作定位问题,之前的时序动作定位方法要么需要对数据集很强的先验知识,要么计算量很大。本专利技术提出基于随机帧补帧和注意力的视频交互动作检测方法及系统,用于解决时序动作定位方法需要很强先验知识或者计算量很大的问题,通过全局与多尺度信息的聚合,时序位置关系的建模实现了对动作的精确定位,本专利技术方法识别精度高,从而为Anchor

free的时序动作定位问题提供了帮助。
[0005]本专利技术解决技术问题的技术方案为:一种基于随机帧补帧和注意力的视频交互动作检测方法,包括以下步骤:步骤10.特征提取网络的选择选择基于Kinetics数据集预训练的I3D网络来进行特征的提取,将16个连续帧作为I3D的输入,使用步长为4的滑动窗口,在最后一个全连接层之前提取1024

D的特征,双流特征被进一步连接(2048

D)作为模型的输入;步骤20.自注意力全局信息建模在步骤10基础网络选择的基础上,对全局的时序信息进行建模,对于I3D网络的输出;用Polarized Self

Attention极化注意力来寻找帧与帧之间的关系并进行加权,通过这种基于自注意力的加权策略能够寻找到更重要的帧并赋予更高的权重;在Transformer网络之前加入1D卷,可以更好的合并局部上下文信息和稳定视觉
Transformer的训练,以此实现了全局信息的建模;步骤30. 随机帧补帧数据增强在第1步特征网络的输出上,通过将一个视频分为T/k个片段,从每个片段中随机取一帧,其余k

1帧与所取帧相同,来形成一个变化较大的新特征向量,相当于把视频给加速了,但是动作实际位置不变;把经过backbone的新特征向量与原视频特征向量计算一个mse损失,对它们进行约束,让它们拉近,互相学习一些信息,以此达到数据增强的目的;步骤40.金字塔特征的生成在步骤20步网络的基础上,将通过多尺度信息聚合模块之后的特征通过多尺度的Transformer编码成6层的特征金字塔,并且将LSTM与Transformer进行结合,将它们融合可以提供LSTM和Transformer模块所提供的补充历史信息和基于注意力的信息表示,提高了模型能力,还有就是能够解决单个模型在不同大小数据集上性能表现不同的问题,一般LSTM在小数据集上比Transformer表现更好,但Transformer在预训练后表现很突出;步骤50.边界定位与分类在得到6个尺度的金字塔特征之后;对每一个尺度的金字塔特征,分别输入到不同的1D卷积中来获得定位和分类的特征,之后采用分类特征来进行分类,采用定位特征进行边界的回归,在训练分类的过程中采用focal loss进行约束,在训练回归的过程中采用进行约束。
[0006]上述的基于随机帧补帧和注意力的视频交互动作检测方法基础上,步骤30中公式如下:原视频特征向量:;把X分成t/k段:,每个包含k帧;从每个片段中随机取一帧,并复制k次,,代表随机取帧,代表复制k次操作;,代表向量X和经过backbone网络之后的新的特征向量,均方损失函数。
[0007]上述的基于随机帧补帧和注意力的视频交互动作检测方法基础上,在对于提取出来的特征通过Polarized Self

Attention中的Channel

only branch和Spatial

only branch进行操作,Channel

only branch定义如下:,其中是1
×
1卷积层,是即把特征维度由C/2
×
H
×
W改为C/2
×
HW,是算子,X是矩阵点积运算,、和之间的内部通道数是C/2,通道分支的输出是,其
中是通道乘法运算操作符;Spatial

only branch定义如下:,其中是标准的11卷积,是三个,是算子,是全局池化操作符,,空间分支的输出是,其中 是空间乘法运算操作符;通道分支和空间分支的输出在并行布局下组成:。
[0008]上述的基于随机帧补帧和注意力的视频交互动作检测方法基础上,每一个视频损失定义如下:;其中是输入序列的长度。是一个指示函数,表示时间步长t是否在动作范围内,即正样本,是阳性样本总数,应用于输出金字塔上的所有级别,并在训练期间对所有视频样本进行平均,是一个平衡分类损失和回归损失的系数,用于距离回归的一个。
[0009]上述的基于随机帧补帧和注意力的视频交互动作检测方法基础上,金字塔特征采用6层Transformer层获得,每一层由LSTM、局部多头自注意力和MLP块交替层组成,在每个MSA或MLP之前应用LayerNorm,在每个块之后添加残差连接,通道 MLP,它有两个线性层,中间使用GELU激活,使用一个单步深度可分离1D卷积去实现下采样操作,模型为2倍下采样比率,具体公式如下:,,是初始化为0的可学习的每通道缩放因子,是下采样比例。
[0010]本专利技术实施例中,还提供了一种基于随机帧补帧和注意力的视频交互动作检测系统,包括特征提取模块,用于提取全局的时序信息;时序自注意力模块,用于对全局的时序信息进行建模获得了包含多尺度局部信息的特征;随机帧补帧数据增强本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机帧补帧和注意力的视频交互动作检测方法,其特征是:包括以下步骤:步骤10.特征提取网络的选择选择基于Kinetics数据集预训练的I3D网络来进行特征的提取;步骤20.自注意力全局信息建模在步骤10基础网络选择的基础上,对全局的时序信息进行建模,对于I3D网络的输出;用Polarized Self

Attention极化注意力来寻找帧与帧之间的关系并进行加权;在Transformer网络之前加入1D卷;步骤30. 随机帧补帧数据增强在第1步特征网络的输出上,将一个视频分为若干个片段,每个片段中随机取一帧,其它帧与取的帧一样,来形成一个变化较大的新特征向量;把经过backbone的新特征向量与原视频特征向量计算一个mse损失;步骤40.金字塔特征的生成在步骤20步网络的基础上,将通过多尺度信息聚合模块之后的特征通过多尺度的Transformer编码成6层的特征金字塔,并且将LSTM与Transformer进行结合;步骤50.边界定位与分类在得到6个尺度的金字塔特征之后;对每一个尺度的金字塔特征,分别输入到不同的1D卷积中来获得定位和分类的特征,之后采用分类特征来进行分类,采用定位特征进行边界的回归,在训练分类的过程中采用focal loss进行约束,在训练回归的过程中采用进行约束。2.根据权利要求1所述的基于随机帧补帧和注意力的视频交互动作检测方法,其特征是:步骤30中公式如下:原视频特征向量:;把X分成t/k段:,每个包含k帧;从每个片段中随机取一帧,并复制k次,,代表随机取帧,代表复制k次操作;,代表向量和经过backbone网络之后的新的特征向量,均方损失函数。3.根据权利要求1所述的基于随机帧补帧和注意力的视频交互动作检测方法,其特征是:在对于提取出来的特征通过Polarized Self

Attention中的Channel

only branch和Spatial

only branch进行操作,Channel

only branch定义如下:,其中是1
×
1卷积层,是即把特征维度由C/2
×
H
×
W改...

【专利技术属性】
技术研发人员:高文杰高赞周冕赵一博卓涛李志慧程志勇李传森刘冬冬
申请(专利权)人:天津理工大学山东中联视听信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1