当前位置: 首页 > 专利查询>之江实验室专利>正文

基于时空增强三维注意力重参数化的视频分类方法及装置制造方法及图纸

技术编号:39899812 阅读:13 留言:0更新日期:2023-12-30 13:13
本发明专利技术公开了基于时空增强三维注意力重参数化的视频分类方法及装置,将待分类视频的各视频帧在空间上均匀划分为不重叠的块,将各块经过拉伸

【技术实现步骤摘要】
基于时空增强三维注意力重参数化的视频分类方法及装置


[0001]本专利技术属于视频分析与模式识别
,尤其涉及基于时空增强三维注意力重参数化的视频分类方法及装置


技术介绍

[0002]视频分类任务在机器人

人机交互等领域有广泛的应用价值

大量基于卷积神经网络的视频分类方法(比如
C3D、I3D

SlowFast
等)取得了一定的进展,但它们仍然受到卷积操作缺乏长程建模能力的制约

近年来,随着
Transformer
在自然语言处理领域的成功,很多基于
Transformer
的视频分类方法得到了提出

比如
TimeSformer

ViViT
探索利用空间和时间注意力操作将视频建模解耦为表观和运动建模;
Uniformer
通过在
Transformer
网络的浅层和深层分别学习局部和全局关联关系,以达到运算开销与分类效果的折中;
MViT
则参考卷积神经网络的设计,通过在网络的不同阶段逐渐降低特征的空间维度并增加其通道维度,学习得到多尺度特征金字塔

尽管基于
Transformer
的视频分类方法表现出了出色的效果,但是较高的时间复杂度影响限制了其实际应用范围

重参数化技术是一种将训练和测试阶段网络结构进行解耦的技术<br/>。ACNet、RepVGG

RepMLP
等工作将重参数化技术与卷积神经网络和多层感知机相结合,针对图像分类任务在提升网络训练效果的同时,保持了模型测试时的运算开销,但是在视频分类任务上重参数化技术尚未得到有效应用


技术实现思路

[0003]本专利技术为了解决上述技术问题,提供基于时空增强三维注意力重参数化的视频分类方法及装置

[0004]根据本申请实施例的第一方面,提供一种基于时空增强三维注意力重参数化的视频分类方法,包括:
[0005]获取待分类视频,将所述待分类视频的各视频帧在空间上均匀划分为不重叠的块,即令牌,将所述令牌经过维度变换得到特征张量,将所述特征张量通过映射矩阵进行线性映射后叠加位置嵌入向量,得到第一视频特征,其中所述第一视频特征中还包含类别令牌;
[0006]将所述第一视频特征分别通过
Transformer
网络进行处理,得到第二视频特征,其中所述
Transformer
网络包括若干网络层,每一个网络层均包含一个时空增强三维注意力模块和一个多层感知机,所述时空增强三维注意力模块在网络训练时包含三维注意力操作

空间注意力操作和时间注意力操作三个分支,推理时计算等价地退化为三维注意力操作;
[0007]将所述第二视频特征中的类别令牌利用全连接层进行分类,得到各视频帧的分类结果,将所述各视频帧的分类结果经过时域平均池化操作,得到视频的类别预测结果

[0008]进一步地,所述第一视频特征,其中为所述张量,
E
为所述映射矩阵,为所述位置嵌入向量,所述类别令牌连接到上

[0009]进一步地,在模型训练过程中:
[0010]将第
n
层的时空增强三维注意力模块的输入经过嵌入矩阵进行线性映射,得到三维注意力操作的查询张量

键张量和值张量;
[0011]对所述三维注意力操作的查询张量

键张量和值张量进行变形操作,对应得到空间注意力操作以及时间注意力操作的查询张量

键张量和值张量;
[0012]由三维注意力操作

空间注意力操作和时间注意力操作对应的查询张量和键张量,计算得到各注意力操作的注意力矩阵;
[0013]将各注意力操作的注意力矩阵经过
Softmax
操作后作用于对应的值张量,并将结果利用可学习的各注意力分支的权重进行加权累加,得到混合注意力操作的结果

[0014]进一步地,各注意力操作的注意力矩阵,和通过下式计算:
[0015][0016]其中,表示归一化因子,
、、
为三维注意力操作

空间注意力操作和时间注意力操作对应的查询张量,
、、
为三维注意力操作

空间注意力操作和时间注意力操作对应的键张量

[0017]进一步地,在模型推理过程中:
[0018]将第
n
层的时空增强三维注意力模块的输入经过嵌入矩阵进行线性映射,得到三维注意力操作的查询张量

键张量和值张量;
[0019]由所述三维注意力操作的查询张量

键张量,计算三维注意力操作的注意力矩阵;
[0020]从所述三维注意力操作的注意力矩阵中,提取空间注意力和时间注意力操作的注意力矩阵;
[0021]将所述空间注意力操作和时间注意力操作的注意力矩阵与三维注意力操作的注意力矩阵对齐到相同维度,将对齐后的各注意力操作的注意力矩阵经过
Softmax
操作后,利用训练阶段学习到的各注意力分支的权重进行加权累加,将累加结果作用于三维注意力操作的值张量,得到混合注意力操作的结果;或,
[0022]将所述空间注意力操作和时间注意力操作的注意力矩阵经过
Softmax
操作后,利用训练阶段学习到的各注意力分支的权重,加权叠加到经过
Softmax
操作的三维注意力操作的注意力矩阵的相应区域,然后将累加结果作用于三维注意力操作的值张量,得到混合注意力操作的结果

[0023]进一步地,由所述三维注意力操作的查询张量

键张量,通过下式计算三维注意力操作的注意力矩阵:
[0024][0025]其中表示归一化因子

[0026]进一步地,经过维度扩张操作,即对扩张区域补零,将空间注意力操作和时间注意力操作的注意力矩阵对齐到与三维注意力操作的注意力矩阵相同维度

[0027]根据本申请实施例的第二方面,提供一种基于时空增强三维注意力重参数化的视频分类装置,包括:
[0028]特征获取模块,用于获取待分类视频,将所述待分类视频的各视频帧在空间上均匀划分为不重叠的块,即令牌,将所述令牌经过维度变换得到特征张量,将所述特征张量通
过映射矩阵进行线性映射后叠加位置嵌入向量,得到第一视频特征,其中所述第一视频特征中还包含类别令牌;
[0029]特征转换模块,用于将所述第一视频特征分别通过
Transformer
网络进行处理,得到第二视频特征,其中所述
Transfo本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于时空增强三维注意力重参数化的视频分类方法,其特征在于,包括:获取待分类视频,将所述待分类视频的各视频帧在空间上均匀划分为不重叠的块,即令牌,将所述令牌经过维度变换得到特征张量,将所述特征张量通过映射矩阵进行线性映射后叠加位置嵌入向量,得到第一视频特征,其中所述第一视频特征中还包含类别令牌;将所述第一视频特征分别通过
Transformer
网络进行处理,得到第二视频特征,其中所述
Transformer
网络包括若干网络层,每一个网络层均包含一个时空增强三维注意力模块和一个多层感知机,所述时空增强三维注意力模块在网络训练时包含三维注意力操作

空间注意力操作和时间注意力操作三个分支,推理时计算等价地退化为三维注意力操作;将所述第二视频特征中的类别令牌利用全连接层进行分类,得到各视频帧的分类结果,将所述各视频帧的分类结果经过时域平均池化操作,得到视频的类别预测结果
。2.
根据权利要求1所述的方法,其特征在于,所述第一视频特征,其中为所述张量,
E
为所述映射矩阵,为所述位置嵌入向量,所述类别令牌连接到上
。3.
根据权利要求1所述的方法,其特征在于,在模型训练过程中:将第
n
层的时空增强三维注意力模块的输入经过嵌入矩阵进行线性映射,得到三维注意力操作的查询张量

键张量和值张量;对所述三维注意力操作的查询张量

键张量和值张量进行变形操作,对应得到空间注意力操作以及时间注意力操作的查询张量

键张量和值张量;由三维注意力操作

空间注意力操作和时间注意力操作对应的查询张量和键张量,计算得到各注意力操作的注意力矩阵;将各注意力操作的注意力矩阵经过
Softmax
操作后作用于对应的值张量,并将结果利用可学习的各注意力分支的权重进行加权累加,得到混合注意力操作的结果
。4.
根据权利要求3所述的方法,其特征在于,各注意力操作的注意力矩阵,和通过下式计算:,其中,表示归一化因子,
、、
为三维注意力操作

空间注意力操作和时间注意力操作对应的查询张量,
、、
为三维注意力操作

空间注意力操作和时间注意力操作对应的键张量
。5.
根据权利要求1所述的方法,其特征在于,在模型推理过程中:将第
n
层的时空增强三维注意力模块的输入经过嵌入矩阵进行线性映射,得到三维注意力操作的查询张量

键张量和值张量;由所述三维注意力操作的查询张量
、<...

【专利技术属性】
技术研发人员:卢修生苏慧胡丹青郭蕊宋明黎
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1