基于时空增强三维注意力重参数化的视频分类方法及装置制造方法及图纸

技术编号：39899812 阅读：13 留言：0更新日期：2023-12-30 13:13

本发明专利技术公开了基于时空增强三维注意力重参数化的视频分类方法及装置，将待分类视频的各视频帧在空间上均匀划分为不重叠的块，将各块经过拉伸

全部详细技术资料下载

【技术实现步骤摘要】
基于时空增强三维注意力重参数化的视频分类方法及装置

[0001]本专利技术属于视频分析与模式识别
，尤其涉及基于时空增强三维注意力重参数化的视频分类方法及装置
。

技术介绍

[0002]视频分类任务在机器人
、
人机交互等领域有广泛的应用价值
。
大量基于卷积神经网络的视频分类方法（比如
C3D、I3D
和
SlowFast
等）取得了一定的进展，但它们仍然受到卷积操作缺乏长程建模能力的制约
。
近年来，随着
Transformer
在自然语言处理领域的成功，很多基于
Transformer
的视频分类方法得到了提出
。
比如
TimeSformer
和
ViViT
探索利用空间和时间注意力操作将视频建模解耦为表观和运动建模；
Uniformer
通过在
Transformer
网络的浅层和深层分别学习局部和全局关联关系，以达到运算开销与分类效果的折中；
MViT
则参考卷积神经网络的设计，通过在网络的不同阶段逐渐降低特征的空间维度并增加其通道维度，学习得到多尺度特征金字塔
。
尽管基于
Transformer
的视频分类方法表现出了出色的效果，但是较高的时间复杂度影响限制了其实际应用范围
。
重参数化技术是一种将训练和测试阶段网络结构进行解耦的技术<...

【技术保护点】

【技术特征摘要】
1.
一种基于时空增强三维注意力重参数化的视频分类方法，其特征在于，包括：获取待分类视频，将所述待分类视频的各视频帧在空间上均匀划分为不重叠的块，即令牌，将所述令牌经过维度变换得到特征张量，将所述特征张量通过映射矩阵进行线性映射后叠加位置嵌入向量，得到第一视频特征，其中所述第一视频特征中还包含类别令牌；将所述第一视频特征分别通过
Transformer
网络进行处理，得到第二视频特征，其中所述
Transformer
网络包括若干网络层，每一个网络层均包含一个时空增强三维注意力模块和一个多层感知机，所述时空增强三维注意力模块在网络训练时包含三维注意力操作
、
空间注意力操作和时间注意力操作三个分支，推理时计算等价地退化为三维注意力操作；将所述第二视频特征中的类别令牌利用全连接层进行分类，得到各视频帧的分类结果，将所述各视频帧的分类结果经过时域平均池化操作，得到视频的类别预测结果
。2.
根据权利要求1所述的方法，其特征在于，所述第一视频特征，其中为所述张量，
E
为所述映射矩阵，为所述位置嵌入向量，所述类别令牌连接到上
。3.
根据权利要求1所述的方法，其特征在于，在模型训练过程中：将第
n
层的时空增强三维注意力模块的输入经过嵌入矩阵进行线性映射，得到三维注意力操作的查询张量
、
键张量和值张量；对所述三维注意力操作的查询张量
、
键张量和值张量进行变形操作，对应得到空间注意力操作以及时间注意力操作的查询张量
、
键张量和值张量；由三维注意力操作
、
空间注意力操作和时间注意力操作对应的查询张量和键张量，计算得到各注意力操作的注意力矩阵；将各注意力操作的注意力矩阵经过
Softmax
操作后作用于对应的值张量，并将结果利用可学习的各注意力分支的权重进行加权累加，得到混合注意力操作的结果
。4.
根据权利要求3所述的方法，其特征在于，各注意力操作的注意力矩阵，和通过下式计算：，其中，表示归一化因子，
、、
为三维注意力操作
、
空间注意力操作和时间注意力操作对应的查询张量，
、、
为三维注意力操作
、
空间注意力操作和时间注意力操作对应的键张量
。5.
根据权利要求1所述的方法，其特征在于，在模型推理过程中：将第
n
层的时空增强三维注意力模块的输入经过嵌入矩阵进行线性映射，得到三维注意力操作的查询张量
、
键张量和值张量；由所述三维注意力操作的查询张量
、<...

【专利技术属性】
技术研发人员：卢修生，苏慧，胡丹青，郭蕊，宋明黎，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人