基于Transformer的视频多标签动作识别方法技术

技术编号：30963539 阅读：24 留言：0更新日期：2021-11-25 20:28

本发明专利技术公开了一种基于Transformer的视频多标签动作识别方法，具体为：对提取的长视频的特征序列进行降维处理得到新的特征序列F，将特征序列F与预设第一权重矩阵W相乘得到特征序列V，将V中每个元素对应的视频帧的时序位置进行编码，得到编码矩阵P；将V和P输入至Transformer编码器得到序列V

全部详细技术资料下载

【技术实现步骤摘要】
基于Transformer的视频多标签动作识别方法

[0001]本专利技术属于计算机视觉领域。

技术介绍

[0002]随着视频检索、人机交互、视频监控、数字娱乐等应用的发展，视频理解和视频动作识别也占据着越来越重要的地位。视频动作识别的方法可以大体概括为两步：1)提取视频特征；2)将视频特征输入到分类器中得到各个标签的概率分布，概率最大的标签就是所输入视频的预测标签。
[0003]传统的视频识别方法通过改进后的密集轨迹方法(iDT)对视频特征进行提取，并且通过费舍尔(Fisher)编码方式将视频帧变为相同维度的向量，将视频特征向量输入到支持向量机(SVM)中得到概率分布。后来随着CNN的出现，视频领域也出现了3D
‑
CNN，对视频的空间上和时间上都进行卷积操作从而提取出视频的特征，再输入到SVM中，这些视频识别方法在较短和内容简单的数据集上取得了不错的效果，例如UCF101和Weziman数据集。但是在类似于HollyWood2这种以电影片段为主的多动作的复杂视频数据集上，所取得的效果就很差。
[0004]在现实生活场景中，所获得的视频大多都是时间较长，且视频内容比较复杂的，因此近些年来，人们也致力于多动作的复杂视频动作识别研究。典型的复杂视频动作识别方法有单镜头动作检测器(SSAD)、时态分割网络(TSN)、慢速网络(SlowFast Network)、高效卷积网络(ECO)等。这一类方法不仅需要消耗大量的训练时间且大多只是通过单个标签对一段视频进行描述，最后再通过单标签分类对视频...

【技术保护点】

【技术特征摘要】
1.基于Transformer的视频多标签动作识别方法，其特征在于，具体包括如下步骤：步骤1：采用3D
‑
CNN的方法提取长视频的特征序列，特征序列中第i个特征向量对应在长视频中时序位置为i的视频帧；i＝1，2，...，m，m为特征序列中特征向量的总个数，步骤2：对特征序列进行降维处理，得到新的特征序列F；步骤3：将新的特征序列F与预设第一权重矩阵W相乘得到特征序列V，V＝{v1，v2，...，v
i
，...，v
m
}，其中v
i
为V中第i个元素；步骤4：对V中每个元素对应的视频帧在长视频中的时序位置进行编码得到位置编码矩阵P＝{p1，p2，...，p
i
...，p
m
}，p
i
为P中第i个元素；步骤5：将步骤3得到的特征序列V和位置编码矩阵P分别作为Transformer编码器的输入，得到Transformer编码器输出的序列V
′
＝{v
′1，v
′2，...，v
′
i
，...，v
′
m
}，v
′
i
为V
′
中第i个元素；步骤6：根据V
′
提取长视频中关键动作的开始帧和结束帧，将V
′
中与开始帧对应的元素作为开始元素v
′
start
；将V
′
中与结束帧对应的元素作为结束元素v
′
end
；步骤7：采用预设的序列作为开始标记，将开始标记与位置编码矩阵P分别作为Transformer解码器的输入；步骤8：将v
′
start
，v
′
end
以及V
′
中位于v
′
start
和v
′
end
之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列将乘以预设的第二权重矩阵得到矩阵K，将乘以预设的第三权重矩阵得...

【专利技术属性】
技术研发人员：周志立，董晓华，王美民，吉千凡，王梓淇，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人