基于Transformer的视频多标签动作识别方法技术

技术编号:30963539 阅读:24 留言:0更新日期:2021-11-25 20:28
本发明专利技术公开了一种基于Transformer的视频多标签动作识别方法,具体为:对提取的长视频的特征序列进行降维处理得到新的特征序列F,将特征序列F与预设第一权重矩阵W相乘得到特征序列V,将V中每个元素对应的视频帧的时序位置进行编码,得到编码矩阵P;将V和P输入至Transformer编码器得到序列V

【技术实现步骤摘要】
基于Transformer的视频多标签动作识别方法


[0001]本专利技术属于计算机视觉领域。

技术介绍

[0002]随着视频检索、人机交互、视频监控、数字娱乐等应用的发展,视频理解和视频动作识别也占据着越来越重要的地位。视频动作识别的方法可以大体概括为两步:1)提取视频特征;2)将视频特征输入到分类器中得到各个标签的概率分布,概率最大的标签就是所输入视频的预测标签。
[0003]传统的视频识别方法通过改进后的密集轨迹方法(iDT)对视频特征进行提取,并且通过费舍尔(Fisher)编码方式将视频帧变为相同维度的向量,将视频特征向量输入到支持向量机(SVM)中得到概率分布。后来随着CNN的出现,视频领域也出现了3D

CNN,对视频的空间上和时间上都进行卷积操作从而提取出视频的特征,再输入到SVM中,这些视频识别方法在较短和内容简单的数据集上取得了不错的效果,例如UCF101和Weziman数据集。但是在类似于HollyWood2这种以电影片段为主的多动作的复杂视频数据集上,所取得的效果就很差。
[0004]在现实生活场景中,所获得的视频大多都是时间较长,且视频内容比较复杂的,因此近些年来,人们也致力于多动作的复杂视频动作识别研究。典型的复杂视频动作识别方法有单镜头动作检测器(SSAD)、时态分割网络(TSN)、慢速网络(SlowFast Network)、高效卷积网络(ECO)等。这一类方法不仅需要消耗大量的训练时间且大多只是通过单个标签对一段视频进行描述,最后再通过单标签分类对视频动作进行识别,但是在实际应用场景中,我们很难用一个标签去准确的描述整段视频,例如这样一个镜头:一个人在坐着说话,如果选择单标签分类的话,我们可以将这段视频中的动作描述为“坐”,但是也可以将动作描述为“说话”,因此多标签分类被应用在了视频领域上。虽然已经产生了很多视频多标签分类的方法,但是大多数方法都忽略了标签与标签之间所存在的依赖关系。
[0005]综上所述,我们知道目前为止,视频动作识别技术所面临的主要难题为:
[0006]1)现有动作识别方法大多只用单个标签描述视频,不符合实际应用场景;
[0007]2)现有多标签分类方法大多没有考虑标签与标签之间的依赖关系;
[0008]3)现有模型需要消耗大量的时间进行训练。

技术实现思路

[0009]专利技术目的:为了解决上述现有技术存在的问题,本专利技术提供了一种基于Transformer的视频多标签动作识别方法。
[0010]技术方案:本专利技术提供了一种基于Transformer的视频多标签动作识别方法,具体包括如下步骤:
[0011]步骤1:采用3D

CNN的方法提取长视频的特征序列,特征序列中第i个特征向量对应在长视频中时序位置为i的视频帧;i=1,2,...,m,m为特征序列中特征向量的总个数,
[0012]步骤2:对特征序列进行降维处理,得到新的特征序列F;
[0013]步骤3:将特征序列F与预设第一权重矩阵W相乘得到特征序列V,V={v1,v2,...,v
i
,...,v
m
},其中v
i
为V中第i个元素;
[0014]步骤4:对V中每个元素对应的视频帧在长视频中的时序位置进行编码得到位置编码矩阵P={p1,p2,...,p
i
,...,p
m
},p
i
为P中第i个元素;
[0015]步骤5:将步骤3得到的特征序列V和位置编码矩阵P分别作为Transformer编码器的输入,得到Transformer编码器输出的序列V

={v
′1,v
′2,...,v

i
,...,v

m
},v

i
为V

中第i个元素;
[0016]步骤6:根据V

提取长视频中关键动作的开始帧和结束帧,将V

中与开始帧对应的元素作为开始元素v

start
;V

中与结束帧对应的元素作为结束元素v

end

[0017]步骤7:采用预设的序列作为开始标记,将开始标记与位置编码矩阵P分别作为Transformer解码器的输入;
[0018]步骤8:将v

start
,v

end
以及V

中位于v

start
和v

end
之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列将乘以预设的第二权重矩阵得到矩阵K,将乘以预设的第三权重矩阵得到矩阵K

;将矩阵K和矩阵K

输入至Transformer解码器中Muti

head Attention层;
[0019]步骤9:Transformer解码器输出长视频中关键动作的所有分类标签。
[0020]进一步的,采用教师网络,通过知识蒸馏的方式对Transformer编码器和Transformer解码器进行训练。
[0021]进一步的,所述步骤4中根据如下公式计算得到p
i

[0022][0023]其中,M为V中每个元素的维度,且M为偶数。
[0024]进一步的,所述步骤6中根据V

提取长视频中关键动作的开始帧和结束帧具体为:设置第一网络模型和第二网络模型;所述第一网络模型和第二网络模型的结构相同均包括相互连接的点乘模块和softmax模块,将第一网络模型和第二网络模型均作为学生网络,采用教师网络分别对第一网络模型和第二网络模型进行训练;得到第一网络模型的权重向量S和第二网络模型的权重向量E;
[0025]将序列V

输入至训练好的第一网络模型,点乘模块将V

中的元素与权重向量S进行点乘得到向量A={a1,a2,...,a
i
,...,a
m
},其中a
i
=v

i
·
S;将向量A输入至softmax模块根据如下公式计算A中每个元素的概率,并选择概率最大的元素对应的视频帧作为开始帧:
[0026][0027]其中exp(
·
)表示e
(
·
)

[0028]将序列V

输入至第二网络模型中,点乘模块将V

中的元素与权重向量E进行点乘得到向量A

;将向量A

输入至softmax模块计算A

中每个元素的概率,并选择概率最大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Transformer的视频多标签动作识别方法,其特征在于,具体包括如下步骤:步骤1:采用3D

CNN的方法提取长视频的特征序列,特征序列中第i个特征向量对应在长视频中时序位置为i的视频帧;i=1,2,...,m,m为特征序列中特征向量的总个数,步骤2:对特征序列进行降维处理,得到新的特征序列F;步骤3:将新的特征序列F与预设第一权重矩阵W相乘得到特征序列V,V={v1,v2,...,v
i
,...,v
m
},其中v
i
为V中第i个元素;步骤4:对V中每个元素对应的视频帧在长视频中的时序位置进行编码得到位置编码矩阵P={p1,p2,...,p
i
...,p
m
},p
i
为P中第i个元素;步骤5:将步骤3得到的特征序列V和位置编码矩阵P分别作为Transformer编码器的输入,得到Transformer编码器输出的序列V

={v
′1,v
′2,...,v

i
,...,v

m
},v

i
为V

中第i个元素;步骤6:根据V

提取长视频中关键动作的开始帧和结束帧,将V

中与开始帧对应的元素作为开始元素v

start
;将V

中与结束帧对应的元素作为结束元素v

end
;步骤7:采用预设的序列作为开始标记,将开始标记与位置编码矩阵P分别作为Transformer解码器的输入;步骤8:将v

start
,v

end
以及V

中位于v

start
和v

end
之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列将乘以预设的第二权重矩阵得到矩阵K,将乘以预设的第三权重矩阵得...

【专利技术属性】
技术研发人员:周志立董晓华王美民吉千凡王梓淇
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1