【技术实现步骤摘要】
基于标记稀疏的视频动作识别方法
[0001]本专利技术涉及视频动作识别
,具体是一种基于标记稀疏的视频动作识别方法。
技术介绍
[0002]近年来,视觉Transformer因其在主要基准测试上的优越性能而引起了越来越多的关注。Transformer在输入标记上运行,这导致了计算自我注意的二次代价。在图像处理领域,最近的一些方法试图通过学习删除冗余标记来降低Transformer的计算成本,因为Transformer证明了最终的预测仅基于信息最丰富的标记的一个子集。直接将这种想法从图像Transformer推广到视频Transformer是很有吸引力的。然而,这与最近的视频Transformer的设计相冲突,后者以分层的方式处理标记。特别是对于带有卷积模块的Transformer,丢弃标记会破坏网络中特征图的固有大小。
[0003]当前,视觉Transformer在图像领域的巨大成功,激发了一些在视频中进行时空学习的工作。TimeSformer研究了各种自我注意方案,并认为因子化的时空注意力对于视频识别是最有效 ...
【技术保护点】
【技术特征摘要】
1.一种基于标记稀疏的视频动作识别方法,其特征在于,选择网络以动态的方式确定哪些标记被选择用于Transformer块的动态方式,选择网络是一个单层的感知器,预测每个标记的重要性分数并可以插入到任何Transformer块中,在训练过程中应用了Gumbel
‑
Softmax,以使整个框架成为端点,使整个框架具有端到端的可训练的,具体包括以下步骤:1)给定一个输入标记的序列,采用线性层为每个标记生成一个重要性分数;2)使用Gumbel
‑
Softmax从得分网络的输出中抽样;3)设计一种掩码策略来消除被丢弃的标记的影响;4)对于修剪后的标记,采用线性投影来保持标记数不变,在推理过程中,根据预测模块产生的概率将标记分为两组,使用自注意和线性投影来处理这两组标记,以保持特征结构;5)在前馈网络中引入非对称计算,保持混合子层的输入结构不变。2.如权利要求1所述的基于标记稀疏的视频动作识别方法,其特征在于,给定第l块的输入Z
l
,该块的选择策略得分计算为:Score=Z
l
W
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中W表示投影权重。该分数进一步通过一个Sigmiod函数获得对应标记的概率。3.如权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。