【技术实现步骤摘要】
本专利技术属于动作识别的,具体涉及一种基于知识蒸馏的跨架构视频动作识别方法及装置。
技术介绍
1、视频动作识别是视频理解领域最重要的研究内容之一,其处理的数据是一个连续的rgb图像序列。视频动作识别不仅要分析每个视频帧的内容,还需要从视频帧之间的时序变化中挖掘线索,这要求模型能够同时建模局部的空间信息和长距离的时间依赖,因此,基于单架构的方法通常无法充分地捕获视频中的动作特征。现阶段大部分视频动作识别模型都是基于两种网络架构设计的,分别是卷积神经网络(cnn)和视觉transformer。cnn架构的典型代表是3d cnn,它们使用三维卷积作为视频数据的处理单元,以同时处理视频数据的二维空间和一维时间信息。另一方面,基于研究[3]提出的视觉transformer的设计理念,现有技术提出了基于视觉transformer架构的视频动作识别模型,它们利用自注意力机制来建模视频数据的全局时空信息。虽然cnn和视觉transformer架构都能用于视频动作识别任务,但它们有各自的优势和劣势。cnn擅长提取数据的局部特征,但由于有效感受野的限制,它
...【技术保护点】
1.基于知识蒸馏的跨架构视频动作识别方法,其特征在于,包括下述步骤:
2.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法,其特征在于,所述教师模型采用视觉Transformer架构,所述学生模型采用CNN架构。
3.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法,其特征在于,所述获取视频中的原始数据,并对原始数据进行训练,具体为:
4.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法,其特征在于,所述构建互补式特征蒸馏损失,具体为:
5.根据权利要求4所述基于知识蒸馏的跨架构视频动作识别方法,其特征
...【技术特征摘要】
1.基于知识蒸馏的跨架构视频动作识别方法,其特征在于,包括下述步骤:
2.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法,其特征在于,所述教师模型采用视觉transformer架构,所述学生模型采用cnn架构。
3.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法,其特征在于,所述获取视频中的原始数据,并对原始数据进行训练,具体为:
4.根据权利要求1所述基于知识蒸馏的跨架构视频动作识别方法,其特征在于,所述构建互补式特征蒸馏损失,具体为:
5.根据权利要求4所述基于知识蒸馏的跨架构视频动作识别方法,其特征在于,所述计算教师特征对学生特征的交叉注意力,具体为:
6.根据权利要求1所述基于知识蒸馏的跨...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。