【技术实现步骤摘要】
本专利技术涉及一种视频动作识别,尤其涉及一种基于多模态大模型clip的视频动作识别方法及装置。
技术介绍
1、视频动作识别是计算机视觉领域的重要研究主题,该任务旨在自动检测和识别视频中的人体动作或行为,在各领域应用广泛。随着深度神经网络的发展,动作识别取得显著进展,包括传统双流模型、3d卷积神经网络和基于transformer的方法。现有方法中的封闭集分类方案在实际应用中面临挑战,难以识别未见类别或在少样本学习中表现较差。视觉—语言模型能有效增强模型泛化能力,并且由于视觉—语言模型的多模态性质引起了学术界和工业界的广泛关注,如何将大规模的视觉-语言预训练模型如clip转移到视频理解任务成为了关注的焦点。
2、由于该任务涉及基于clip来做视频动作识别,但是clip模型参数量庞大,直接从零开始训练模型效率低下,因此目前已有的方法采用预训练模型微调的方式,微调clip模型存在以下问题亟待解决:(1)完全微调clip模型(即在训练期间更新所有模型参数)不可避免地会产生显著的内存和计算成本,并且可能导致灾难性的遗忘;(2)在对下游视
...【技术保护点】
1.一种基于多模态大模型CLIP的视频动作识别方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述一种基于多模态大模型CLIP的视频动作识别方法,其特征在于,所述步骤S1中,对于长为H,宽为W的视频帧,分割成边长为P的等大的HW/P2个非重叠正方形图形块,在每个帧的嵌入序列开头位置添加一个可学习的类别标记。
3.根据权利要求1所述一种基于多模态大模型CLIP的视频动作识别方法,其特征在于,所述步骤S2中,对于类别标签,使用文本类别模版生成“a photo ofa{c}”的文本描述。
4.根据权利要求1所述一种基于多模态大模
...【技术特征摘要】
1.一种基于多模态大模型clip的视频动作识别方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述一种基于多模态大模型clip的视频动作识别方法,其特征在于,所述步骤s1中,对于长为h,宽为w的视频帧,分割成边长为p的等大的hw/p2个非重叠正方形图形块,在每个帧的嵌入序列开头位置添加一个可学习的类别标记。
3.根据权利要求1所述一种基于多模态大模型clip的视频动作识别方法,其特征在于,所述步骤s2中,对于类别标签,使用文本类别模版生成“a photo ofa{c}”的文本描述。
4.根据权利要求1所述一种基于多模态大模型clip的视频动作识别方法,其特征在于,所述步骤s3包括以下子步骤:
5.根据权利要求1所述一种基于多模态大模型clip的视频动作识别方法,其特征在于,所述步骤s4具体过程如下:
6.根据权利要求l所述一种基于多模...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。