当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于多模态大模型CLIP的视频动作识别方法及装置制造方法及图纸

技术编号:41279642 阅读:41 留言:0更新日期:2024-05-11 09:30
本发明专利技术公开一种基于多模态大模型CLIP的视频动作识别方法及装置,该方法包括:基于给定的动作类别和视频序列,首先使用词向量模型和分割图像块提取相应的语言和视频信息;其次,基于提示调整结构以及可训练轻量级瓶颈模块适配器调整CLIP的图像编码器和文本编码器,提取语言和视频帧特征;进一步,使用时序差分注意力模块充分挖掘视频帧时序间的特征;最后,对比视频特征和类别编码特征,粗细粒度地计算两者之间的相似性得分,选择得分最高动作类别作为预测结果。本发明专利技术通过微调结构的设计,能有效提高判断视频动作类别的性能以及网络模型的泛用性,满足现实生活中复杂场景的视频动作识别需求。

【技术实现步骤摘要】

本专利技术涉及一种视频动作识别,尤其涉及一种基于多模态大模型clip的视频动作识别方法及装置。


技术介绍

1、视频动作识别是计算机视觉领域的重要研究主题,该任务旨在自动检测和识别视频中的人体动作或行为,在各领域应用广泛。随着深度神经网络的发展,动作识别取得显著进展,包括传统双流模型、3d卷积神经网络和基于transformer的方法。现有方法中的封闭集分类方案在实际应用中面临挑战,难以识别未见类别或在少样本学习中表现较差。视觉—语言模型能有效增强模型泛化能力,并且由于视觉—语言模型的多模态性质引起了学术界和工业界的广泛关注,如何将大规模的视觉-语言预训练模型如clip转移到视频理解任务成为了关注的焦点。

2、由于该任务涉及基于clip来做视频动作识别,但是clip模型参数量庞大,直接从零开始训练模型效率低下,因此目前已有的方法采用预训练模型微调的方式,微调clip模型存在以下问题亟待解决:(1)完全微调clip模型(即在训练期间更新所有模型参数)不可避免地会产生显著的内存和计算成本,并且可能导致灾难性的遗忘;(2)在对下游视频动作识别任务进行端本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型CLIP的视频动作识别方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述一种基于多模态大模型CLIP的视频动作识别方法,其特征在于,所述步骤S1中,对于长为H,宽为W的视频帧,分割成边长为P的等大的HW/P2个非重叠正方形图形块,在每个帧的嵌入序列开头位置添加一个可学习的类别标记。

3.根据权利要求1所述一种基于多模态大模型CLIP的视频动作识别方法,其特征在于,所述步骤S2中,对于类别标签,使用文本类别模版生成“a photo ofa{c}”的文本描述。

4.根据权利要求1所述一种基于多模态大模型CLIP的视频动作...

【技术特征摘要】

1.一种基于多模态大模型clip的视频动作识别方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述一种基于多模态大模型clip的视频动作识别方法,其特征在于,所述步骤s1中,对于长为h,宽为w的视频帧,分割成边长为p的等大的hw/p2个非重叠正方形图形块,在每个帧的嵌入序列开头位置添加一个可学习的类别标记。

3.根据权利要求1所述一种基于多模态大模型clip的视频动作识别方法,其特征在于,所述步骤s2中,对于类别标签,使用文本类别模版生成“a photo ofa{c}”的文本描述。

4.根据权利要求1所述一种基于多模态大模型clip的视频动作识别方法,其特征在于,所述步骤s3包括以下子步骤:

5.根据权利要求1所述一种基于多模态大模型clip的视频动作识别方法,其特征在于,所述步骤s4具体过程如下:

6.根据权利要求l所述一种基于多模...

【专利技术属性】
技术研发人员:汪雯张勇李梦泽
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1