【技术实现步骤摘要】
一种基于语言
‑
视觉对比学习的多模态视频行为识别方法
[0001]本专利技术涉及视频行为识别领域,具体涉及一种基于语言视觉对比学习的多模态视频行为识别方法
。
技术介绍
[0002]近年来,基于卷积神经网络或视觉
Transformer
的视频行为识别模型都取得了极大的发展,被广泛使用
。
然而,这类模型只关注视觉表示,将类别名称转换为矢量标签以简化训练过程,从而忽略了类别名称的语义信息,导致学习到的特征对训练数据类别的依赖性高
、
泛化性差
。
语言视觉对比学习模型的出现给学习泛化性能更强的通用视觉表示带来了希望
。
这类模型保留类别标签的语言描述作为监督信号,将视觉单模态模型拓展到语言视觉多模态架构,在亿级甚至十亿级别的语言图像对上进行自监督训练,以对比学习的方式同时优化语言和视觉编码器
。
然而,由于视频中存在时间信息,而且现有的视频数据集的语言描述缺乏,并不能很好地发挥在语言图像数据上预训练的多模
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于语言视觉对比学习的多模态视频行为识别方法,其特征在于包括:获取视频数据和其对应标签的语言描述,将语言视频数据集分为训练集和测试集,并对视频数据进行抽帧处理;使用对比语言图像预训练模型作为基础网络,对该基础网络进行拓展,构建基于语言视觉对比学习的视频多模态网络;所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类;在所述基础网络的语言分支中插入视觉强化提示模块,在该基础网络的视觉分支中设计两种不同的时序建模方式,其一是在帧级编码器的中间层插入虚拟帧交互模块,其二是在帧级编码器末端插入全局帧融合模块,从而构建出视频多模态网络;使用训练集中的语言和视频数据对视频多模态网络进行迭代训练从而更新该网络参数,该训练过程包括网络特征的前向传播和误差的反向传播;在每次迭代中更新网络参数,每次迭代中进行训练和验证,根据最优验证集精度保存视频多模态网络的最优权重,使用最优权重初始化视频多模态网络,在测试集上对该网络的性能进行评估
。2.
根据权利要求1所述的方法,其特征在于:所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类时:使用余弦相似度的计算过程表示为:其中:
技术研发人员:张建新,张颖,张冰冰,董微,安峰民,张强,
申请(专利权)人:大连民族大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。