序列视频中无对齐文本的弱监督视频表示学习方法技术

技术编号:37459642 阅读:18 留言:0更新日期:2023-05-06 09:32
本发明专利技术公开一种序列视频中无对齐文本的弱监督视频表示学习方法,其特征在于,包括以下步骤:获得帧特征、视频整体特征、句子特征和段落特征;使用多粒度对比学习损失函数来限制帧特征、视频整体特征、句子特征和段落特征,多粒度对比学习损失函数包括粗粒度的损失函数以及细粒度的损失函数。本发明专利技术提出了针对连续视频提出了一种新的具有未对齐文本的弱监督视频表征学习框架,并引入了多粒度对比损失来约束该网络模型,使得模型充分考虑了帧和句子之间的伪时间对齐,可以学习强大的具有语义的视频文本对表征。本发明专利技术提供的模型还展现出对下游任务的强大泛化能力,例如步骤级视频序列验证和文本到视频的匹配。验证和文本到视频的匹配。验证和文本到视频的匹配。

【技术实现步骤摘要】
序列视频中无对齐文本的弱监督视频表示学习方法


[0001]本专利技术涉及一种弱监督的视频表征学习方法,主要被用于计算机视觉中的序列视频中无对齐文本的问题。

技术介绍

[0002]序列视频理解作为一种新兴的视频理解任务,由于其面向目标的性质,已经引起了许多研究者的关注。
[0003]一个强大的人工智能(AI)系统预计能够以一种具体的方式从开放世界学习知识,从而为环境中的强化学习设计大量的目标导向任务。除了典型的视频理解任务,通常描述如何在特定程序序列中执行任务的连续视频,可以被视为目标导向任务,对于指导智能学习像人类一样的任务非常有希望,它使执行顺序视频表示成为实现强大AI的潜在关键部分。
[0004]现有一些工作已经为顺序视频的视频表示学习做出了一些努力。然而,这些方法严重依赖于时间边界的注释,即连续动作的时间戳,由于实践中耗时的人为标记,通常很难获得时间戳。一个常见但经常被忽视的场景是,连续视频通常伴随着音频或文本叙述出现,这些叙述显示了与解释一致的步骤。富文本信息详细描述了相应的过程,它们通常不与视频对齐。因此,我们研究以弱监督的方式直接学习具有未对齐文本和视频的视频表示。
[0005]随着视觉语言任务的普及,多模态学习已引起越来越多的关注,并在许多领域进行了探索,例如图像分类、对象检测和视频理解。最具代表性的作品之一是CLIP,它显示了从自然语言监督中学习强大语义表示的潜力,具有对比学习损失和对下游任务的强大兼容能力,如文本视频检索、动作分割和动作步骤定位。Video CLIP提出了一种对比学习方法,以预训练具有视频文本对的统一模型,提出了一个统一的完全时间戳监督框架,用于多模型动作分割。这为我们提供了弱监督视频表征学习的替代方案。然而,所有这些以前的作品都配有对齐的文本和视频帧,这在我们的弱监督的环境中是奇缺的。因此,很难将现有的多模态视频表示模型直接适应我们的任务。

技术实现思路

[0006]本专利技术的目的是:解决文本和视频之间的不对齐问题并学习令人满意的视频表征。
[0007]为了达到上述目的,本专利技术的技术方案是提供了一种序列视频中无对齐文本的弱监督视频表示学习方法,其特征在于,包括以下步骤:
[0008]步骤1、对从未修剪的连续视频进行采样,将采样得到的视频帧馈送到视觉模型中获得帧特征,然后融合帧特征后得到视频整体特征;
[0009]将与连续视频对应的序列步骤文本的句子和由句子组成的段落分别输入到预先训练的语言模型中,得到句子特征和段落特征;
[0010]步骤2、使用多粒度对比学习损失函数来限制帧特征、视频整体特征、句子特征和
段落特征,多粒度对比学习损失函数包括粗粒度的损失函数以及细粒度的损失函数,其中:
[0011]粗粒度的损失函数的输入为视频整体特征和段落特征,用于限制视频更接近描述它的文本序列,而远离其他不相关文本;
[0012]通过细粒度的损失函数引导网络关注序列视频中的细粒度动作匹配。
[0013]优选地,步骤1中,采用CLIP模型的视觉模块和语言模块分别作为所述视觉模型和所述语言模型。
[0014]优选地,步骤1中,所述序列步骤文本为多个描述动作的句子,句子的内容和顺序代表了所述连续视频中动作内容和发生顺序。
[0015]优选地,步骤2中,所述粗粒度的损失函数为InfoNCE函数。
[0016]优选地,步骤2中,所述细粒度的损失函数的实现包括以下步骤:
[0017]步骤201、计算视频中的帧特征和对应标注文本的句子特征的相似度,以得到视频帧和句子间的相似度矩阵,将该相似度矩阵作为Gumbel

Softmax函数的输入,Gumbel

Softmax函数将相似度矩阵中的值视为样本分布概率,并以此进行离散的采样,获得概率样本;
[0018]步骤202、使用最大索引排序法、维特比算法或者切分法分析处理得到的相似度矩阵和概率样本以实现细粒度的损失函数。
[0019]优选地,步骤202中,所述最大索引排序法的实现包括以下步骤:
[0020]将概率样本按照其索引号进行先后排序,然后将其直接作为真实值,而将相似度矩阵作为预测值,通过交叉熵损失函数计算网络误差,并通过反向传播优化网络。
[0021]优选地,步骤202中,所述维特比算法的实现包括以下步骤:
[0022]将得到的视频帧与句子间的相似度矩阵作为维特比算法中的概率转移矩阵,其他参数保持默认,得到该概率转移矩阵的最大概率转移路径;将最大概率转移路径作为真实值,将相似度矩阵作为预测值,通过交叉熵损失函数计算网络误差,并通过反向传播优化网络。
[0023]优选地,步骤202中,所述切分法的实现包括以下步骤:
[0024]平均地划分视频帧和句子的相似度矩阵,保证其为方阵;然后将所获得方阵的对角线值作为真实值,将重新划分后的相似度矩阵作为预测值;最后,使用交叉熵损失函数计算网络误差,并通过反向传播优化网络。
[0025]本专利技术提出了针对连续视频提出了一种新的具有未对齐文本的弱监督视频表征学习框架,并引入了多粒度对比损失来约束该网络模型,包括粗粒度损失和细粒度损失,通过一种新的方法来实现框架和句子之间的时间对齐,使得模型充分考虑了帧和句子之间的伪时间对齐,可以学习强大的具有语义的视频文本对表征。本专利技术提供的模型还展现出对下游任务的强大泛化能力,例如步骤级视频序列验证和文本到视频的匹配。
附图说明
[0026]图1展示了本专利技术提出的用于学习视频表征的神经网络框架。我们的框架由三个部分组成:视觉模型、语言模型和多粒度损失函数。我们将从未修剪的连续视频中采样的帧馈送到视觉模型中以获得帧特征,然后融合帧特征后得到视频整体特征。我们将序列步骤文本的句子和由句子组成的段落分别输入到预先训练的语言模型中,以得到句子特征和段
落特征。最后,使用我们提出多粒度对比学习损失函数来限制跨网络模型空间中的视觉和文本特征。
[0027]图2展示了CSV数据集测试结果。
具体实施方式
[0028]下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0029]本实施例公开的一种序列视频中无对齐文本的弱监督视频表示学习方法首先从基于CLIP的视觉语言模型中提取视频和文本特征,并设计全局对比损失来约束完整的视频段落对齐。
[0030]具体而言,本实施例所使用的数据集中的一个序列动作视频对应的标注文本为多个描述动作的句子,句子的内容和顺序代表了视频中动作内容和发生顺序。我们使用了原始的CLIP模型的视觉模块和语言模块分别作为我们的视觉模型和语言模型。
[0031]首先,为了提取不同粒度的视觉特征,即帧特征和视频整体特征,我们将原始视频均匀切本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种序列视频中无对齐文本的弱监督视频表示学习方法,其特征在于,包括以下步骤:步骤1、对从未修剪的连续视频进行采样,将采样得到的视频帧馈送到视觉模型中获得帧特征,然后融合帧特征后得到视频整体特征;将与连续视频对应的序列步骤文本的句子和由句子组成的段落分别输入到预先训练的语言模型中,得到句子特征和段落特征;步骤2、使用多粒度对比学习损失函数来限制帧特征、视频整体特征、句子特征和段落特征,多粒度对比学习损失函数包括粗粒度的损失函数以及细粒度的损失函数,其中:粗粒度的损失函数的输入为视频整体特征和段落特征,用于限制视频更接近描述它的文本序列,而远离其他不相关文本;通过细粒度的损失函数引导网络关注序列视频中的细粒度动作匹配。2.如权利要求1所述的一种序列视频中无对齐文本的弱监督视频表示学习方法,其特征在于,步骤1中,采用CLIP模型的视觉模块和语言模块分别作为所述视觉模型和所述语言模型。3.如权利要求1所述的一种序列视频中无对齐文本的弱监督视频表示学习方法,其特征在于,步骤1中,所述序列步骤文本为多个描述动作的句子,句子的内容和顺序代表了所述连续视频中动作内容和发生顺序。4.如权利要求1所述的一种序列视频中无对齐文本的弱监督视频表示学习方法,其特征在于,步骤2中,所述粗粒度的损失函数为InfoNCE函数。5.如权利要求1所述的一种序列视频中无对齐文本的弱监督视频表示学习方法,其特征在于,步骤2中,所述细粒度的损失函数的实现包括以下步骤:步骤201、计算视频中的帧特征和对应标注文本的句子特征的相似度,以得到视频帧和句...

【专利技术属性】
技术研发人员:高盛华董思勋胡华章廉东泽罗伟鑫钱一成
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1