基于概念解析器和多模态图学习的视频内容描述方法技术

技术编号:37855567 阅读:16 留言:0更新日期:2023-06-14 22:49
本发明专利技术公开了一种基于概念解析器和多模态图学习的视频内容描述方法,它同时考虑了低级视觉信息和高级概念线索,并以端到端的方式有效地整合了它们。具体来说,低级视觉信息和高级概念线索是分别从VideoSwinTransformer和概念解析器中获得的,并引入概念损失来规范概念解析器的学习过程以生成真实的概念结果。为了融合多级特征,本方法引入了CaptionTransformer,其将视觉信息和概念线索作为输入,通过多模态图学习来处理这些输入信息。多模态图会以显式方式对多级特征,包括本文特征、视觉特征、概念特征之间的关系进行建模,并且会进一步细化它们的重要程度。并且会进一步细化它们的重要程度。并且会进一步细化它们的重要程度。

【技术实现步骤摘要】
基于概念解析器和多模态图学习的视频内容描述方法


[0001]本专利技术属于计算机视觉领域,涉及一种基于概念解析器和多模态图学习的视频内容描述方法。

技术介绍

[0002]随着信息技术的快速发展,短视频平台日益增多,视频逐渐成为人们分享日常生活、学习、社交、娱乐等获取信息的主要媒介。因此,视频描述成为当前视觉领域的研宄热点,应用广泛。如视频不良信息检测、视频有效片段提取、监控视频安全检测、视频标注、自动解说等。
[0003]作为跨模态学习中最受欢迎的任务之一,视频描述旨在充分利用视觉和语言信息,然后用自然语言描述视频的内容。针对此问题的一系列现有方法通过提取低级视觉线索和额外的场景或语义信息提示来生成描述。尽管这些方法取得了一些效果,但这些方法通常是分阶段的,并且在进行特征提取时使用最初为其他任务,如为场景图生成和自然语言翻译设计的现成模型,因此这些特征是无法随特定任务更新的,这就导致了在后续生成视频描述的时候引入了很多噪声。此外,也有一些方法提出了一个端到端框架,他们引入Transformer来进行特征提取并利用其优势来缓解视觉空间和描述空间之间的语义鸿沟。尽管这种方法解决了上述阶段性模型的问题,但这一系列方法仍缺乏高级线索,例如事件或内容描述。总之,视频描述缺乏能够以端到端的方式捕获多级线索的统一框架。

技术实现思路

[0004]针对现有技术中存在的不足,本专利技术提供了一种基于概念解析器和多模态图学习的视频内容描述方法

CAT,来解决分阶段方法可能造成引入额外噪声以及端到端方法缺少的高级线索的问题。CAT是一种新颖的统一框架,它同时考虑了低级视觉信息和高级概念线索,并以端到端的方式有效地整合了它们。具体来说,低级视觉信息和高级概念线索是分别从Video Swin Transformer和概念解析器中获得的,并进一步引入概念损失来规范概念解析器的学习过程以生成真实的概念结果。为了融合多级特征,本方法引入了Caption Transformer,其将视觉信息和概念线索作为输入来生成视频描述。在Caption Transformer中本方法做出了关键的设计选择,通过多模态图学习来处理这些输入信息。多模态图会以显式方式对多级特征,包括本文特征、视觉特征、概念特征,之间的关系进行建模,并且会进一步细化它们的重要程度。
[0005]本专利技术解决其技术问题所采用的技术方案实现如下:
[0006]基于概念解析器和多模态图学习的视频内容描述方法,其步骤如下:
[0007]步骤1.数据集及概念获取,使用三个公开视频描述数据集,分别是MSVD、MSR

VTT和VATEX。使用NLTK工具提取真实视频描述文本中的名词和动词作为伪真实概念。
[0008]步骤2.视觉特征提取,对输入视频进行采样获取视频帧,将视频帧作为Video Swin Transformer的输入最终输出视觉特征。
[0009]步骤3.概念特征解析,将视觉特征输入概念解析器得到高级的概念特征。
[0010]步骤4.多模态图指导下的描述生成,通过Caption Transformer,在多模态图的指导下智能的弥补描述、视觉和概念空间三者之间的差距,从而输出高质量的视频描述文本。Caption Transformer将三种模态特征作为输入,分别是文本特征、视觉特征以及概念特征,其中文本特征使用BERT模型编码掩码文本,通过Caption Transformer预测掩码单词来补全句子。
[0011]步骤5.确定损失函数,损失函数分为三个部分,包括概念损失多模态图学习损失以及视频描述损失以端到端的方式进行优化。
[0012]步骤6.网络训练与推理,Video Swin Transformer使用在视频数据集上预训练过的模型参数,概念解析器以及Caption Transformer采用随机初始化的方式进行训练。在网络训练过程中,将会对GT的视频内容描述进行掩码,且旨在正确预测掩码单词。而在网络推理过程中,文本则是仅是一个掩码标记,并且会以自回归的方式,一个单词一个单词生成,直到描述生成完毕。最终的评估指标采用BLEU@4(B@4)、METEOR(M)、ROUGE

L(R)以及CIDEr(C)。
[0013]步骤2所述的视觉特征提取,具体实现如下:
[0014]将输入视频密集采样成T
×
H
×
W
×
3的大小,其中包括T帧,每帧包括H
×
W
×
3个像素。之后将其输入Video Swin Transformer后,输出个视觉特征,并将其表示为v
i
表示第i个视觉特征,N和D分别表示视觉特征总数以及维度。
[0015]步骤3所述的概念解析器,具体实现如下:
[0016]将视觉特征输入概念解析器,经过池化、投影操作后,将视觉特征映射到概念空间中,然后选择前k个出现概率最高的概念,并且将其编码后,作为后续Caption Transformer的输入。
[0017]步骤4所述的多模态图指导下的描述生成具体方法如下:
[0018]Caption Transformer将步骤2中的视觉特征,步骤3中的概念特征,以及文本特征ω作为输入。其中文本特征通过BERT模型对掩码后的句子s
mask
进行编码。
[0019]在Caption Transformer上,通过多模态图以显式方式对多级特征,包括本文特征、视觉特征、概念特征三者之间的关系进行建模,并且将进一步细化它们的重要程度,以增强视觉特征和概念特征的表征能力。
[0020]步骤5.损失函数分为三个部分,包括概念损失多模态图学习损失以及视频描述损失损失会以端到端的方式进行优化。
[0021]总训练损失公式如下所示:
[0022][0023]其中λ和γ为超参数,训练的目标是要最小化损失
[0024]步骤6.网络训练与推理,在网络训练过程中,Video Swin Transformer使用在
Kinetics

600视频数据集上预训练过的模型参数进行初始化,其他两个模块,包括概念解析器以及Caption Transformer采用随机初始化的方式进行训练。将视觉特征输入概念解析器后,得到top

k的概念,与伪真实概念进行计算得到概念损失,从而要求其关注视觉特征,精炼出正确、高质量的概念。之后对步骤1中对应的数据集GT的视频内容描述随机选取一定百分比的单词将其替换成特殊的标记[MASK],从而实现掩码操作。之后将掩码后的句子编码后与步骤2中的视频特征以及步骤3中的概念特征同时输入Caption Transformer中。Caption Transformer的目标为预测出掩码句子中真实的单词,用于补全完整的句子s。
[0025][0026]其中公式2中的f
cap
代表的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于概念解析器和多模态图学习的视频内容描述方法,其特征在于,其步骤如下:步骤1.数据集及概念获取,使用三个公开视频描述数据集,分别是MSVD、MSR

VTT和VATEX;使用NLTK工具提取真实视频描述文本中的名词和动词作为伪真实概念;步骤2.视觉特征提取,对输入视频进行采样获取视频帧,将视频帧作为Video Swin Transformer的输入最终输出视觉特征;步骤3.概念特征解析,将视觉特征输入概念解析器得到高级的概念特征;步骤4.多模态图指导下的描述生成,通过Caption Transformer,在多模态图的指导下智能的弥补描述、视觉和概念空间三者之间的差距,从而输出高质量的视频描述文本;步骤5.确定损失函数;步骤6.网络训练与推理。2.根据权利要求1所述的基于概念解析器和多模态图学习的视频内容描述方法,其特征在于,步骤2所述的视觉特征提取,具体实现如下:将输入视频密集采样成T
×
H
×
W
×
3的大小,其中包括T帧,每帧包括H
×
W
×
3个像素;之后将其输入Video Swin Transformer后,输出个视觉特征,并将其表示为v
i
表示第i个视觉特征,N和D分别表示视觉特征总数以及维度。3.根据权利要求2所述的基于概念解析器和多模态图学习的视频内容描述方法,其特征在于,步骤3具体实现如下:将视觉特征输入概念解析器,经过池化、投影操作后,将视觉特征映射到概念空间中,然后选择前k个出现概率最高的概念,并且将其编码后,作为后续Caption Transformer的输入。4.根据权利要求3所述的基于概念解析器和多模态图学习的视频内容描述方法,其特征在于,步骤4具体方法如下:Caption Transformer将步骤2中的视觉特征,步骤3中的概念特征,以及文本特征ω作为输入;其中文本特征通过BERT模型对掩码后的句子s
mask
进行编码;在Caption Transformer上,通过多模态图以显式方式对多级特征,包括本文特征、视觉特征、概念特征三者之间的关系进行建模,并且将进一步细化它们的重要程度,以增强视觉特征和概念特征的表征能力。5.根据权利要求4所述的基于概念解析器和多模态图学习的视频内容描述方法,其特征在于,步骤5具体方法如下:损失函数分为三个部分,包括概念损失多模态图学习损失以及视频描述损失损失将以端到端的方式进行优化;总训练损失公式如下所示:其中λ和γ为超参数,训练的目标是要最小化损失6.根据权利要求5所述的基于概念解析器和多模态图学习的视频内容描述方法,其特征在于,步骤6具体方法如下:
网络训练与推理,在网络训练过程中,Video Swin Transformer使用在Kinetics

600视频数据集上预训练过的模型参数进行初始化,其他两个模块,包括概念解析器以及Caption Transform...

【专利技术属性】
技术研发人员:黄鹏俞俊吴波锋陈宇
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1