基于概念解析器和多模态图学习的视频内容描述方法技术

技术编号：37855567 阅读：16 留言：0更新日期：2023-06-14 22:49

本发明专利技术公开了一种基于概念解析器和多模态图学习的视频内容描述方法，它同时考虑了低级视觉信息和高级概念线索，并以端到端的方式有效地整合了它们。具体来说，低级视觉信息和高级概念线索是分别从VideoSwinTransformer和概念解析器中获得的，并引入概念损失来规范概念解析器的学习过程以生成真实的概念结果。为了融合多级特征，本方法引入了CaptionTransformer，其将视觉信息和概念线索作为输入，通过多模态图学习来处理这些输入信息。多模态图会以显式方式对多级特征，包括本文特征、视觉特征、概念特征之间的关系进行建模，并且会进一步细化它们的重要程度。并且会进一步细化它们的重要程度。并且会进一步细化它们的重要程度。

全部详细技术资料下载

【技术实现步骤摘要】
基于概念解析器和多模态图学习的视频内容描述方法

[0001]本专利技术属于计算机视觉领域，涉及一种基于概念解析器和多模态图学习的视频内容描述方法。

技术介绍

[0002]随着信息技术的快速发展，短视频平台日益增多，视频逐渐成为人们分享日常生活、学习、社交、娱乐等获取信息的主要媒介。因此，视频描述成为当前视觉领域的研宄热点，应用广泛。如视频不良信息检测、视频有效片段提取、监控视频安全检测、视频标注、自动解说等。
[0003]作为跨模态学习中最受欢迎的任务之一，视频描述旨在充分利用视觉和语言信息，然后用自然语言描述视频的内容。针对此问题的一系列现有方法通过提取低级视觉线索和额外的场景或语义信息提示来生成描述。尽管这些方法取得了一些效果，但这些方法通常是分阶段的，并且在进行特征提取时使用最初为其他任务，如为场景图生成和自然语言翻译设计的现成模型，因此这些特征是无法随特定任务更新的，这就导致了在后续生成视频描述的时候引入了很多噪声。此外，也有一些方法提出了一个端到端框架，他们引入Transformer来进行特征提取并利用其优势来缓解视觉空间和描述空间之间的语义鸿沟。尽管这种方法解决了上述阶段性模型的问题，但这一系列方法仍缺乏高级线索，例如事件或内容描述。总之，视频描述缺乏能够以端到端的方式捕获多级线索的统一框架。

技术实现思路

[0004]针对现有技术中存在的不足，本专利技术提供了一种基于概念解析器和多模态图学习的视频内容描述方法
‑
CAT，来解决分阶段方法可能造成引入额外噪声以及端...

【技术保护点】

【技术特征摘要】
1.基于概念解析器和多模态图学习的视频内容描述方法，其特征在于，其步骤如下：步骤1.数据集及概念获取，使用三个公开视频描述数据集，分别是MSVD、MSR
‑
VTT和VATEX；使用NLTK工具提取真实视频描述文本中的名词和动词作为伪真实概念；步骤2.视觉特征提取，对输入视频进行采样获取视频帧，将视频帧作为Video Swin Transformer的输入最终输出视觉特征；步骤3.概念特征解析，将视觉特征输入概念解析器得到高级的概念特征；步骤4.多模态图指导下的描述生成，通过Caption Transformer，在多模态图的指导下智能的弥补描述、视觉和概念空间三者之间的差距，从而输出高质量的视频描述文本；步骤5.确定损失函数；步骤6.网络训练与推理。2.根据权利要求1所述的基于概念解析器和多模态图学习的视频内容描述方法，其特征在于，步骤2所述的视觉特征提取，具体实现如下：将输入视频密集采样成T
×
H
×
W
×
3的大小，其中包括T帧，每帧包括H
×
W
×
3个像素；之后将其输入Video Swin Transformer后，输出个视觉特征，并将其表示为v
i
表示第i个视觉特征，N和D分别表示视觉特征总数以及维度。3.根据权利要求2所述的基于概念解析器和多模态图学习的视频内容描述方法，其特征在于，步骤3具体实现如下：将视觉特征输入概念解析器，经过池化、投影操作后，将视觉特征映射到概念空间中，然后选择前k个出现概率最高的概念，并且将其编码后，作为后续Caption Transformer的输入。4.根据权利要求3所述的基于概念解析器和多模态图学习的视频内容描述方法，其特征在于，步骤4具体方法如下：Caption Transformer将步骤2中的视觉特征，步骤3中的概念特征，以及文本特征ω作为输入；其中文本特征通过BERT模型对掩码后的句子s
mask
进行编码；在Caption Transformer上，通过多模态图以显式方式对多级特征，包括本文特征、视觉特征、概念特征三者之间的关系进行建模，并且将进一步细化它们的重要程度，以增强视觉特征和概念特征的表征能力。5.根据权利要求4所述的基于概念解析器和多模态图学习的视频内容描述方法，其特征在于，步骤5具体方法如下：损失函数分为三个部分，包括概念损失多模态图学习损失以及视频描述损失损失将以端到端的方式进行优化；总训练损失公式如下所示：其中λ和γ为超参数，训练的目标是要最小化损失6.根据权利要求5所述的基于概念解析器和多模态图学习的视频内容描述方法，其特征在于，步骤6具体方法如下：
网络训练与推理，在网络训练过程中，Video Swin Transformer使用在Kinetics
‑
600视频数据集上预训练过的模型参数进行初始化，其他两个模块，包括概念解析器以及Caption Transform...

【专利技术属性】
技术研发人员：黄鹏，俞俊，吴波锋，陈宇，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人