一种基于自驱动孪生采样和推理的视频问答方法技术

技术编号：32785834 阅读：26 留言：0更新日期：2022-03-23 19:45

本发明专利技术公开了一种基于自驱动孪生采样和推理的视频问答方法，所述方法包括视频段采样、特征提取与推理策略，其中，所述视频段采样通过稀疏采样得到基准视频段以及通过孪生采样获得孪生视频段；所述特征提取通过一视频编码器，一文本编码器和一多模态将多个视频段

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自驱动孪生采样和推理的视频问答方法

[0001]本专利技术涉及计算机中计算机视觉、模式识别
，具体涉及一种基于自驱动孪生采样和推理的视频问答方法。

技术介绍

[0002]视频问答是一种视觉
‑
语言推理任务，具有极大的应用前景，因而吸引了越来越多研究者的注意力。视频问答任务需要根据语言线索的组合语义，获取并使用视频中的视觉信号的时域和空域特征，从而生成回答。
[0003]一些现有的工作从视频中提取一般的视觉信息以及运动特征来表示视频内容，并设计了不同的注意力机制来整合这些特征。这些方法注重于如何更好地理解视频的整体内容，但这样容易忽略了视频段中的细节。也有一些研究人员探究了如何通过对视频的视觉和语言信息进行语义层面上的特征对齐。但是这些工作都忽略了同一个视频中的上下文之间的关联。
[0004]近来，在目标数据集上微调(fine
‑
tuning)预训练模型的范式在多模态任务中取得了非常好的效果，例如文本视频检索、视觉问答、图片描述、视频描述以及视频问答等。基于这些以Transformer为基础的语言预训练模型所取得的成果，针对视频
‑
语言任务的视频
‑
文本的预训练模型也有了较大的进展，尤其是对于视频问答任务的预训练模型。这种方法是基于在大规模视频
‑
文本数据集上预训练的骨架网络(backbone)的，但如此进行预训练的网络都没有进一步地挖掘相同视频的视频段之间的上下文信息。
[0005]综上所述...

【技术保护点】

【技术特征摘要】
1.一种基于自驱动孪生采样和推理的视频问答方法，其特征在于，所述方法包括视频段采样、特征提取与推理策略，其中，所述视频段采样通过稀疏采样得到基准视频段以及通过孪生采样获得孪生视频段；所述特征提取通过一视频编码器，一文本编码器和一多模态将多个视频段
‑
文本对编码成相应的语义特征表示；所述推理策略通过使用孪生知识生成模块为视频段生成提炼后的知识标签，并使用孪生知识推理模块将这个标签传播给其所有孪生样本并进行融合。2.根据权利要求1所述的基于自驱动孪生采样和推理的视频问答方法，其特征在于，在所述视频段采样中，分别使用稀疏采样和孪生采样获得基准段和孪生段，并使用特征提取模型分别提取出这些视频段的特征；在所述特征提取中，用孪生知识生成模块，根据基准段和孪生段的特征，计算出视频内部的上下文特征；在所述推理策略中，使用孪生知识推理模块，根据所述上下文特征，自适应地为视频段生成提炼后的软标签。3.根据权利要求1或2所述的基于自驱动孪生采样和推理的视频问答方法，其特征在于，所述孪生采样包括通过对视频样本F进行稀疏采样得到长度为B帧的视频段样本；其中，F的长度大于B；以随机的方式确定基准视频段的开始帧数的索引，接着进行孪生采样，在同一个视频样本内选定多个与该基准视频段相邻的开始索引，并选取相同长度B帧的视频段；进行完孪生采样后，得到与拥有相似的全局视频语义的基准视频段和孪生视频段，再使用视频编码器依次对视频段进行编码，得到视觉特征。4.根据权利要求3所述的基于自驱动孪生采样和推理的视频问答方法，其特征在于，基准段的起始索引限定在整个视频的前三分之一帧内；所述相邻为孪生视频段的索引应与基准段的索引相邻，在基准段的前或后进行连续采样从而得到孪生段。5.根据权利要求1所述的基于自驱动孪生采样和推理的视频问答方法，其特征在于，所述知识生成模块包括：给定一个视频中的一组数量为N视频段
‑
文本对，以及一个需要训练的特征提取器...

【专利技术属性】
技术研发人员：余伟江，卢宇彤，李孟非，陈志广，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人