当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于自驱动孪生采样和推理的视频问答方法技术

技术编号:32785834 阅读:26 留言:0更新日期:2022-03-23 19:45
本发明专利技术公开了一种基于自驱动孪生采样和推理的视频问答方法,所述方法包括视频段采样、特征提取与推理策略,其中,所述视频段采样通过稀疏采样得到基准视频段以及通过孪生采样获得孪生视频段;所述特征提取通过一视频编码器,一文本编码器和一多模态将多个视频段

【技术实现步骤摘要】
一种基于自驱动孪生采样和推理的视频问答方法


[0001]本专利技术涉及计算机中计算机视觉、模式识别
,具体涉及一种基于自驱动孪生采样和推理的视频问答方法。

技术介绍

[0002]视频问答是一种视觉

语言推理任务,具有极大的应用前景,因而吸引了越来越多研究者的注意力。视频问答任务需要根据语言线索的组合语义,获取并使用视频中的视觉信号的时域和空域特征,从而生成回答。
[0003]一些现有的工作从视频中提取一般的视觉信息以及运动特征来表示视频内容,并设计了不同的注意力机制来整合这些特征。这些方法注重于如何更好地理解视频的整体内容,但这样容易忽略了视频段中的细节。也有一些研究人员探究了如何通过对视频的视觉和语言信息进行语义层面上的特征对齐。但是这些工作都忽略了同一个视频中的上下文之间的关联。
[0004]近来,在目标数据集上微调(fine

tuning)预训练模型的范式在多模态任务中取得了非常好的效果,例如文本视频检索、视觉问答、图片描述、视频描述以及视频问答等。基于这些以Transformer为基础的语言预训练模型所取得的成果,针对视频

语言任务的视频

文本的预训练模型也有了较大的进展,尤其是对于视频问答任务的预训练模型。这种方法是基于在大规模视频

文本数据集上预训练的骨架网络(backbone)的,但如此进行预训练的网络都没有进一步地挖掘相同视频的视频段之间的上下文信息。
[0005]综上所述,这些现存的多模态学习范式都存在一个极大的缺陷:忽略了同一个视频中,视频段

文本对(clip

text pair)之间的相关性,而在训练时将每一个视频段

文本对都视为是相互独立的。因此,现有技术并没有很好地利用同一个视频中上下文之间的丰富的上下文信息。而专利技术人则认为,这种视频内部的相关联的上下文信息可以被用于增强网络的学习效果。

技术实现思路

[0006]针对现有技术的不足,本专利技术旨在提供一种基于自驱动孪生采样和推理的视频问答方法,解决现有方法中未能很好利用同视频中的上下文信息的问题,本专利技术认为同视频中的不同视频段应该具有较为相似的视频特征,因此提出了此SiaSamRea(自驱动孪生采样和推理)视频问答方法。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]一种基于自驱动孪生采样和推理的视频问答方法,所述方法包括视频段采样、特征提取与推理策略,其中,所述视频段采样通过稀疏采样得到基准视频段以及通过孪生采样获得孪生视频段;所述特征提取通过一视频编码器,一文本编码器和一多模态将多个视频段

文本对编码成相应的语义特征表示;所述推理策略通过使用孪生知识生成模块为视频段生成提炼后的知识标签,并使用孪生知识推理模块将这个标签传播给其所有孪生样本
并进行融合。
[0009]需要说明的是,在所述视频段采样中,分别使用稀疏采样和孪生采样获得基准段和孪生段,并使用特征提取模型分别提取出这些视频段的特征;在所述特征提取中,用孪生知识生成模块,根据基准段和孪生段的特征,计算出视频内部的上下文特征;在所述推理策略中,使用孪生知识推理模块,根据所述上下文特征,自适应地为视频段生成提炼后的软标签。
[0010]需要说明的是,所述孪生采样包括通过对视频样本F进行稀疏采样得到长度为B帧的视频段样本;其中,F的长度大于B;以随机的方式确定基准视频段的开始帧数的索引,接着进行孪生采样,在同一个视频样本内选定多个与该基准视频段相邻的开始索引,并选取相同长度B帧的视频段;进行完孪生采样后,得到与拥有相似的全局视频语义的基准视频段和孪生视频段,再使用视频编码器依次对视频段进行编码,得到视觉特征。
[0011]需要说明的是,基准段的起始索引限定在整个视频的前三分之一帧内;所述相邻为孪生视频段的索引应与基准段的索引相邻,在基准段的前或后进行连续采样从而得到孪生段。
[0012]需要说明的是,所述知识生成模块包括:
[0013]给定一个视频中的一组数量为N视频段

文本对,以及一个需要训练的特征提取器F,首先逐对根据这些样本的编码表示的点积计算这些样本的相似度矩阵A∈R
N
×
N

[0014]A(i,j)=σ(F(f
i
))
T
σ(F(f
j
)),
[0015]其中,i,j为样本的索引,σ表示L2范数函数,N是视频段个数;公式A=A

(1

I)将关联矩阵A中对角线上的元素置为0,避免推理进入个体的死循环,其中I为单位矩阵,

表示哈达玛积;
[0016]归一化矩阵A的每一行,使得对于所有i满足同时保持对角线元素为0;归一化函数可以使用对于矩阵每一行元素的softmax函数来表示,即
[0017][0018]其中,表示归一化后同一视频中视频段i,j的相关联知识;即为所有视频段的整体相关联知识,即孪生知识。
[0019]需要说明的是,所述孪生知识推理模块包括:
[0020]在训练过程中,同时训练一个分类器,对于该分类器,输入多模态Transformer输出的视频段

文本特征表示,得到一个对于该视频段

文本样本的软标签预测,记预测的概率为
[0021]P=[p1,...,p
N
]T
∈R
N
×
N
,并满足其中K为类别的总数;
[0022]将传播并合并其他样本的软标签预测,从而得到基于视频内部上下文联系的更优的软标签,其公式为
[0023][0024]其中,为第i个样本传播给其他样本的概率向量,也可以被视作提炼后的软标
签;
[0025]若第i,j个样本是较为相似的,那么他们的相似度是比较大的,那么pj
[0026]传播给时的权重就较大;再将所有样本进行逐样本对的并行的传播操作,其公式为
[0027][0028]其中W∈R1×
N
是一个可学习的矩阵,是计算出的软标签。
[0029]需要说明的是,为了避免传播与融合过多的噪声与不符合预期的预测结果,所使用的软标签为初始概率矩阵P与传播后的概率矩阵的加权和,公式为
[0030][0031]其中ω∈[0,1]是权重因子,W1,W2是一组可学习的参数,且公式满足
[0032]本专利技术有益效果在于,提出了此基于自驱动孪生采样和推理的框架,并将其用于提取相同视频的不同视频段中的上下文语义信息,用于增强网络的学习效果。
附图说明
[0033]图1为为本专利技术的整体网络结构框架示意图;
[0034]图2为将密集采样、稀疏采样和孪生采样对比的示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自驱动孪生采样和推理的视频问答方法,其特征在于,所述方法包括视频段采样、特征提取与推理策略,其中,所述视频段采样通过稀疏采样得到基准视频段以及通过孪生采样获得孪生视频段;所述特征提取通过一视频编码器,一文本编码器和一多模态将多个视频段

文本对编码成相应的语义特征表示;所述推理策略通过使用孪生知识生成模块为视频段生成提炼后的知识标签,并使用孪生知识推理模块将这个标签传播给其所有孪生样本并进行融合。2.根据权利要求1所述的基于自驱动孪生采样和推理的视频问答方法,其特征在于,在所述视频段采样中,分别使用稀疏采样和孪生采样获得基准段和孪生段,并使用特征提取模型分别提取出这些视频段的特征;在所述特征提取中,用孪生知识生成模块,根据基准段和孪生段的特征,计算出视频内部的上下文特征;在所述推理策略中,使用孪生知识推理模块,根据所述上下文特征,自适应地为视频段生成提炼后的软标签。3.根据权利要求1或2所述的基于自驱动孪生采样和推理的视频问答方法,其特征在于,所述孪生采样包括通过对视频样本F进行稀疏采样得到长度为B帧的视频段样本;其中,F的长度大于B;以随机的方式确定基准视频段的开始帧数的索引,接着进行孪生采样,在同一个视频样本内选定多个与该基准视频段相邻的开始索引,并选取相同长度B帧的视频段;进行完孪生采样后,得到与拥有相似的全局视频语义的基准视频段和孪生视频段,再使用视频编码器依次对视频段进行编码,得到视觉特征。4.根据权利要求3所述的基于自驱动孪生采样和推理的视频问答方法,其特征在于,基准段的起始索引限定在整个视频的前三分之一帧内;所述相邻为孪生视频段的索引应与基准段的索引相邻,在基准段的前或后进行连续采样从而得到孪生段。5.根据权利要求1所述的基于自驱动孪生采样和推理的视频问答方法,其特征在于,所述知识生成模块包括:给定一个视频中的一组数量为N视频段

文本对,以及一个需要训练的特征提取器...

【专利技术属性】
技术研发人员:余伟江卢宇彤李孟非陈志广
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1