【技术实现步骤摘要】
一种基于时空图的视频关系检测方法和系统
[0001]本专利技术涉及机器学习与计算机视觉研究中的视频关系检测、时空图卷积神经网络、孪生关联网络这几个主题,尤其涉及一种基于时空图的视频关系(视觉关系)检测方法和系统。
技术介绍
[0002]了解视觉信息是计算机视觉的主要目标。视觉内容中的关系检测需要捕获细粒度的视觉线索,包括定位实体的位置以及它们之间的交互方式,这是一项充满挑战但有意义的任务。虽然视频中对象之间的关系是深入理解动态视觉内容的重要组成部分,但是视频中的关系检测和推理却很少被研究。成功检测视频关系的尝试不仅将帮助我们为某些高级视觉理解任务(例如视觉问题解答和视觉字幕)建立更有效的模型,而且还将促进计算机视觉其他领域的发展,例如:视频检索,视频动作检测和视频活动识别。
[0003]大量的最新研究在静态图像关系检测中获得了令人兴奋的重要成果。视频中关系检测的自然解决方案是将这些方法直接扩展到视频。但是,由于图像和视频之间的内在差异,无法获得令人满意的结果。为静态图像关系检测和推理设计的方法往往会忽略实体之间的动态交互,而动态交互始终在视频中发生。考虑到视频的特性,视频中的关系检测和推理解决方案应该能够捕获实体之间的动态和时变关系。Xindi Shang等人的论文《Video Visual Relation Detection》是迄今为止重点检测视频中的关系的唯一尝试,然而该方法的表现有限,部分原因是它缺乏从周围环境中收集线索的能力。
[0004]针对上述问题,本专利技术提出了一种基于时空图的视频关 ...
【技术保护点】
【技术特征摘要】
1.一种基于时空图的视频关系检测方法,其特征在于包括如下步骤:1)获取视频片段的帧级别的实体特征和视频片段的实体轨迹特征;2)将前一个片段和当前片段的实体特征和实体轨迹特征,以及当前片段和下一个片段的实体特征和实体轨迹特征分别拼接,作为两个分支输入全连接的时空图卷积网络模块;对全连接的时空图卷积网络模块两个分支的输出按元素相加的方式提取出当前片段中实体的特征图;3)获取用于预测实体分类的向量和预测谓词分布的向量;4)将每个用于预测实体分类的向量和预测谓词分布的向量相乘,对于每个视频片段,取相乘结果中得分最高的L个关系实例作为带有孪生网络的关联模块的输入;使用孪生网络的在线关联方法将整个视频中的短期关系实例合并;获取关联置信度分数;5)将检测结果按置信度得分降序排列,得到视频关系检测结果。2.根据权利要求1所述的基于时空图的视频关系检测方法,其特征在于,所述的步骤1)包括:把视频分割成多个片段,每个片段包含多帧;对于每个片段,每一帧上产生实体检测框,提取实体特征,并将每个片段中帧级别的实体框连接起来,生成实体轨迹特征;对生成的实体轨迹按vIoU值降序排序,将前N个轨迹作为该片段的实体轨迹特征。3.根据权利要求2所述的基于时空图的视频关系检测方法,其特征在于,所述的步骤1)中生成实体轨迹特征后,还包括:设置vIoU阈值,去掉低于阈值的实体轨迹的步骤。4.根据权利要求1所述的基于时空图的视频关系检测方法,其特征在于,所述步骤2)中的时空图卷积网络模块由几何图卷积网络和外观图卷积网络组成;在几何图卷积网络中,将vIoU值作为仿射矩阵中的值,然后对仿射矩阵的每一行用曼哈顿范数进行归一化;对于几何图卷积网络的输出X
g
进行ReLU激活和Layer-Norm,使得几何图卷积网络的输入输出维度保持一致;在外观图卷积网络中,将两个不同的线性变换应用于输入到外观图卷积网络的实体特征,然后相乘以获得外观相关性值,这些外观相关性值组成外观相关性矩阵A
a
,对每一行用softmax重新缩放;对外观图卷积网络的输出X
a
进行ReLU激活和Layer-Norm,使得外观图卷积网络的输入输出维度保持一致。5.根据权利要求4所述的基于时空图的视频关系检测方法,其特征在于,对于输入到时空卷积网络模块的实体特征X,几何图卷积网络的输出X
g
和外观卷积网络的输出X
a
,按如下公式相加:X
′
=norm(σ(X
a
+X+X
g
))对于计算输出结果X
′
,进行ReLU激活和归一化,然后输入下一个时空图卷积网络模块。6.根据权利要求1所述的基于时空图的视频关系检测方法,其特征在于,所述的步骤3)中,将步骤2)得到的当前片段中实体的特征图Z输入线性变换层和softmax层,来获取用于预测实体分类的向量V
°
,公式如下:V
io
=softmax(φ
o
(Z
i
)) (i∈[1,N])其中,Z
i
表特征图Z中第i行的特征向量;φ
o
(Z
i
)表示对Z
i
进行线性变换;特征图Z的维度为(N,d),V
io
表示向量V
°
中的第i个元素。
7.根据权利要求1所述的基于时空图的视频关系检测方法,其特征在于,所述的步骤3)中,将步骤2)得到的当前片段中实体的特征图Z中每两个特征向量配对组成一个新的<主语,宾语>的特征图,维度为(N*(N-1),2d);获取相对运动特征图Z
rm
;然后这个<主语,宾语>的特征图与相对运动特征图进行拼接,...
【专利技术属性】
技术研发人员:庄越挺,肖俊,汤斯亮,吴飞,杨易,李晓林,谭炽烈,蒋韬,
申请(专利权)人:同盾控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。