一种基于时空图的视频关系检测方法和系统技术方案

技术编号:27318034 阅读:15 留言:0更新日期:2021-02-10 09:53
本发明专利技术公开了一种基于时空图的视频关系检测方法和系统。首先,将视频中的实体集合和它们之间的关系建模为一个全连接的时空图,该图包括时间和空间维度邻域中的实体节点。对于关系检测,本发明专利技术提出了一种视频关系检测图卷积网络模型(VRD

【技术实现步骤摘要】
一种基于时空图的视频关系检测方法和系统


[0001]本专利技术涉及机器学习与计算机视觉研究中的视频关系检测、时空图卷积神经网络、孪生关联网络这几个主题,尤其涉及一种基于时空图的视频关系(视觉关系)检测方法和系统。

技术介绍

[0002]了解视觉信息是计算机视觉的主要目标。视觉内容中的关系检测需要捕获细粒度的视觉线索,包括定位实体的位置以及它们之间的交互方式,这是一项充满挑战但有意义的任务。虽然视频中对象之间的关系是深入理解动态视觉内容的重要组成部分,但是视频中的关系检测和推理却很少被研究。成功检测视频关系的尝试不仅将帮助我们为某些高级视觉理解任务(例如视觉问题解答和视觉字幕)建立更有效的模型,而且还将促进计算机视觉其他领域的发展,例如:视频检索,视频动作检测和视频活动识别。
[0003]大量的最新研究在静态图像关系检测中获得了令人兴奋的重要成果。视频中关系检测的自然解决方案是将这些方法直接扩展到视频。但是,由于图像和视频之间的内在差异,无法获得令人满意的结果。为静态图像关系检测和推理设计的方法往往会忽略实体之间的动态交互,而动态交互始终在视频中发生。考虑到视频的特性,视频中的关系检测和推理解决方案应该能够捕获实体之间的动态和时变关系。Xindi Shang等人的论文《Video Visual Relation Detection》是迄今为止重点检测视频中的关系的唯一尝试,然而该方法的表现有限,部分原因是它缺乏从周围环境中收集线索的能力。
[0004]针对上述问题,本专利技术提出了一种基于时空图的视频关系检测方法。与前面所提到的方法不同,本方法利用实体之间的消息通信来进行视频关系预测。此外,为了解决由于场景改变或者轨迹漂移问题的产生而导致仅依靠几何重叠不能确定连续段中的两个轨迹是否属于同一实体的问题,本专利技术提出了一种新的使用孪生网络的在线关联方法,该方法同时考虑了外观相似度和关系实例的几何重叠,准确率大有提升。

技术实现思路

[0005]本专利技术的目的是克服现有技术的不足,提供一种基于时空图的视频关系检测方法和系统。
[0006]本专利技术首先公开了一种基于时空图的视频关系检测方法,其包括如下步骤:
[0007]1)获取视频片段的帧级别的实体特征和视频片段的实体轨迹特征;
[0008]2)将前一个片段和当前片段的实体特征和实体轨迹特征,以及当前片段和下一个片段的实体特征和实体轨迹特征分别拼接,作为两个分支输入全连接的时空图卷积网络模块;对全连接的时空图卷积网络模块两个分支的输出按元素相加的方式提取出当前片段中实体的特征图;
[0009]3)获取用于预测实体分类的向量和预测谓词分布的向量;
[0010]4)将每个用于预测实体分类的向量和预测谓词分布的向量相乘,对于每个视频片
段,取相乘结果中得分最高的L个关系实例作为带有孪生网络的关联模块的输入;使用孪生网络的在线关联方法将整个视频中的短期关系实例合并;获取关联置信度分数;
[0011]5)将检测结果按置信度得分降序排列,得到视频关系检测结果。
[0012]优选的,带有孪生网络的关联模块的处理过程如下:
[0013]4.1)将来自两个相邻片段中的任意两个轨迹的特征向量输入孪生网络中,孪生网络是由三个线性变换层组成嵌入网络,然后通过余弦相似度函数计算两个实体的外观相似度的置信度α,公式如下:
[0014][0015]其中,emb()表示嵌入网络,表示余弦相似度函数,和是两个相邻片段中的任意两个轨迹,和分别是轨迹和的特征;
[0016]4.2)同时考虑几何信息和外观信息,将vIoU值和置信度α再与对应的权重值相乘再相加,得到最后的关联置信度分数公式如下:
[0017][0018]4.3)当前时刻T所对应的片段中的所有短期关系实例集合为其中,是短期实例的置信度得分,为预测实体分类的向量V
o
的和预测谓词分布的向量V
p
相乘的结果,是短期实例对应的<主语,谓词,宾语>三元组,和分别是短期实例中主语对应实体的轨迹和宾语对应的实体轨迹;在时刻T之前的片段已经检测到的所有长期关系实例集合为其中c是长期实例的置信度得分,<s,p,o>是长期实例对应的<主语,谓词,宾语>三元组,和分别是长期实例中主语对应实体的轨迹和宾语对应的实体轨迹;对集合和集合按和c降序排序;
[0019]然后进行两层循环计算,外层循环遍历集合和内层循环遍历集合对于短期关系实例属于集合和长期关系实例属于集合属于集合和和和分别按(8)~(9)计算关联置信度分数,只有当短期关系实例和长期关系实例对应的三元组相同,且两个关联置信度分数均大于阈值y时,才会将两者关联合并;对于从第m个片段到第n个片段的长期关系实例的置信度得分c
p
,用p中所有的短期关系实例的最高分来更新,公式如下:
[0020]c
p
=max(c
t
)(t∈[m,n])。
[0021]本专利技术还公开了一种基于时空图的视频关系检测系统,其包括:
[0022]特征提取模块,用于获取视频片段的帧级别的实体特征,并将每个片段中帧级别的实体框连接起来,生成实体轨迹特征;
[0023]特征拼接模块,将前一个片段和当前片段的实体特征和实体轨迹特征,以及当前
片段和下一个片段的实体特征和实体轨迹特征分别拼接,作为全连接的时空图卷积网络模块的两个分支输入;
[0024]全连接的时空图卷积网络模块,其具有两个分支,包括多个时空图卷积网络模块;每个时空图卷积网络模块由几何图卷积网络和外观图卷积网络组成;输入到时空卷积网络模块的实体特征与时空卷积网络模块中几何图卷积网络的输出、外观卷积网络的输出相加得到该时空卷积网络模块的输出结果,输出结果进行ReLU激活和归一化后作为下一个时空图卷积网络模块的输入;
[0025]特征图提取模块,对全连接的时空图卷积网络模块两个分支的输出按元素相加的方式提取出当前片段中实体的特征图;
[0026]第一特征向量生成单元,用于获得预测实体分类的向量;
[0027]第二特征向量生成单元,用于获取预测谓词分布的向量;
[0028]关系实例模块,将每个用于预测实体分类的向量和预测谓词分布的向量相乘,对于每个视频片段,取相乘结果中得分最高的L个关系实例作为带有孪生网络的关联模块的输入;
[0029]带有孪生网络的关联模块,使用孪生网络的在线关联方法将整个视频中的短期关系实例合并;获取关联置信度分数;
[0030]检测结果输出模块,将带有孪生网络的关联模块的检测结果按置信度得分降序排列,输出视频关系检测结果。
[0031]因为本专利技术采用了带有孪生网络的关联方法,因此克服了现有技术中采用的贪婪关联算法仅利用几何信息,当轨迹生成不准确或出现轨迹漂移问题时,算法结果不准确地问题,从而有效提高了轨迹关联结果的准确性,提高了关联算法的性能。另本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空图的视频关系检测方法,其特征在于包括如下步骤:1)获取视频片段的帧级别的实体特征和视频片段的实体轨迹特征;2)将前一个片段和当前片段的实体特征和实体轨迹特征,以及当前片段和下一个片段的实体特征和实体轨迹特征分别拼接,作为两个分支输入全连接的时空图卷积网络模块;对全连接的时空图卷积网络模块两个分支的输出按元素相加的方式提取出当前片段中实体的特征图;3)获取用于预测实体分类的向量和预测谓词分布的向量;4)将每个用于预测实体分类的向量和预测谓词分布的向量相乘,对于每个视频片段,取相乘结果中得分最高的L个关系实例作为带有孪生网络的关联模块的输入;使用孪生网络的在线关联方法将整个视频中的短期关系实例合并;获取关联置信度分数;5)将检测结果按置信度得分降序排列,得到视频关系检测结果。2.根据权利要求1所述的基于时空图的视频关系检测方法,其特征在于,所述的步骤1)包括:把视频分割成多个片段,每个片段包含多帧;对于每个片段,每一帧上产生实体检测框,提取实体特征,并将每个片段中帧级别的实体框连接起来,生成实体轨迹特征;对生成的实体轨迹按vIoU值降序排序,将前N个轨迹作为该片段的实体轨迹特征。3.根据权利要求2所述的基于时空图的视频关系检测方法,其特征在于,所述的步骤1)中生成实体轨迹特征后,还包括:设置vIoU阈值,去掉低于阈值的实体轨迹的步骤。4.根据权利要求1所述的基于时空图的视频关系检测方法,其特征在于,所述步骤2)中的时空图卷积网络模块由几何图卷积网络和外观图卷积网络组成;在几何图卷积网络中,将vIoU值作为仿射矩阵中的值,然后对仿射矩阵的每一行用曼哈顿范数进行归一化;对于几何图卷积网络的输出X
g
进行ReLU激活和Layer-Norm,使得几何图卷积网络的输入输出维度保持一致;在外观图卷积网络中,将两个不同的线性变换应用于输入到外观图卷积网络的实体特征,然后相乘以获得外观相关性值,这些外观相关性值组成外观相关性矩阵A
a
,对每一行用softmax重新缩放;对外观图卷积网络的输出X
a
进行ReLU激活和Layer-Norm,使得外观图卷积网络的输入输出维度保持一致。5.根据权利要求4所述的基于时空图的视频关系检测方法,其特征在于,对于输入到时空卷积网络模块的实体特征X,几何图卷积网络的输出X
g
和外观卷积网络的输出X
a
,按如下公式相加:X

=norm(σ(X
a
+X+X
g
))对于计算输出结果X

,进行ReLU激活和归一化,然后输入下一个时空图卷积网络模块。6.根据权利要求1所述的基于时空图的视频关系检测方法,其特征在于,所述的步骤3)中,将步骤2)得到的当前片段中实体的特征图Z输入线性变换层和softmax层,来获取用于预测实体分类的向量V
°
,公式如下:V
io
=softmax(φ
o
(Z
i
)) (i∈[1,N])其中,Z
i
表特征图Z中第i行的特征向量;φ
o
(Z
i
)表示对Z
i
进行线性变换;特征图Z的维度为(N,d),V
io
表示向量V
°
中的第i个元素。
7.根据权利要求1所述的基于时空图的视频关系检测方法,其特征在于,所述的步骤3)中,将步骤2)得到的当前片段中实体的特征图Z中每两个特征向量配对组成一个新的<主语,宾语>的特征图,维度为(N*(N-1),2d);获取相对运动特征图Z
rm
;然后这个<主语,宾语>的特征图与相对运动特征图进行拼接,...

【专利技术属性】
技术研发人员:庄越挺肖俊汤斯亮吴飞杨易李晓林谭炽烈蒋韬
申请(专利权)人:同盾控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1