影像视觉关系检测方法和系统技术方案

技术编号：25449177 阅读：40 留言：0更新日期：2020-08-28 22:34

公开了用于检测影像中的视觉关系的方法和系统。该方法包括：将影像序列分解为多个分段；针对每个分段，检测该分段的帧中的对象；在分段上跟踪检测到的对象，以针对该分段形成对象轨迹的集合；针对检测到的对象，提取对象特征；针对对象轨迹的集合中的对象轨迹对，提取相关性特征，该相关性特征指示对应于该对象轨迹对的对象之间的关系；利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征，形成针对对象轨迹对的关系特征向量；以及基于关系特征向量产生分段关系预测结果的集合；通过合并来自不同分段的分段预测结果，产生针对该影像序列的视觉关系实例的集合；并基于该视觉关系实例的集合产生视觉关系检测结果的集合。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】影像视觉关系检测方法和系统
本公开涉及影像分析，尤其涉及影像序列中的对象之间的视觉关系的检测。
技术介绍
在多媒体分析中，弥合视觉和语言之间的鸿沟至关重要，其吸引了大量研究工作，包括视觉概念注释、带标注的语义描述，以及视觉问题解答。视觉关系检测(VRD)，最近致力于提供对对象以外的视觉内容的更全面理解，旨在捕获对象之间的多种互动。它可以有效地支持众多视觉语言任务，诸如标注、视觉搜索，和视觉问题解答。视觉关系包含一对通过边界框定位的对象，对象之间通过谓语连接。图1a示出了视觉关系的若干个示例，其中两个对象可以通过多种谓语连接，同一谓语可以连接具有不同表象的不同对象对。如图1a所示，第一人112和第一只狗114之间的视觉关系、第二人122和第二只狗124之间的视觉关系、人132和摩托车134之间的视觉关系，以及人142和马144之间的视觉关系，这些视觉关系可以通过VRD确定。在本公开中，我们使用术语关系三元组来表示一种类型的视觉关系，该视觉关系由<主体、谓语、对象>的唯一组合作为三元组表示。由于组合的复杂性，针对关系三元组的可能的空间比对象的空间大得多。因此，在对象检测中可以获得显著性能的现有方法不适用于VRD。已经提出了若干种用于VRD的方法。但是，它们都仅适用于静态图像。与静态图像相比，影像提供了更自然的特征的集合来检测视觉关系，诸如对象之间的动态互动。最近的研究工作集中于图像中的VRD。普遍认识到，VRD的基本挑战在于如何通过从很少的训练示例中学习来建模和预测大量的关系。为了解决该问题，...

【技术保护点】
1.一种检测影像序列中视觉关系的影像处理方法，所述方法包括：/n将所述影像序列分解为多个分段；/n针对每个分段，/n检测所述分段的帧中的对象；/n在所述分段上跟踪所述检测到的对象，以形成针对所述分段的对象轨迹的集合；/n针对所述检测到的对象，提取对象特征；/n针对所述对象轨迹的集合中的对象轨迹对，提取相关性特征，所述相关性特征指示对应于所述对象轨迹对的对象之间的关系；/n利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征，形成针对对象轨迹对的关系特征向量；以及/n基于所述关系特征向量产生分段关系预测结果的集合；/n通过合并来自不同分段的分段预测结果，产生针对所述影像序列的视觉关系实例的集合；以及/n基于所述视觉关系实例的集合产生视觉关系检测结果的集合。/n

【技术特征摘要】
【国外来华专利技术】20170817 US 62/546,6411.一种检测影像序列中视觉关系的影像处理方法，所述方法包括：
将所述影像序列分解为多个分段；
针对每个分段，
检测所述分段的帧中的对象；
在所述分段上跟踪所述检测到的对象，以形成针对所述分段的对象轨迹的集合；
针对所述检测到的对象，提取对象特征；
针对所述对象轨迹的集合中的对象轨迹对，提取相关性特征，所述相关性特征指示对应于所述对象轨迹对的对象之间的关系；
利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征，形成针对对象轨迹对的关系特征向量；以及
基于所述关系特征向量产生分段关系预测结果的集合；
通过合并来自不同分段的分段预测结果，产生针对所述影像序列的视觉关系实例的集合；以及
基于所述视觉关系实例的集合产生视觉关系检测结果的集合。

2.根据权利要求1所述的方法，其中，多个所述分段是重叠的分段。

3.根据权利要求1或2所述的方法，其中，所述视觉关系检测结果包括关系主体的指示、关系谓语的指示和关系对象的指示的集合，其中，所述关系主体和所述关系对象是检测的对象，并且所述关系谓语指示所述关系主体和所述关系对象之间的关系。

4.根据前述权利要求中任一项所述的方法，其中，所述对象轨迹包括在所述分段的多个帧中的每一帧中的边界框，以及贯穿所述分段的多个帧的边界框轨迹。

5.根据前述权利要求中任一项所述的方法，其中，对应于所述对象轨迹对的对象之间的关系包括：对应于所述对象轨迹对的对象对之间的相对大小、相对位置和相对运动中的至少一个。

6.根据前述权利要求中任一项所述的方法，其中，基于所述视觉关系实例的集合产生所述视觉关系检测结果的集合，包括：根据置信度得分对所述视觉关系实例进行排序，并且选择具有最高置信度得分的视觉关系实例作为所述视觉关系检测结果。

7.根据前述权利要求中任一项所述的方法，其中，合并来自不同分段的分段预测结果包括：应用贪婪算法以合并贯穿连续的分段的对象轨迹对。

8.根据前述权利要求中任一项所述的方法，其中，基于所述关系特征向量产生所述分段关系预测结果的集合包括：将softmax函数应用于关系特征向量的集合。

9.根据前述权利要求中任一项所述的方法，其中，检测所述分段的帧中的对象包括：检测属于预定义类别的集合中的一个类别的对象。

10.根据前述权利要求中任一项所述的方法，其中，所述视觉关系包括至少一种动态关系，所述动态关系的变化贯穿所述影响序列。

11.一种计算机可读介质，其载有处理器执行的指令，当在处理器上执行所述指令时，使所述处理器执行根据权利要求1至10中任一项所述的...

【专利技术属性】
技术研发人员：任桐炜，郭竞帆，蔡达成，尚辛迪，
申请(专利权)人：新加坡国立大学，
类型：发明
国别省市：新加坡;SG

全部详细技术资料下载我是这个专利的主人