影像视觉关系检测方法和系统技术方案

技术编号:25449177 阅读:40 留言:0更新日期:2020-08-28 22:34
公开了用于检测影像中的视觉关系的方法和系统。该方法包括:将影像序列分解为多个分段;针对每个分段,检测该分段的帧中的对象;在分段上跟踪检测到的对象,以针对该分段形成对象轨迹的集合;针对检测到的对象,提取对象特征;针对对象轨迹的集合中的对象轨迹对,提取相关性特征,该相关性特征指示对应于该对象轨迹对的对象之间的关系;利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征,形成针对对象轨迹对的关系特征向量;以及基于关系特征向量产生分段关系预测结果的集合;通过合并来自不同分段的分段预测结果,产生针对该影像序列的视觉关系实例的集合;并基于该视觉关系实例的集合产生视觉关系检测结果的集合。

【技术实现步骤摘要】
【国外来华专利技术】影像视觉关系检测方法和系统
本公开涉及影像分析,尤其涉及影像序列中的对象之间的视觉关系的检测。
技术介绍
在多媒体分析中,弥合视觉和语言之间的鸿沟至关重要,其吸引了大量研究工作,包括视觉概念注释、带标注的语义描述,以及视觉问题解答。视觉关系检测(VRD),最近致力于提供对对象以外的视觉内容的更全面理解,旨在捕获对象之间的多种互动。它可以有效地支持众多视觉语言任务,诸如标注、视觉搜索,和视觉问题解答。视觉关系包含一对通过边界框定位的对象,对象之间通过谓语连接。图1a示出了视觉关系的若干个示例,其中两个对象可以通过多种谓语连接,同一谓语可以连接具有不同表象的不同对象对。如图1a所示,第一人112和第一只狗114之间的视觉关系、第二人122和第二只狗124之间的视觉关系、人132和摩托车134之间的视觉关系,以及人142和马144之间的视觉关系,这些视觉关系可以通过VRD确定。在本公开中,我们使用术语关系三元组来表示一种类型的视觉关系,该视觉关系由<主体、谓语、对象>的唯一组合作为三元组表示。由于组合的复杂性,针对关系三元组的可能的空间比对象的空间大得多。因此,在对象检测中可以获得显著性能的现有方法不适用于VRD。已经提出了若干种用于VRD的方法。但是,它们都仅适用于静态图像。与静态图像相比,影像提供了更自然的特征的集合来检测视觉关系,诸如对象之间的动态互动。最近的研究工作集中于图像中的VRD。普遍认识到,VRD的基本挑战在于如何通过从很少的训练示例中学习来建模和预测大量的关系。为了解决该问题,大多数现有方法在视觉关系三元组中分别预测主体,谓语和对象,从而将复杂度从O(N2K)降低到O(N+K),其中N和K分别是对象和谓语的数量。其中一些方法通过利用语言先验和正则化关系嵌入空间来进一步提高性能。提取关系相关的特征是VRD的另一个关键。最近的研究已使用基于坐标或二进制掩码的特征来增强检测空间关系的性能。关系三元组的部件之间的视觉特征级的连接也已被研究,以利用附加的统计依赖性,但需要O(NK)参数以进行建模。影像对象检测旨在检测属于预定义类别的对象,并使用给定影像中的边界框轨迹将其定位。最先进的方法通过在图像对象检测和多对象跟踪中集成最新技术来解决此问题。最近成熟的深度神经网络已经在图像对象检测中获得了成熟的性能。然而,由于影像中存在模糊、摄像机运动和遮挡的情况,影像中的对象检测仍然受到准确性较低的困扰,这妨碍了通过边界框轨迹来进行准确的对象定位。另一方面,由于对象检测器的漏检率较高,具有检测跟踪策略的多对象跟踪倾向于产生较短的轨迹,因此开发了其他合并算法以获得时间上更一致的对象轨迹。
技术实现思路
根据本公开的第一方面,提供了一种检测影像序列中的视觉关系的影像处理方法。该方法包括将影像序列分解为多个分段;针对每个分段,检测该分段的帧中的对象;在该分段上跟踪检测到的对象,以形成针对该分段的对象轨迹的集合;针对检测到的对象,提取对象特征;针对该对象轨迹的集合中的对象轨迹对,提取相关性特征,该相关性特征指示对应于该对象轨迹对的对象之间的关系;利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征,形成针对对象轨迹对的关系特征向量;以及基于该关系特征向量产生分段关系预测结果的集合;通过合并来自不同分段的分段预测结果,产生针对该影像序列的视觉关系实例的集合;以及基于该视觉关系实例的集合产生视觉关系检测结果的集合。多个分段可以是重叠的分段。视觉关系检测结果可以包括关系主体、关系谓语和关系对象的指示的集合,其中,该关系主体和关系对象是检测的对象,并且该关系谓语指示该关系主体和关系对象之间的关系。对象轨迹可以包括在该分段的多个帧中的每一帧中的边界框,以及贯穿该分段的多个帧的边界框轨迹。对应于该对象轨迹对的对象之间的关系,可以包括对应于该对象轨迹对的对象对之间的相对大小、相对位置和相对运动中的至少一个。在一个实施例中,基于该视觉关系实例的集合产生该视觉关系检测结果的集合包括,根据置信度得分对该视觉关系实例进行排序,并选择具有最高置信度得分的视觉关系实例作为该视觉关系检测结果。在一个实施例中,合并来自不同分段的分段预测结果包括,应用贪婪算法以合并贯穿连续的分段的对象轨迹对。在一个实施例中,基于关系特征向量产生分段关系预测结果的集合包括,将softmax函数应用于关系特征向量的集合。在一个实施例中,检测分段的帧中的对象包括,检测属于预定义类别的集合中的一个类别的对象。视觉关系可以包括至少一种动态关系,其变化贯穿该影像序列。根据本公开的第二方面,提供了一种影像处理系统。该影像处理系统包括处理器和数据存储装置。该数据存储装置存储能够由处理器操作的计算机可执行指令,用于:将影像序列分解为多个分段;针对每个分段,检测该分段的帧中的对象;在该分段上跟踪检测到的对象,以形成针对该分段的对象轨迹的集合;针对检测到的对象,提取对象特征;针对该对象轨迹的集合中的对象轨迹对,提取相关性特征,该相关性特征指示对应于该对象轨迹对的对象之间的关系;利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征,形成针对对象轨迹对的关系特征向量;以及基于该关系特征向量产生分段关系预测结果的集合;通过合并来自不同分段的分段预测结果,产生针对该影像序列视觉关系实例的集合;以及基于该视觉关系实例的集合产生视觉关系检测结果的集合。根据又一方面,提供了一种非暂时性计算机可读介质。该计算机可读介质在其上存储了程序指令,该程序指令用于使至少一个处理器执行上述方法的操作。附图说明在下文中,将参考附图将本专利技术的实施例描述为非限制性示例,其中:图1a示出了两个对象之间视觉关系的若干示例;图1b示出了根据本专利技术实施例的方法的影像视觉关系检测结果的示例;图1c示出了影像中的两个对象之间的随时间变化的视觉关系的示例;图2是示出了根据本专利技术实施例的影像处理系统的技术架构的框图;图3是示出了根据本专利技术实施例的影像视觉关系检测方法的流程图;图4a示出了示例性输入影像序列;图4b示出了示例性输入影像序列,其被分解为多个分段;图4c示出了针对示例性输入影像序列的分段产生的对象轨迹方案;图4d示出了针对示例性输入影像序列的分段执行的关系预测;图4e示出了针对示例性输入影像序列贯穿分段的合并轨迹的过程;图5示意性地示出了在本专利技术的实施例中使用的关系预测;图6a至图6c示出了用于视觉关系检测的定性比较的影像序列;图7a至图7c分别示出了针对图6a至图6c所示的影像序列通过不同方法检测到的视觉关系实例;图8a和8b示出了影像视觉关系检测方法的失败示例;以及图9a至图9c示出了使用根据本专利技术实施例的方法进行关系标记的示例。具体实施方式在本公开中,我们提出了一种新的视觉技术,称为影像视觉关系检测(VidVRD),以本文档来自技高网
...

【技术保护点】
1.一种检测影像序列中视觉关系的影像处理方法,所述方法包括:/n将所述影像序列分解为多个分段;/n针对每个分段,/n检测所述分段的帧中的对象;/n在所述分段上跟踪所述检测到的对象,以形成针对所述分段的对象轨迹的集合;/n针对所述检测到的对象,提取对象特征;/n针对所述对象轨迹的集合中的对象轨迹对,提取相关性特征,所述相关性特征指示对应于所述对象轨迹对的对象之间的关系;/n利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征,形成针对对象轨迹对的关系特征向量;以及/n基于所述关系特征向量产生分段关系预测结果的集合;/n通过合并来自不同分段的分段预测结果,产生针对所述影像序列的视觉关系实例的集合;以及/n基于所述视觉关系实例的集合产生视觉关系检测结果的集合。/n

【技术特征摘要】
【国外来华专利技术】20170817 US 62/546,6411.一种检测影像序列中视觉关系的影像处理方法,所述方法包括:
将所述影像序列分解为多个分段;
针对每个分段,
检测所述分段的帧中的对象;
在所述分段上跟踪所述检测到的对象,以形成针对所述分段的对象轨迹的集合;
针对所述检测到的对象,提取对象特征;
针对所述对象轨迹的集合中的对象轨迹对,提取相关性特征,所述相关性特征指示对应于所述对象轨迹对的对象之间的关系;
利用对应于各自的对象轨迹对的对象的对象特征以及各自的对象轨迹对的相关性特征,形成针对对象轨迹对的关系特征向量;以及
基于所述关系特征向量产生分段关系预测结果的集合;
通过合并来自不同分段的分段预测结果,产生针对所述影像序列的视觉关系实例的集合;以及
基于所述视觉关系实例的集合产生视觉关系检测结果的集合。


2.根据权利要求1所述的方法,其中,多个所述分段是重叠的分段。


3.根据权利要求1或2所述的方法,其中,所述视觉关系检测结果包括关系主体的指示、关系谓语的指示和关系对象的指示的集合,其中,所述关系主体和所述关系对象是检测的对象,并且所述关系谓语指示所述关系主体和所述关系对象之间的关系。


4.根据前述权利要求中任一项所述的方法,其中,所述对象轨迹包括在所述分段的多个帧中的每一帧中的边界框,以及贯穿所述分段的多个帧的边界框轨迹。


5.根据前述权利要求中任一项所述的方法,其中,对应于所述对象轨迹对的对象之间的关系包括:对应于所述对象轨迹对的对象对之间的相对大小、相对位置和相对运动中的至少一个。


6.根据前述权利要求中任一项所述的方法,其中,基于所述视觉关系实例的集合产生所述视觉关系检测结果的集合,包括:根据置信度得分对所述视觉关系实例进行排序,并且选择具有最高置信度得分的视觉关系实例作为所述视觉关系检测结果。


7.根据前述权利要求中任一项所述的方法,其中,合并来自不同分段的分段预测结果包括:应用贪婪算法以合并贯穿连续的分段的对象轨迹对。


8.根据前述权利要求中任一项所述的方法,其中,基于所述关系特征向量产生所述分段关系预测结果的集合包括:将softmax函数应用于关系特征向量的集合。


9.根据前述权利要求中任一项所述的方法,其中,检测所述分段的帧中的对象包括:检测属于预定义类别的集合中的一个类别的对象。


10.根据前述权利要求中任一项所述的方法,其中,所述视觉关系包括至少一种动态关系,所述动态关系的变化贯穿所述影响序列。


11.一种计算机可读介质,其载有处理器执行的指令,当在处理器上执行所述指令时,使所述处理器执行根据权利要求1至10中任一项所述的...

【专利技术属性】
技术研发人员:任桐炜郭竞帆蔡达成尚辛迪
申请(专利权)人:新加坡国立大学
类型:发明
国别省市:新加坡;SG

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1