一种基于知识引导下双向注意力机制的人物交互检测方法技术

技术编号:33558718 阅读:32 留言:0更新日期:2022-05-26 22:55
本发明专利技术公开了一种基于知识引导下双向注意力机制的人物交互检测方法,包括如下五个步骤:目标检测、分组、自底向上编码器、自顶向下编码器、二分类;对复杂场景中存在的多个人、物实例进行人物交互检测的关键有效地对场景中的对象进行关系建模解析,通过将知识引导下的自顶向下注意力机制引入到了人物交互检测任务,使得模型能够为给定的人

【技术实现步骤摘要】
一种基于知识引导下双向注意力机制的人物交互检测方法


[0001]本专利技术涉及图片中人物交互识别检测,特别地一种基于知识引导下双向注意力机制的人物交互检测方法,为一种两阶段设置下的人物交互识别检测方法。
技术背景
[0002]近几年来,随着计算机视觉发展的不断深入,以人为主体的人物交互检测任务受到了人们的广泛关注。人物交互检测任务的核心问题是对场景中的人和其周边对象间的关系的理解和检测,该任务有着诸多广阔的应用场景:既可以直接应用于监控系统、机器人视觉系统、人机交互中,同时又可以作为基础接口,为下游的一系列复杂视觉任务,如图像、视频推荐与检索,多媒体数据摘要等应用提供支持。人物交互检测任务即:给定一张图片,模型需要输出<人、交互类别、物体>所构成的三元组,其不仅需要对人和物体进行定位,同时也需要识别出二者之间所存在的交互关系。
[0003]人物交互检测是场景理解中的基础问题,它不仅需要回答“在什么地方?”(即对象识别和定位)的问题,还要回答“正在发生什么?”的问题。区别于其它以实体(如物体、人)作为研究对象的计算机视觉任务,虽然行为产生的主体是“人”这一实体,但其研究对象却是“行为”这一抽象的概念。对抽象概念的理解是实现未来人工智能发展与进步的必经之路。为了实现对于这一抽象概念的理解,只通过外观特征是远远不够的,还需要对场景中多元对象间的空间位置关系,甚至数据外部的知识先验信息进行分析和推理。
[0004]人物交互检测任务更注重对视觉数据中多个实体对象间的关系进行分析,要求对视觉数据做出更为细粒度、结构化的解析。但在当前方法中,大多数关系解析是以一种自底向上的方式进行的。在人类视觉系统中,自底向上是指注意力自动集中于显著或含有信息更多的信号上的过程,而自顶向下是指在特定目的引导下注意力选择性地集中在某些信号上的过程。自底向上是指,在进行人

物配对前,学习给定实例对于环境中其他实例的注意力的机制。当图中存在同一个人实例和不同的物体实例组成多个人

物对(例如,坐在椅子上的人正在使用计算机打字)时,给定这个实例人,模型应该具备分别为“坐在椅子上”和“用计算机打字”这两个行为各自寻找相关视觉线索的能力,即学到不同的注意力分布。但是,在自底向上的注意力机制中,在这两个不同交互行为中,此人对环境中其他实例的注意力分布时相同的。这说明,自底向上的注意力机制无法直接为不同的人

物对进行定制化的关系解析。详见参考文献[1]和[2]。在这种情况下,如何为不同的人

物对进行定制化的关系解析是一个难点所在,而在此场景下准确地进行人物关系解析是一个具有挑战性的问题。

技术实现思路

[0005]本专利技术的目的在于公开一种基于知识引导下双向注意力机制的人物交互检测方法,在复杂场景中往往存在着多个人、物实例,对这些实例进行人物交互检测的关键就在于,如何有效地对场景中的对象进行关系建模解析。
[0006]本专利技术的工作原理为:将知识引导下的自顶向下注意力机制引入到了人物交互检测任务中,赋予模型能够为给定的人

物对灵活地搜寻场景中的相关信息以进行交互判别的能力。
[0007]为了达到本专利技术的技术目的,本专利技术采取如下技术方案:
[0008]一种基于知识引导下双向注意力机制的人物交互检测方法,包括如下步骤:
[0009]P1、目标检测:首先在给定图片上运行预训练过的目标检测器,进行目标检测,得到实例的位置坐标及类别预测信息的检测结果;
[0010]P2、分组:根据P1的检测结果中的位置坐标信息,使用ROI Pooling的方式,在骨干网络提取得到的特征图上进行crop操作,得到实例的外观特征,并根据类别预测将其分为人 (Human Group)和物体(Object Group)两组;
[0011]P3、自底向上编码器:该编码器由多个相同编码器层堆叠而成,以P2中实例的外观特征作为输入,并输出经场景上下文信息增强的特征;输入的实例特征中集成了实例的外观特征和该实例的位置编码;两组集成后的实例特征将分别被送入两个多头自注意力层进行组内关系解析;之后二者将被一同送入一个多头注意力层中,并分别计算人对物体及物体对人的组间注意力分布;
[0012]P4、自顶向下解码器:给定人物对<human,object>,解码器将根据其构建查询向量,并在此查询的引导下通过自顶向下的关系解析来搜寻视觉线索,以进行交互判断;查询向量的构建采用的是物体的语义向量,人的姿态特征和相对位置编码来构造查询,用于当前pair对相关的视觉线索搜索;
[0013]P5、二分类:经过解码器收集到的视觉线索增强后的人

物对特征将被送入到多个二分类器中进行行为预测,从而得到最终的预测结果。在训练过程中,采用二分类交叉熵损失函数对模型参数进行优化。
[0014]优选地,所述的P1、目标检测是使用在COCO数据集上预训练过的Faster R

CNN检测器进行人/物检测。
[0015]优选地,所述的P2、分组是根据检测结果进行分组,具体为检测所得到的“人”所组成的几何记为H,“物”所组成的集合记为O,二者的并集记为S;然后根据检测框,通过RoI Pooling 从骨干网络中得到每一个实例的特征。对于每一个检测到的人,本专利技术采用姿态检测器为其提取姿态,并将姿态转换为线段图表示的姿态图(Pose map);给定一个人

物对,本专利技术还将提取二者之间的相对位置关系图sp;这个相对位置关系图采用二者检测框的并集区域的两张二值化掩码图表示,其中有物体或人实例的位置上值为1,背景区域的值为0。
[0016]优选地,所述的P3、自顶向下解码器,在其中的知识意为关于人

物对的信息和可能的交互行为先验知识。
[0017]优选地,所述的P3、自顶向下解码器中的知识是基于训练集先验知识所得到的人

物交互关系图。
[0018]优选地,所述的P3:自底向上编码器,其构建方式为,首先在图像中进行场景上下文建模(即look),具体为先将集合H、O两组外观特征分别送入两个多头自注意力层各自进行组内关系解析,之后解析后的两组特征被送入一种分组解析模块(Group

aware Parsing Module, GPM)进行组间关系解析。
[0019]优选地,所述的上下文建模进一步将行为

物体的并发性(Verb

object co

occurrence) 作为先验知识引入到了查询向量的构建中。
[0020]优选地,所述的P4:自顶向下解码器,在解码器中,人和物体将被配对起来作为查询 (query),用于在编码器的输出中有选择地进行视觉线索(Visual clues)收集(即search),查询的构建采用的是人<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识引导下双向注意力机制的人物交互检测方法,包括如下步骤:P1、目标检测:首先在给定图片上运行预训练过的目标检测器,进行目标检测,得到实例的位置坐标及类别预测信息的检测结果;P2、分组:根据P1的检测结果中的位置坐标信息,使用ROI Pooling的方式,在骨干网络提取得到的特征图上进行crop操作,得到实例的外观特征,并根据类别预测将其分为人和物体两组;P3、自底向上编码器:该编码器由多个相同编码器层堆叠而成,以P2中实例的外观特征作为输入,并输出经场景上下文信息增强的特征;输入的实例特征中集成了实例的外观特征和该实例的位置编码;两组集成后的实例特征将分别被送入两个多头自注意力层进行组内关系解析;之后二者将被一同送入一个多头注意力层中,并分别计算人对物体及物体对人的组间注意力分布;P4、自顶向下解码器:给定人物对&lt;human,object&gt;,解码器将根据其构建查询向量,并在此查询的引导下通过自顶向下的关系解析来搜寻视觉线索,以进行交互判断;查询向量的构建采用的是物体的语义向量,人的姿态特征和相对位置编码来构造查询,用于当前pair对相关的视觉线索搜索;P5、二分类:经过解码器收集到的视觉线索增强后的人

物对特征将被送入到多个二分类器中进行行为预测,从而得到最终的预测结果。在训练过程中,采用二分类交叉熵损失函数对模型参数进行优化。2.根据权利要求1所述的基于知识引导下双向注意力机制的人物交互检测方法,其特征在于,所述的P1、目标检测是使用在COCO数据集上预训练过的Faster R

CNN检测器进行人/物检测。3.根据权利要求1所述的基于知识引导下双向注意力机制的人物交互检测方法,其特征在于,所述的P2、分组是根据检测结果进行分组,具体为检测所得到的“人”所组成的几何记为H,“物”所组成的集合记为O,二者的并集记为S;然后根据检测框,通过RoI Pooling从骨干网络中得到每一个实例的特征。对于每一个检测到的人,本发明采用姿态检测...

【专利技术属性】
技术研发人员:李革杨百祥高伟
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1