一种基于知识引导下双向注意力机制的人物交互检测方法技术

技术编号：33558718 阅读：32 留言：0更新日期：2022-05-26 22:55

本发明专利技术公开了一种基于知识引导下双向注意力机制的人物交互检测方法，包括如下五个步骤：目标检测、分组、自底向上编码器、自顶向下编码器、二分类；对复杂场景中存在的多个人、物实例进行人物交互检测的关键有效地对场景中的对象进行关系建模解析，通过将知识引导下的自顶向下注意力机制引入到了人物交互检测任务，使得模型能够为给定的人

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识引导下双向注意力机制的人物交互检测方法

[0001]本专利技术涉及图片中人物交互识别检测，特别地一种基于知识引导下双向注意力机制的人物交互检测方法，为一种两阶段设置下的人物交互识别检测方法。
技术背景
[0002]近几年来，随着计算机视觉发展的不断深入，以人为主体的人物交互检测任务受到了人们的广泛关注。人物交互检测任务的核心问题是对场景中的人和其周边对象间的关系的理解和检测，该任务有着诸多广阔的应用场景：既可以直接应用于监控系统、机器人视觉系统、人机交互中，同时又可以作为基础接口，为下游的一系列复杂视觉任务，如图像、视频推荐与检索，多媒体数据摘要等应用提供支持。人物交互检测任务即：给定一张图片，模型需要输出<人、交互类别、物体>所构成的三元组，其不仅需要对人和物体进行定位，同时也需要识别出二者之间所存在的交互关系。
[0003]人物交互检测是场景理解中的基础问题，它不仅需要回答“在什么地方？”(即对象识别和定位)的问题，还要回答“正在发生什么？”的问题。区别于其它以实体(如物体、人)作为研究对象的计算机视觉任务，虽然行为产生的主体是“人”这一实体，但其研究对象却是“行为”这一抽象的概念。对抽象概念的理解是实现未来人工智能发展与进步的必经之路。为了实现对于这一抽象概念的理解，只通过外观特征是远远不够的，还需要对场景中多元对象间的空间位置关系，甚至数据外部的知识先验信息进行分析和推理。
[0004]人物交互检测任务更注重对视觉数据中多个实体对象间的关系进行分析，要求...

【技术保护点】

【技术特征摘要】
1.一种基于知识引导下双向注意力机制的人物交互检测方法，包括如下步骤：P1、目标检测：首先在给定图片上运行预训练过的目标检测器，进行目标检测，得到实例的位置坐标及类别预测信息的检测结果；P2、分组：根据P1的检测结果中的位置坐标信息，使用ROI Pooling的方式，在骨干网络提取得到的特征图上进行crop操作，得到实例的外观特征，并根据类别预测将其分为人和物体两组；P3、自底向上编码器：该编码器由多个相同编码器层堆叠而成，以P2中实例的外观特征作为输入，并输出经场景上下文信息增强的特征；输入的实例特征中集成了实例的外观特征和该实例的位置编码；两组集成后的实例特征将分别被送入两个多头自注意力层进行组内关系解析；之后二者将被一同送入一个多头注意力层中，并分别计算人对物体及物体对人的组间注意力分布；P4、自顶向下解码器：给定人物对<human,object>，解码器将根据其构建查询向量，并在此查询的引导下通过自顶向下的关系解析来搜寻视觉线索，以进行交互判断；查询向量的构建采用的是物体的语义向量，人的姿态特征和相对位置编码来构造查询，用于当前pair对相关的视觉线索搜索；P5、二分类：经过解码器收集到的视觉线索增强后的人
‑
物对特征将被送入到多个二分类器中进行行为预测，从而得到最终的预测结果。在训练过程中，采用二分类交叉熵损失函数对模型参数进行优化。2.根据权利要求1所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，所述的P1、目标检测是使用在COCO数据集上预训练过的Faster R
‑
CNN检测器进行人/物检测。3.根据权利要求1所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，所述的P2、分组是根据检测结果进行分组，具体为检测所得到的“人”所组成的几何记为H，“物”所组成的集合记为O，二者的并集记为S；然后根据检测框，通过RoI Pooling从骨干网络中得到每一个实例的特征。对于每一个检测到的人，本发明采用姿态检测...

【专利技术属性】
技术研发人员：李革，杨百祥，高伟，
申请(专利权)人：北京大学深圳研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人