一种基于视觉语言模型的人物交互检测方法技术

技术编号:41759629 阅读:23 留言:0更新日期:2024-06-21 21:40
本发明专利技术公开了一种基于视觉语言模型的人物交互检测方法分为人物对构建、双分支知识增强、基于双分支结构的两级融合三个阶段。通过提出独立的语义挖掘的解码器来从视觉语言模型中检索动作相关的语义知识,以此来丰富交互特征表示。基于语义挖掘的解码器和空间引导的解码器形成的双分支网络,采用两级融合策略,将经过空间知识增强的人物对查询和视觉语言知识增强的人物对查询进行特征级融合,以此产生了信息量丰富的交互特征用于分类。同时,利用视觉语言模型中的文本先验来产生基于文本嵌入的分类器,以此进行额外的分类。对两种分类结果进行决策级融合,以此开发了视觉语言模型用于人物交互检测的潜力。

【技术实现步骤摘要】

本专利技术属于计算机视觉、人物交互检测,可用于视频监控、智能交通等领域。


技术介绍

1、人物交互检测(hoi)的目的是检测出图像中发生交互关系的人与物体,并理解它们之间的交互动作。hoi检测器通常以<人,动作,物体>三元组的形式输出结果,简洁地表示了人类活动的基本语义信息。hoi检测方法可分为两类:两阶段方法和单阶段方法。两阶段hoi方法首先使用现成的检测器检测人和物体的实例,并预测所有可能的人与物体之间的交互作用。而单阶段hoi检测方法直接从整个图像推断交互。在早期的hoi检测工作中,大多数方法是通过cnn来提取特征并以两阶段的策略来进行hoi检测,它们先利用faster r-cnn目标检测网络检测出人和物体实例,再预测所有可能的人与物体之间的交互作用。为了生成判别性的特征用于交互分类,它们致力于探索额外的特征流来提高交互分类,如空间流、姿势和身体部位流、语义流,还有些方法尝试利用图神经网络中的消息传递机制对全局上下文的信息进行编码。这些基于cnn的方法对于上下文的建模能力不足,导致hoi检测性能难以达到理想的效果。为此,hoi检测器相继引入本文档来自技高网...

【技术保护点】

1.一种基于视觉语言模型的人物交互检测方法,其特征在于,该方法包括如下步骤,

2.根据权利要求1所述的一种基于视觉语言模型的人物交互检测方法,其特征在于,在一个共|X|张图片的图像库上训练的,Ii表示每张输入图片;

3.根据权利要求2所述的一种基于视觉语言模型的人物交互检测方法,其特征在于,人物对查询的构建环节:Detr(·)目标检测器是最近流行的端到端的目标检测模型,将输入图片I∈RH×W×C经过CNN映射得到尺寸更小的特征图I'∈RH'×W'×C',其中H、W、C、H'、W'、C'分别表示输入图片高度、宽度以及通道数分别表示输入图片变换后的高度、宽度以及通道数...

【技术特征摘要】

1.一种基于视觉语言模型的人物交互检测方法,其特征在于,该方法包括如下步骤,

2.根据权利要求1所述的一种基于视觉语言模型的人物交互检测方法,其特征在于,在一个共|x|张图片的图像库上训练的,ii表示每张输入图片;

3.根据权利要求2所述的一种基于视觉语言模型的人物交互检测方法,其特征在于,人物对查询的构建环节:detr(·)目标检测器是最近流行的端到端的目标检测模型,将输入图片i∈rh×w×c经过cnn映射得到尺寸更小的特征图i'∈rh'×w'×c',其中h、w、c、h'、w'、c'分别表示输入图片高度、宽度以及通道数分别表示输入图片变换后的高度、宽度以及通道数;输入图片接着补充位置信息后经过堆叠的transformer编码器来获得图像特征,在transformer解码...

【专利技术属性】
技术研发人员:孔德慧周光普李敬华尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1