【技术实现步骤摘要】
本专利技术属于计算机视觉、人物交互检测,可用于视频监控、智能交通等领域。
技术介绍
1、人物交互检测(hoi)的目的是检测出图像中发生交互关系的人与物体,并理解它们之间的交互动作。hoi检测器通常以<人,动作,物体>三元组的形式输出结果,简洁地表示了人类活动的基本语义信息。hoi检测方法可分为两类:两阶段方法和单阶段方法。两阶段hoi方法首先使用现成的检测器检测人和物体的实例,并预测所有可能的人与物体之间的交互作用。而单阶段hoi检测方法直接从整个图像推断交互。在早期的hoi检测工作中,大多数方法是通过cnn来提取特征并以两阶段的策略来进行hoi检测,它们先利用faster r-cnn目标检测网络检测出人和物体实例,再预测所有可能的人与物体之间的交互作用。为了生成判别性的特征用于交互分类,它们致力于探索额外的特征流来提高交互分类,如空间流、姿势和身体部位流、语义流,还有些方法尝试利用图神经网络中的消息传递机制对全局上下文的信息进行编码。这些基于cnn的方法对于上下文的建模能力不足,导致hoi检测性能难以达到理想的效果。为此,
...【技术保护点】
1.一种基于视觉语言模型的人物交互检测方法,其特征在于,该方法包括如下步骤,
2.根据权利要求1所述的一种基于视觉语言模型的人物交互检测方法,其特征在于,在一个共|X|张图片的图像库上训练的,Ii表示每张输入图片;
3.根据权利要求2所述的一种基于视觉语言模型的人物交互检测方法,其特征在于,人物对查询的构建环节:Detr(·)目标检测器是最近流行的端到端的目标检测模型,将输入图片I∈RH×W×C经过CNN映射得到尺寸更小的特征图I'∈RH'×W'×C',其中H、W、C、H'、W'、C'分别表示输入图片高度、宽度以及通道数分别表示输入图片变换后的
...【技术特征摘要】
1.一种基于视觉语言模型的人物交互检测方法,其特征在于,该方法包括如下步骤,
2.根据权利要求1所述的一种基于视觉语言模型的人物交互检测方法,其特征在于,在一个共|x|张图片的图像库上训练的,ii表示每张输入图片;
3.根据权利要求2所述的一种基于视觉语言模型的人物交互检测方法,其特征在于,人物对查询的构建环节:detr(·)目标检测器是最近流行的端到端的目标检测模型,将输入图片i∈rh×w×c经过cnn映射得到尺寸更小的特征图i'∈rh'×w'×c',其中h、w、c、h'、w'、c'分别表示输入图片高度、宽度以及通道数分别表示输入图片变换后的高度、宽度以及通道数;输入图片接着补充位置信息后经过堆叠的transformer编码器来获得图像特征,在transformer解码...
【专利技术属性】
技术研发人员:孔德慧,周光普,李敬华,尹宝才,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。