【技术实现步骤摘要】
运用自选择注意并强指导查询的人与物交互检测方法
[0001]本申请属于人
‑
物交互检测
,尤其涉及一种运用自选择注意并强指导查询的人与物交互检测方法。
技术介绍
[0002]人
‑
物交互检测是目标检测的下游任务,是目前热门的计算机视觉任务。相比于目标检测检测目标框和目标类别,人
‑
物交互检测定位图像中的交互人
‑
物对,并对动作进行分类。
[0003]在Transformer模型未被应用在视觉任务前,人
‑
物交互检测算法往往使用卷积网络提取视觉特征,如HO
‑
RCNN,这是典型的基于卷积神经网络的人
‑
物交互检测算法,算法利用R
‑
CNN定位相关区域,骨干网络裁剪特征后再通过多分支融合特征;STIGPN则利用图卷积迭代特征信息。但是这些方法仍存在着局限性,即传统卷积网络无法引入全局信息,同样也会造成特征污染。
[0004]近期,基于端到端的检测变换器网络DETR( ...
【技术保护点】
【技术特征摘要】
1.一种运用自选择注意并强指导查询的人与物交互检测方法,其特征在于,所述运用自选择注意并强指导查询的人物交互检测方法,包括:将原始图像经过骨干网络得到的特征图注入训练好的DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的视觉特征向量,以及DETR网络最终输出的目标框及目标类别;将人和物两两配对,将配对的人与物目标框、视觉特征向量以及物的类别输入查询特征提取网络,获得强指导查询向量;将强指导查询向量和配对的人与物目标框信息输入交互检测分数网络,获得筛选后的强指导查询向量和筛选后的配对人与物目标框信息;将筛选后的配对的人与物目标框信息和骨干网络得到的特征图输入自选择注意构建网络,获得自选择注意的记忆特征;将自选择注意记忆特征和筛选后的强指导查询向量输入交互检测解码器网络,实现人与物交互动作检测。2.根据权利要求1所述的运用自选择注意并强指导查询的人与物交互检测方法,其特征在于,所述查询特征提取网络包括视觉特征提取模块、语义指导特征提取模块、空间普通特征提取模块和空间指导特征提取模块;其中:所述视觉特征提取模块将配对的视觉特征向量结合成一个视觉特征向量;所述语义指导特征提取模块将配对的人和物的类别分别通过CLIP文本编码器中得到对应的语义向量,之后将两个语义向量结合成语义指导特征向量;所述空间普通特征提取模块根据配对的人与物目标框,生成空间普通特征向量;所述空间指导特征提取模块根据配对的人和物目标框的位置关系,生成配对的人与物对应的空间指导特征向量;最后所述查询特征提取网络将视觉特征向量、语义指导特征向量、空间普通特征向量和空间指导特征向量结合并通过一个线性层和ReLU激活函数,输出强指导查询向量。3.根据权利要求1所述的运用自选择注意并强指导查询的人与物交互检测方法,其特征在于,所述交互检测分数网络输入强指导查询向量,得到各个强指导查询向量对应的交互检测分数,根据交互检测分数的高低,筛选出预设数量个分数...
【专利技术属性】
技术研发人员:刘盛,张峰,郭炳男,陈瑞祥,陈俊皓,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。