【技术实现步骤摘要】
基于DETR的人物成对解码交互的人与物交互检测方法
[0001]本申请属于人
‑
物交互检测
,尤其涉及一种基于DETR的人物成对解码交互的人与物交互检测方法。
技术介绍
[0002]人
‑
物交互检测是目标检测的下游任务,是目前热门的计算机视觉任务。相比于目标检测检测目标框和目标类别,人
‑
物交互检测定位图像中的交互人
‑
物对,并对动作进行分类。
[0003]在Transformer模型未被应用在视觉任务前,人
‑
物交互检测算法往往使用卷积网络提取视觉特征,如HO
‑
RCNN,这是典型的基于卷积神经网络的人
‑
物交互检测算法,算法利用R
‑
CNN定位相关区域,骨干网络裁剪特征后再通过多分支融合特征;STIGPN则利用图卷积迭代特征信息。但是这些方法仍存在着局限性,即传统卷积网络无法引入全局信息,同样也会造成特征污染。
[0004]近期,基于端到端的检测变换器网络DETR(Detection Transformer)算法开始流行,其使用深度自注意力来代替卷积,能够引入全局信息来完成集合预测。DETR算法是用于处理目标检测问题,因此将DETR引入目标检测下游任务人
‑
物关系检测,乃至视觉的各领域是一个十分自然的想法。QPIC算法就是将DETR引入人
‑
物关系交互检测领域,将其作为一个基础的检测器,并提取相应上下文信息,预测最 ...
【技术保护点】
【技术特征摘要】
1.一种基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述基于DETR的人物成对解码交互的人与物交互检测方法,包括:将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别;将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;将物的类别输入到语义网络,得到物的语义查询向量;融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量;将对象查询向量输入到成对融合检测网络,实现人物交互检测。2.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述语义网络包括空间注意力模块和语义聚合模块,所述语义空间注意力模块输入特征为数据集的动词嵌入向量,输出语义空间注意力特征;所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。3.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述融合物的查询向量和物的语义查询向量,得到融合的物查询向量,包括:将物的查询向量和物的语义查询向量相加后通过ReLU激活函数,减去物的查询向量和物的语义查询向量相减后的平方。4.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述成对融合检测网络依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层;所述改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层,前向传播层和归一化层,输出成对查...
【专利技术属性】
技术研发人员:刘盛,张峰,陈俊皓,郭炳男,陈瑞祥,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。