基于DETR的人物成对解码交互的人与物交互检测方法技术

技术编号:35150872 阅读:43 留言:0更新日期:2022-10-05 10:29
本发明专利技术公开了一种基于DETR的人物成对解码交互的人与物交互检测方法,将图片通过训练好的DETR模型,获得人物目标框、目标类别和查询向量,从而减少模型训练时间。然后将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;将物的类别输入到语义网络,得到物的语义查询向量,融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量。最后将对象查询向量输入到成对融合检测网络,实现人物交互检测。本发明专利技术提高了人与物交互检测的精度,扩大了网络的感受野,提高了网络的性能。提高了网络的性能。提高了网络的性能。

【技术实现步骤摘要】
基于DETR的人物成对解码交互的人与物交互检测方法


[0001]本申请属于人

物交互检测
,尤其涉及一种基于DETR的人物成对解码交互的人与物交互检测方法。

技术介绍

[0002]人

物交互检测是目标检测的下游任务,是目前热门的计算机视觉任务。相比于目标检测检测目标框和目标类别,人

物交互检测定位图像中的交互人

物对,并对动作进行分类。
[0003]在Transformer模型未被应用在视觉任务前,人

物交互检测算法往往使用卷积网络提取视觉特征,如HO

RCNN,这是典型的基于卷积神经网络的人

物交互检测算法,算法利用R

CNN定位相关区域,骨干网络裁剪特征后再通过多分支融合特征;STIGPN则利用图卷积迭代特征信息。但是这些方法仍存在着局限性,即传统卷积网络无法引入全局信息,同样也会造成特征污染。
[0004]近期,基于端到端的检测变换器网络DETR(Detection Transformer)算法开始流行,其使用深度自注意力来代替卷积,能够引入全局信息来完成集合预测。DETR算法是用于处理目标检测问题,因此将DETR引入目标检测下游任务人

物关系检测,乃至视觉的各领域是一个十分自然的想法。QPIC算法就是将DETR引入人

物关系交互检测领域,将其作为一个基础的检测器,并提取相应上下文信息,预测最终的三元组集合。
[0005]但是基于DETR直接完成三元组集合预测的相关人

物交互检测算法仍存在着一些问题,其一是训练困难,这是Transformer模型带来的劣势;其二是将单一的查询(Query)作为一个整体预测特征,而忽视了多个查询(Queries)之间的更符合直觉的特征联系,因此需要设计一种特殊的结构来融合相应的特征联系。同时,最后所预测的<human,object,interaction>三元组缺少相应的可靠性判断,需要一个语义模型来进行约束。

技术实现思路

[0006]本申请提出了一种基于DETR的人物成对解码交互的人与物交互检测方法,来减少训练资源,结合语义模态提高人

物交互检测精度。
[0007]为了实现上述目的,本申请技术方案如下:
[0008]一种基于DETR的人物成对解码交互的人与物交互检测方法,包括:
[0009]将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别;
[0010]将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;
[0011]将物的类别输入到语义网络,得到物的语义查询向量;
[0012]融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查
询向量和人的查询向量进行合并,得到对象查询向量;
[0013]将对象查询向量输入到成对融合检测网络,实现人物交互检测。
[0014]进一步的,所述语义网络包括空间注意力模块和语义聚合模块,所述语义空间注意力模块输入特征为数据集的动词嵌入向量,输出语义空间注意力特征;
[0015]所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。
[0016]进一步的,所述融合物的查询向量和物的语义查询向量,得到融合的物查询向量,包括:
[0017]将物的查询向量和物的语义查询向量相加后通过ReLU激活函数,减去物的查询向量和物的语义查询向量相减后的平方。
[0018]进一步的,所述成对融合检测网络依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层;
[0019]所述改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层,前向传播层和归一化层,输出成对查询向量;
[0020]在成对融合模块中,成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合操作后,经过线性层后相乘,之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量;
[0021]将融合了多种特征的成对查询向量经过Transformer解码器解码后,输出MLP中,得到人

物交互动作的概率分数,从而完成对人

物交互动作的检测。
[0022]进一步的,所述基于DETR的人物成对解码交互的人与物交互检测方法,还包括:
[0023]计算网络整体损失函数,进行反向传播,更新网络参数;
[0024]其中,网络整体损失函数为:
[0025]L
total
=L
a
+L
SKL
[0026]其中,L
total
表示整体损失函数,L
a
和L
SKL
分别表示动词交叉熵损失函数和语义相对熵损失函数;
[0027]所述的动词交叉熵损失函数L
a
为:
[0028][0029]其中,N
q
表示为动词的种类数量,表示为统计与物体对应的预测动词类别数量,Φ表示总共的真实值的集合,表示在预测集合中,l
f
为焦点损失,l
f
(p
t
)=

α
t
(1

p
t
)
γ
log(p
t
),α
t
为抑制正负样本参数失衡参数,γ为控制简易/
困难样本数量失衡参数,p
t
为样本,其中表示真实动词类别;
[0030]所述的语义相对熵损失函数L
SKL
为:
[0031][0032]其中是数据集中动词对称条件分布,A是语义空间注意力模块处理过的动词的邻接矩阵,是KL散度损失函数;
[0033]可以通过以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述基于DETR的人物成对解码交互的人与物交互检测方法,包括:将原始图像经过骨干网络得到的特征图注入训练好DETR网络,所述DETR网络包括编码器、解码器和MLP层,获得解码器输出的查询向量,以及DETR网络最终输出的目标框及目标类别;将查询向量和目标类别输入到查询向量分类器,得到人的查询向量、物的查询向量和物的类别;将物的类别输入到语义网络,得到物的语义查询向量;融合物的查询向量和物的语义查询向量,得到融合的物查询向量,将融合的物查询向量和人的查询向量进行合并,得到对象查询向量;将对象查询向量输入到成对融合检测网络,实现人物交互检测。2.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述语义网络包括空间注意力模块和语义聚合模块,所述语义空间注意力模块输入特征为数据集的动词嵌入向量,输出语义空间注意力特征;所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别,语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征,与物的类别通过另一个线性层得到的特征相乘,将结果依次通过线性层、归一化层、ReLU激活函数和线性层后加上物的类别,然后输入到Transformer层得到物的语义查询向量。3.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述融合物的查询向量和物的语义查询向量,得到融合的物查询向量,包括:将物的查询向量和物的语义查询向量相加后通过ReLU激活函数,减去物的查询向量和物的语义查询向量相减后的平方。4.根据权利要求1所述的基于DETR的人物成对解码交互的人与物交互检测方法,其特征在于,所述成对融合检测网络依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层;所述改进的Transformer编码器,输入特征分别是对象查询向量和成对框位置编码,在改进的Transformer编码器中,将对象查询向量配对后与成对框位置编码结合,通过线性层和sigmoid激活函数,得到第一分支的输出;将对象查询向量复制后与成对框位置编码元素相乘,得到第二分支的输出;将两个分支的输出元素相乘后通过线性层,并与输入的对象查询向量相加,再经过归一化层,前向传播层和归一化层,输出成对查...

【专利技术属性】
技术研发人员:刘盛张峰陈俊皓郭炳男陈瑞祥
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1