一种基于多尺度可变形Transformer网络的人与物交互检测方法技术

技术编号:38847439 阅读:14 留言:0更新日期:2023-09-17 09:57
本发明专利技术公开了一种基于多尺度可变形Transformer网络的人与物交互检测方法,将待检测图像输入到多尺度骨干网络提取特征,并输入至可变形Transformer编码器中完成多尺度特征的编码,得到视觉上下文特征;然后将视觉上下文特征输入到级联架构的可变形Transformer解码器,得到人与物解码特征和动作解码特征;将人与物解码特征通过一个嵌入层以及FFN网络,检测得到人与物体的边界框和物体类别,将动作解码特征通过FFN网络,检测得到动作类别;最后将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测,在待检测图像中绘制显示得到最终的结果。本发明专利技术引入级联可变形解码器结构,以一致性地获得复杂环境中的交互预测。复杂环境中的交互预测。复杂环境中的交互预测。

【技术实现步骤摘要】
一种基于多尺度可变形Transformer网络的人与物交互检测方法


[0001]本申请属于人与物交互检测
,尤其涉及一种基于多尺度可变形Transformer网络的人与物交互检测方法。

技术介绍

[0002]人与物体交互(HOI)检测是智能机器人领域的一个重要组成部分,它关注人与物体之间的交互。与目标检测相比,它更加关注动作和场景理解,这对于机器理解人类活动具有重要意义。具体来说,HOI检测从输入图像中预测一组三元组,三元组包括相应交互的人和物体的位置,以及交互类别。在复杂、多变的环境中智能、高效地定位人与物对并预测相应的交互,这是一个十分具有挑战性的任务。
[0003]定位和交互识别是HOI(人与物交互)检测中的两个主要任务,需要较高的图像和场景理解水平。目前存在HOI检测方法通常依赖于单一架构来解决这两个任务。然而,这样的策略往往会忽略两个不同任务之间的内在联系。同时,以往的方法受限于尺度信息的缺失,效果不理想。

技术实现思路

[0004]本申请的目的是提供一种基于多尺度可变形Transformer网络的人与物交互检测方法,以克服背景计数中所指出的技术问题。
[0005]一种基于多尺度可变形Transformer网络的人与物交互检测方法,包括:
[0006]将待检测图像输入到多尺度骨干网络提取特征,将提取的各个尺度的特征展平为一维向量,并输入至可变形Transformer编码器中完成多尺度特征的编码,得到视觉上下文特征;
[0007]将视觉上下文特征输入到级联架构的可变形Transformer解码器,得到人与物解码特征和动作解码特征;
[0008]将人与物解码特征通过一个嵌入层以及FFN网络,检测得到人与物体的边界框和物体类别,将动作解码特征通过FFN网络,检测得到动作类别;
[0009]将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测,在待检测图像中绘制显示得到最终的结果。
[0010]进一步的,所述级联架构的可变形Transformer解码器包括级联的人与物解码器和动作解码器。
[0011]进一步的,所述人与物解码器和动作解码器均包括若干层可变形解码层,每一个可变形解码层包括可变形多头自注意力模块和多尺度可变形自注意力模块。
[0012]进一步的,所述人与物解码器,执行如下操作:
[0013]初始化查询向量,将所述查询向量分为长度相等的人物交互查询向量和位置查询向量,并将位置查询向量通用一个线性层得到锚框变量;
[0014]将人物交互查询向量和位置查询向量重新拼接获得人与物查询向量,分别作为第一层可变形解码层中可变形多头自注意力模块的Q、V和K向量,经过可变形多头自注意力模块后输出多头注意力向量;
[0015]将多头注意力向量与锚框变量进行相加操作后,与锚框变量和视觉上下文特征一起输入多尺度可变形自注意力模块得到多尺度可变形向量;
[0016]将多尺度可变形向量输入到下一层可变形解码层,作为下一层可变形解码层中可变形多头自注意力模块的Q、V和K向量,进行与第一层可变形解码层同样的操作,最终将最后一层可变形解码层的输出作为人与物解码特征。
[0017]进一步的,所述动作解码器,执行如下操作:
[0018]将人与物解码器每一可变形解码层的输出通过动作嵌入函数得到动作查询向量,输入到动作解码器对应的可变形解码层;
[0019]在动作解码器的每一层可变形解码层中,将动作查询向量作为可变形多头自注意力模块的Q、V和K向量,经过可变形多头自注意力模块后输出多头注意力向量;
[0020]在动作解码器的每一层可变形解码层中,将多头注意力向量、视觉上下文特征以及上一层可变形解码层的输出,输入到多尺度可变形自注意力模块得到多尺度可变形向量;
[0021]将动作解码器最后一层可变形解码层的输出作为动作解码特征。
[0022]本申请提出的一种基于多尺度可变形Transformer网络的人与物交互检测方法,使用多尺度的骨干网络提取图像特征,并结合可变形Transformer编码器,以提取上下文多尺度特征,从而在空间尺度上引入不同对象的位置和大小变化,以获得更准确和更健壮的视觉特征表示。此外,该方法引入级联可变形解码器结构,以一致性地获得复杂环境中的交互预测。
附图说明
[0023]图1为本申请人与物交互检测方法流程图;
[0024]图2为本申请多尺度可变形Transformer网络示意图;
[0025]图3为本申请可变形Transformer解码器示意图。
具体实施方式
[0026]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0027]在一个实施例中,本申请提供的一种基于多尺度可变形Transformer网络的人与物交互检测方法,包括:
[0028]步骤S1、将待检测图像输入到多尺度骨干网络提取特征,将提取的各个尺度的特征展平为一维向量,并输入至可变形Transformer编码器中完成多尺度特征的编码,得到视觉上下文特征。
[0029]本申请采用Swin Ttransformer的多尺度骨干网络来提取初步的分层图像视觉特征。给定一张图像输入至多尺度骨干网络后,得到
这4个尺度的特征图,其中C
s
是通过多层骨干网络计算后,得到的转换维度,C
l
=256,并将其拼接输入可变形(Deformable)Transformer编码器,生成视觉上下文特征V
m

[0030]本申请级联解码的网络结构如图2所示,在经过骨干网络提取多尺度信息,并通过视觉编码器获得视觉上下文特征之后,将视觉上下文特征以共享的方式输入至人与物解码器以及动作解码器中。在图2中,将可变形(Deformable)Transformer编码器的整个编码过程表示为对视觉信息的编码,将这一块的整体架构称为视觉编码器(Visual Encoder)。可变形Transformer编码器采用位置编码将多尺度特征图以及位置编码输入可变形编码器来生成视觉上下文特征其中C
d
是C
s
通过1
×
1的卷积操作变换得到,N
m
则表示单通道特征图的像素总和,视觉上下文特征输入到后续的可变形解码器来解码HOI特征。
[0031]步骤S2、将视觉上下文特征输入到级联架构的可变形Transformer解码器,得到人与物解码特征和动作解码特征。
[0032]本实施例级联架构的可变形Transformer解码器(Deformable Transformer Decoder)包括级联的人与物解码器和动作解码器。
[0033]步骤S1通过一个骨干网络以及可变形的Transformer编码器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度可变形Transformer网络的人与物交互检测方法,其特征在于,所述基于多尺度可变形Transformer网络的人与物交互检测方法,包括:将待检测图像输入到多尺度骨干网络提取特征,将提取的各个尺度的特征展平为一维向量,并输入至可变形Transformer编码器中完成多尺度特征的编码,得到视觉上下文特征;将视觉上下文特征输入到级联架构的可变形Transformer解码器,得到人与物解码特征和动作解码特征;将人与物解码特征通过一个嵌入层以及FFN网络,检测得到人与物体的边界框和物体类别,将动作解码特征通过FFN网络,检测得到动作类别;将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测,在待检测图像中绘制显示得到最终的结果。2.根据权利要求1所述的基于多尺度可变形Transformer网络的人与物交互检测方法,其特征在于,所述级联架构的可变形Transformer解码器包括级联的人与物解码器和动作解码器。3.根据权利要求2所述的基于多尺度可变形Transformer网络的人与物交互检测方法,其特征在于,所述人与物解码器和动作解码器均包括若干层可变形解码层,每一个可变形解码层包括可变形多头自注意力模块和多尺度可变形自注意力模块。4.根据权利要求3所述的基于多尺度可变形Transformer网络的人与物交互检测方法,其特征在于,所述人与物解码器,执行如下操作...

【专利技术属性】
技术研发人员:刘盛郭炳男张峰陈俊皓陈瑞祥
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1