一种基于多尺度可变形Transformer网络的人与物交互检测方法技术

技术编号：38847439 阅读：14 留言：0更新日期：2023-09-17 09:57

本发明专利技术公开了一种基于多尺度可变形Transformer网络的人与物交互检测方法，将待检测图像输入到多尺度骨干网络提取特征，并输入至可变形Transformer编码器中完成多尺度特征的编码，得到视觉上下文特征；然后将视觉上下文特征输入到级联架构的可变形Transformer解码器，得到人与物解码特征和动作解码特征；将人与物解码特征通过一个嵌入层以及FFN网络，检测得到人与物体的边界框和物体类别，将动作解码特征通过FFN网络，检测得到动作类别；最后将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测，在待检测图像中绘制显示得到最终的结果。本发明专利技术引入级联可变形解码器结构，以一致性地获得复杂环境中的交互预测。复杂环境中的交互预测。复杂环境中的交互预测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多尺度可变形Transformer网络的人与物交互检测方法

[0001]本申请属于人与物交互检测
，尤其涉及一种基于多尺度可变形Transformer网络的人与物交互检测方法。

技术介绍

[0002]人与物体交互(HOI)检测是智能机器人领域的一个重要组成部分，它关注人与物体之间的交互。与目标检测相比，它更加关注动作和场景理解，这对于机器理解人类活动具有重要意义。具体来说，HOI检测从输入图像中预测一组三元组，三元组包括相应交互的人和物体的位置，以及交互类别。在复杂、多变的环境中智能、高效地定位人与物对并预测相应的交互，这是一个十分具有挑战性的任务。
[0003]定位和交互识别是HOI(人与物交互)检测中的两个主要任务，需要较高的图像和场景理解水平。目前存在HOI检测方法通常依赖于单一架构来解决这两个任务。然而，这样的策略往往会忽略两个不同任务之间的内在联系。同时，以往的方法受限于尺度信息的缺失，效果不理想。

技术实现思路

[0004]本申请的目的是提供一种基于多尺度可变形Transformer网络的人与物交互检测方法，以克服背景计数中所指出的技术问题。
[0005]一种基于多尺度可变形Transformer网络的人与物交互检测方法，包括：
[0006]将待检测图像输入到多尺度骨干网络提取特征，将提取的各个尺度的特征展平为一维向量，并输入至可变形Transformer编码器中完成多尺度特征的编码，得到视觉上下文特征；
[0007]将视觉上下文特征输入到级联...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度可变形Transformer网络的人与物交互检测方法，其特征在于，所述基于多尺度可变形Transformer网络的人与物交互检测方法，包括：将待检测图像输入到多尺度骨干网络提取特征，将提取的各个尺度的特征展平为一维向量，并输入至可变形Transformer编码器中完成多尺度特征的编码，得到视觉上下文特征；将视觉上下文特征输入到级联架构的可变形Transformer解码器，得到人与物解码特征和动作解码特征；将人与物解码特征通过一个嵌入层以及FFN网络，检测得到人与物体的边界框和物体类别，将动作解码特征通过FFN网络，检测得到动作类别；将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测，在待检测图像中绘制显示得到最终的结果。2.根据权利要求1所述的基于多尺度可变形Transformer网络的人与物交互检测方法，其特征在于，所述级联架构的可变形Transformer解码器包括级联的人与物解码器和动作解码器。3.根据权利要求2所述的基于多尺度可变形Transformer网络的人与物交互检测方法，其特征在于，所述人与物解码器和动作解码器均包括若干层可变形解码层，每一个可变形解码层包括可变形多头自注意力模块和多尺度可变形自注意力模块。4.根据权利要求3所述的基于多尺度可变形Transformer网络的人与物交互检测方法，其特征在于，所述人与物解码器，执行如下操作...

【专利技术属性】
技术研发人员：刘盛，郭炳男，张峰，陈俊皓，陈瑞祥，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人