一种基于编码解码架构的两阶段人-物交互检测方法技术

技术编号:38057280 阅读:14 留言:0更新日期:2023-06-30 11:23
本发明专利技术属于计算机视觉技术领域,具体涉及一种基于编码解码架构的两阶段人

【技术实现步骤摘要】
一种基于编码解码架构的两阶段人

物交互检测方法


[0001]本专利技术属于计算机视觉
,具体涉及一种基于编码解码架构的两阶段人

物交互检测方法。

技术介绍

[0002]近年来,人工智能的发展势头强盛,科研工作者以及产业投资人不仅将眼光局限于传统的通过观测外界自然环境来识别物体的视觉感知任务,如目标检测,语义分割等,而逐渐对能够思考获得物体之间的上下文关系信息,解读出图像或者场景的潜在信息的图像语义理解任务感兴趣。这其中就包括人

物交互检测任务。人

物交互检测任务旨在能正确识别和定位人和物体的实例基础上,发掘人

物对之间的交互关系,将相对复杂的人类活动简化成对<人,物体,动作>三元组的预测。作为图像语义理解的一项基本任务,对进一步推进人工智能研究从观测感知层次到思考理解层次起到重大作用,同时也促进众多计算机视觉领域方向的发展,包括动作理解,视觉问题回答等。接下来详细介绍这一领域中相关的
技术介绍

[0003](1)人体交互检测数据集介绍
[0004]任务交互检测任务中的公开数据集的数量较多,常规使用基于单张RGB图像的V

COCO以及HICO

DET数据集。V

COCO是常用人

物交互检测的评估数据集,共计2533张训练图像,2867张验证图像,4946张测试图像。对象类取自MS
‑<br/>COCO数据集已有的图像;使用简化的词汇,在不同的对象类中指定了26种常见的动作。mAP计算动作的平均AP。在场景一下要求图片中无物体的交互要准确预测其物体不存在,场景二只需保证其交互动作准确。而HICO

DET数据集同样使用MS

COCO数据集中的80个对象类别和常用动词来创建每个对象的交互类别,共计37633张训练图像、9546张测试图像,共127个动作,600个人

物交互三元组。同样存在无标记图片;mAP计算600个三元组的平均AP;完全模式所有图片上的预测都被考虑在内,而已知物体模式则只统计存在标签的图片中的预测准确的物体对应三元组的mAP。
[0005](2)基于Transformer的人

物交互检测方法
[0006]近几年,由于深度学习注意力技术在计算机视觉领域中的广泛应用,特别是基于Transformer技术的迅速发展,人

物交互检测方法取得了长足的进步。DETR的出现启发了许多科研人员,HOI

Trans和QPIC的研究者发现在DETR原有两个预测头的基础上增添交互动作分类头和人

物定位框头,并依靠匈牙利匹配算法能够适应本领域的要求。
[0007]但单阶段方法面临多任务学习难题,如何平衡目标检测任务和动作识别任务是一个挑战。AS

NET提出实例感知注意力模块能够将实例分支和交互分支的抽象特征进行融合,并通过预测关键点偏移进行匹配。HOIR将解码器解耦并平行训练,通过HO指针匹配,而CDN将原本的解码器解耦并级联,实例解码器学习物体和人的信息,通过查询嵌入方式传递给交互动作分类解码器;DT则更进一步,将编码器和解码器分别解耦成三份,通过基础解码器生成统一特征以及注意力融合模块辅助实例和交互解码器推理的方式促进结果提升;CPC则通过改进了训练策略,利用增强的解码路径来提高Transformer的HOI检测,即在预测
HOI的同时通过人

物特征来预测交互,人

交互特征来预测物,物

交互特征来预测人三个任务进行增强学习。
[0008]随着Transformer应用的深入,一些科研人员尝试在原有视觉特征基础上融入文本特征,提升表现。OCN提出了动词语义模块,能够将预先提取的动词特征进行语义增强,通过多模态校准与视觉特征融合进行推理;CATN则通过探究发现,利用外部目标检测器提供的物体类别先验的文本嵌入信息作为物体查询序列的初始化有助于结果的提升;GEN

VLKT则利用大规模预训练多模态模型CLIP,提取标签的文本嵌入来初始化分类器,并采用模仿损失以最小化交互解码器和CLIP之间的视觉特征距离。
[0009]UPT方案则第一个将Transformer引进至两阶段人

物目标检测,提出了单数

成对转化器,能将一阶段和人和物体特征和学习到的位置编码融合,通过合作和竞争编码器得到成对的预测结果。
[0010](3)人

物交互检测目前困境
[0011]首先,训练一阶段的HOI检测模型本质是一个多任务优化问题,会因为每个子任务优化方向不一致导致最终结果收敛到次优解。对于HOI检测,其至少也需要优化四个子任务,人的边界框,物体的边界框,物体的类别以及动作交互类别,收敛的难度要大于目标检测。因此,现阶段的一阶段方案普遍依赖预训练的目标检测模型权重作为初始权重且收敛速度较慢,限制了方法的迁移,改进和推广。
[0012]其次,现有的两阶段方法基本缺乏抽取全局上下文特征来辅助推理,导致推理有些武断。两阶段方法固定了预训练目标检测器网络的权重并使用其提供的特征和预测结果,将问题转化为如何从已有的特征中挖掘人

物对的交互信息,避免了多目标优化带来的困扰。但存在假设前提,目标检测器提供的外观定位特征的确能够区分不同人

物交互对动作的异同,而且外部环境特征对动作的识别影响较小以致可以舍弃。然而,交互动作可以分为直接接触动作和间接接触动作,有些直接动作可以由周围环境推理得出,而间接接触动作通常能用于推理的动作并不在人和物的边界框内,需要额外推理特征。现有许多方法引入联合区域,文本特征以及骨骼点来增强动作识别结果,却忽视了直接从图像本身提取特征带来的益处。在第一阶段提取特征的基础上如何对特征进行处理并设计结构来进一步提取图片的全局上下文特征也是本专利技术探讨的主题。

技术实现思路

[0013]本专利技术主要解决现有技术下对两阶段人

物交互检测方法的拓展不够全面,缺乏从全局上下文来辅助推理的手段以及缺乏一个从人

物匹配对级别进行注意力特征融合的机制,提出了一种基于编码解码架构的两阶段人

物交互检测方法,其目的是提升在公开数据集的结果。
[0014]本专利技术的技术方案:
[0015]一种基于编码解码架构的两阶段人

物交互检测方法,包括以下步骤:
[0016]步骤100,分别准备V

COCO和HICO

DET公开的人

物交互检测数据集;
[0017]步骤200,对数据集进行预处理。
...

【技术保护点】

【技术特征摘要】
1.一种基于编码解码架构的两阶段人

物交互检测方法,其特征在于,包括以下步骤:步骤100,分别准备V

COCO和HICO

DET公开的人

物交互检测数据集;步骤200,对数据集进行预处理;步骤201,训练阶段对图像进行随机水平翻转;步骤202,调整图片大小并随机剪裁,或直接调整图片大小;步骤203,针对数据集中图片的RGB通道已经给定的均值和方差,进行正则化;步骤204,推理阶段调整图片大小并进行正则化;步骤300,构建DETR目标检测器,在步骤100形成的数据集上训练目标检测模型;具体的,DETR目标检测器包含三个主要部分:(1)Resnet主干网络,用于从图片中提取一个紧凑的特征表示以防止后续注意力操作导致的显存爆炸问题;(2)采用多头自注意力以及前馈网络的多层堆叠的Transformer编码解码器,Transformer编码器将主干网络提取的特征结合二维正弦静态位置编码进行处理成为Transformer编码器记忆编码,Transformer解码器利用交叉注意力机制提取Transformer编码器记忆编码的有用部分输出对象查询特征;(3)查询对象头接受Transformer解码器输出的对象查询特征并输出预测结果;其包括如下步骤:步骤301,读取预训练参数文件,加载在MS

COCO大规模图像目标检测数据集上的预训练的模型权重;步骤302,从步骤200处理生成的数据集中读取图像和物体标签以及物体的边界框,划分训练集和验证集;步骤303,将训练数据分批次输入到Resnet骨干网络,获得对应的特征图、掩码矩阵以及位置编码;步骤304,特征图、掩码矩阵以及位置编码经过Transformer编码器生成对应的编码器记忆编码以供解码器使用;步骤305,在Transformer解码器中输入步骤303获得的掩码矩阵和位置编码,步骤304获得的Transformer编码器特征以及查询嵌入和查询序列输入,通过交叉注意力机制获得对象查询特征,再经过查询对象头(前馈网络)获得对应的查询预测结果;步骤306,训练阶段采用匈牙利二部图匹配方式和真实标签一对一匹配;推断阶段采用端到端的没有任何后处理方式获得查询结果;步骤400,使用步骤100的数据集,根据人

物交互检测任务要求进行数据预处理;主要操作同步骤200,但在训练阶段改变图像的亮度、对比度和饱和度;步骤500,构建基于编码解码架构的两阶段人

物交互检测器;具体的,一个两阶...

【专利技术属性】
技术研发人员:张强王昊中候亚庆
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1