一种基于编码解码架构的两阶段人-物交互检测方法技术

技术编号：38057280 阅读：14 留言：0更新日期：2023-06-30 11:23

本发明专利技术属于计算机视觉技术领域，具体涉及一种基于编码解码架构的两阶段人

全部详细技术资料下载

【技术实现步骤摘要】
一种基于编码解码架构的两阶段人
‑
物交互检测方法

[0001]本专利技术属于计算机视觉
，具体涉及一种基于编码解码架构的两阶段人
‑
物交互检测方法。

技术介绍

[0002]近年来，人工智能的发展势头强盛，科研工作者以及产业投资人不仅将眼光局限于传统的通过观测外界自然环境来识别物体的视觉感知任务，如目标检测，语义分割等，而逐渐对能够思考获得物体之间的上下文关系信息，解读出图像或者场景的潜在信息的图像语义理解任务感兴趣。这其中就包括人
‑
物交互检测任务。人
‑
物交互检测任务旨在能正确识别和定位人和物体的实例基础上，发掘人
‑
物对之间的交互关系，将相对复杂的人类活动简化成对<人，物体，动作>三元组的预测。作为图像语义理解的一项基本任务，对进一步推进人工智能研究从观测感知层次到思考理解层次起到重大作用，同时也促进众多计算机视觉领域方向的发展，包括动作理解，视觉问题回答等。接下来详细介绍这一领域中相关的
技术介绍
。
[0003](1)人体交互检测数据集介绍
[0004]任务交互检测任务中的公开数据集的数量较多，常规使用基于单张RGB图像的V
‑
COCO以及HICO
‑
DET数据集。V
‑
COCO是常用人
‑
物交互检测的评估数据集，共计2533张训练图像，2867张验证图像，4946张测试图像。对象类取自MS
‑<

【技术保护点】

【技术特征摘要】
1.一种基于编码解码架构的两阶段人
‑
物交互检测方法，其特征在于，包括以下步骤：步骤100，分别准备V
‑
COCO和HICO
‑
DET公开的人
‑
物交互检测数据集；步骤200，对数据集进行预处理；步骤201，训练阶段对图像进行随机水平翻转；步骤202，调整图片大小并随机剪裁，或直接调整图片大小；步骤203，针对数据集中图片的RGB通道已经给定的均值和方差，进行正则化；步骤204，推理阶段调整图片大小并进行正则化；步骤300，构建DETR目标检测器，在步骤100形成的数据集上训练目标检测模型；具体的，DETR目标检测器包含三个主要部分：(1)Resnet主干网络，用于从图片中提取一个紧凑的特征表示以防止后续注意力操作导致的显存爆炸问题；(2)采用多头自注意力以及前馈网络的多层堆叠的Transformer编码解码器，Transformer编码器将主干网络提取的特征结合二维正弦静态位置编码进行处理成为Transformer编码器记忆编码，Transformer解码器利用交叉注意力机制提取Transformer编码器记忆编码的有用部分输出对象查询特征；(3)查询对象头接受Transformer解码器输出的对象查询特征并输出预测结果；其包括如下步骤：步骤301，读取预训练参数文件，加载在MS
‑
COCO大规模图像目标检测数据集上的预训练的模型权重；步骤302，从步骤200处理生成的数据集中读取图像和物体标签以及物体的边界框，划分训练集和验证集；步骤303，将训练数据分批次输入到Resnet骨干网络，获得对应的特征图、掩码矩阵以及位置编码；步骤304，特征图、掩码矩阵以及位置编码经过Transformer编码器生成对应的编码器记忆编码以供解码器使用；步骤305，在Transformer解码器中输入步骤303获得的掩码矩阵和位置编码，步骤304获得的Transformer编码器特征以及查询嵌入和查询序列输入，通过交叉注意力机制获得对象查询特征，再经过查询对象头(前馈网络)获得对应的查询预测结果；步骤306，训练阶段采用匈牙利二部图匹配方式和真实标签一对一匹配；推断阶段采用端到端的没有任何后处理方式获得查询结果；步骤400，使用步骤100的数据集，根据人
‑
物交互检测任务要求进行数据预处理；主要操作同步骤200，但在训练阶段改变图像的亮度、对比度和饱和度；步骤500，构建基于编码解码架构的两阶段人
‑
物交互检测器；具体的，一个两阶...

【专利技术属性】
技术研发人员：张强，王昊中，候亚庆，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人