一种基于TED-Net的非接触人-物交互检测方法技术

技术编号：38470326 阅读：17 留言：0更新日期：2023-08-11 14:47

本发明专利技术公开了一种基于TED

全部详细技术资料下载

【技术实现步骤摘要】
一种基于TED
‑
Net的非接触人
‑
物交互检测方法

[0001]本专利技术属于人
‑
物交互检测
，涉及人机交互、人工智能领域，具体涉及一种基于TED
‑
Net的非接触人
‑
物交互检测方法。

技术介绍

[0002]人物交互检测(Human Object Interaction，HOI)除检测输入图像中人和物体的位置，还需判断二者的交互类型，最后输出一系列的三元组(<human，object，interaction>)。HOI是计算机视觉领域新兴的方向，它在图像高级语义信息理解中起着重要的作用，具体涉及到人机交互领域、人工智能领域，并可广泛应用于视频监控、智能车舱、智慧城市等诸多场景，亦可以支撑更高层级的视觉内容处理。
[0003]基于神经网络的HOI主要分为两阶段检测和一阶段检测。两阶段方法将HOI任务分为两个阶段：人
‑
物检测和交互判别。Chao等人基于COCO数据集构建了一个新的HOI检测数据集(HICO
‑
Det)，然后设计了一个标准的两阶段HOI网络，即HO
‑
RCNN。HO
‑
RCNN率先使用现成的检测器来生成与人
‑
物对相关的边界框。另一方面，FCM
‑
Net、PDNet、GTNet和ConsNet利用文本信息进一步提高检测性能。Xu等人(Kunlun Xu，Zhimi...

【技术保护点】

【技术特征摘要】
1.一种基于TED
‑
Net的非接触人
‑
物交互检测方法，其特征是，包括以下步骤：a、对输入的人物交互图像进行数据增强；b、将数据增强后的图像输入到卷积神经网络中，通过卷积神经网络进行视觉特征提取，获取人
‑
物视觉特征；c、通过图像压缩将人
‑
物视觉特征进行压缩获取特征图的压缩特征；d、通过编码器对压缩后的特征图进一步编码，获取基于编码器的全局特征编码；e、通过查询矩阵获取三个查询向量分别表示人、物、交互关系，引入配对信息；f、融合编码后的特征构建三流解码器获取人的位置信息、物的位置信息及物体类别、交互类别，实现人物交互检测。2.根据权利要求1所述的基于TED
‑
Net的非接触人
‑
物交互检测方法，其特征是，卷积神经网络是在目标检测数据集上预训练好的ResNet
‑
50，得到的特征图为其中，表示矩阵维度，H
r
、W
r
、C
r
分别表示图像的高、宽、通道数。3.根据权利要求2所述的基于TED
‑
Net的非接触人
‑
物交互检测方法，其特征是，所述ResNet
‑
50包括7
×
7的卷积核、3
×
3的池化层以及四个残差组构成的特征提取的骨干网络，其中第一个残差组共有3个残差块，每个残差块有3层分别为1
×1×
64的卷积核、3
×3×
64的卷积核、1
×1×
256的卷积核；第二个残差组共有4个残差块，每个残差块有3层分别是1
×1×
128的卷积核、3
×3×
128的卷积核、1
×1×
512的卷积核；第三个残差组共有6个残差块，每个残差块有3层分别是1
×1×
256的卷积核、3
×3×
256的卷积核、1
×1×
1024的卷积核，；第四个残差组共有3个残差块，每个残差块有3层分别是1
×1×
512的卷积核、3
×3×
512的卷积核、1
×1×
2048的卷积核。4.根据权利要求1所述的基于TED
‑...

【专利技术属性】
技术研发人员：刘琦，王煜骁，林锦濠，邢晓芬，雷玉，徐向民，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人