一种基于TED-Net的非接触人-物交互检测方法技术

技术编号:38470326 阅读:17 留言:0更新日期:2023-08-11 14:47
本发明专利技术公开了一种基于TED

【技术实现步骤摘要】
一种基于TED

Net的非接触人

物交互检测方法


[0001]本专利技术属于人

物交互检测
,涉及人机交互、人工智能领域,具体涉及一种基于TED

Net的非接触人

物交互检测方法。

技术介绍

[0002]人物交互检测(Human Object Interaction,HOI)除检测输入图像中人和物体的位置,还需判断二者的交互类型,最后输出一系列的三元组(<human,object,interaction>)。HOI是计算机视觉领域新兴的方向,它在图像高级语义信息理解中起着重要的作用,具体涉及到人机交互领域、人工智能领域,并可广泛应用于视频监控、智能车舱、智慧城市等诸多场景,亦可以支撑更高层级的视觉内容处理。
[0003]基于神经网络的HOI主要分为两阶段检测和一阶段检测。两阶段方法将HOI任务分为两个阶段:人

物检测和交互判别。Chao等人基于COCO数据集构建了一个新的HOI检测数据集(HICO

Det),然后设计了一个标准的两阶段HOI网络,即HO

RCNN。HO

RCNN率先使用现成的检测器来生成与人

物对相关的边界框。另一方面,FCM

Net、PDNet、GTNet和ConsNet利用文本信息进一步提高检测性能。Xu等人(Kunlun Xu,Zhimin Li,Zhijun Zhang,Leizhen Dong,Wen

hui Xu,Luxin Yan,Sheng Zhong,and Xu Zou.Effective actor

centric human

object interaction detection.Image and Vision Computing,121:104422,2022.)设计了一个以人为中心的交互式推理框架,以充分利用实例的上下文信息。GPNN分别利用节点和边来识别实例和交互,并提出对应邻接矩阵来构建关系结构。SG2HOI中嵌入了场景图信息作为重要的上下文线索,以进一步提升人

物交互网络建模能力。两阶段模型相对简单且易于理解,但其在交互判别阶段,会将第一阶段所检测出的人和物体进行一一配对,所以运行速度较慢且效率较低。
[0004]不同于两阶段方法,单阶段方法直接输出图像中存在的人

物交互三元组。PPDM将人和物的中点看做关系中心点,重新定义了人

物交互关系三元组,并通过关系匹配来从关系点出发预测配对信息,在提升速度的同时也提升了检测精度。基于查询的transformer被应用于HOI检测,如HOITrans和QPIC,它们通过查询嵌入来查询感兴趣的区域,以获得解码器的输出。然而,上述方法都忽略了不同尺度上实例的位置和大小,QAHOI则使用可变形transformer来提取不同尺度的特征,并结合锚点提高了检测性能。
[0005]目前,现有的HOI模型主要集中检测人和物相应的边界框,而忽略了人

物周围的信息,因此导致了实例交互的不精确推断,使用现有技术对非接触交互图像(IoU=0)进行人物关系解析至今仍然是一个具有挑战的问题。

技术实现思路

[0006]本专利技术的目的在于提出一种基于TED

Net的非接触人

物交互检测方法,该方法对人、物和实例交互类型分别进行解码,最后解耦实例之间的交互关系,同时,还提出了一种额外的辅助机制来提高实例交互解码流的识别能力,三流增强型编码器

解码器分散网络
(TED

Net)可以关注先前检测技术忽略的人

物内部以及外部的信息,利用这些额外的信息有效地对图像中的对象进行关系建模。
[0007]本专利技术至少通过如下技术方案之一实现。
[0008]一种基于TED

Net的非接触人

物交互检测方法,包括以下步骤:
[0009]a、对输入的人物交互图像进行数据增强;
[0010]b、将数据增强后的图像输入到卷积神经网络中,通过卷积神经网络进行视觉特征提取,获取人

物视觉特征;
[0011]c、通过图像压缩将人

物视觉特征进行压缩获取特征图的压缩特征;
[0012]d、通过编码器对压缩后的特征图进一步编码,获取基于编码器的全局特征编码;
[0013]e、通过查询矩阵获取三个查询向量分别表示人、物、交互关系,引入配对信息;
[0014]f、融合编码后的特征构建三流解码器获取人的位置信息、物的位置信息及物体类别、交互类别,实现人物交互检测。
[0015]进一步地,卷积神经网络是在目标检测数据集上预训练好的ResNet

50,得到的特征图为其中,表示矩阵维度,H
r
、W
r
、C
r
分别表示图像的高、宽、通道数。
[0016]进一步地,所述ResNet

50包括7
×
7的卷积核、3
×
3的池化层以及四个残差组构成的特征提取的骨干网络,其中第一个残差组共有3个残差块,每个残差块有3层分别为1
×1×
64的卷积核、3
×3×
64的卷积核、1
×1×
256的卷积核;第二个残差组共有4个残差块,每个残差块有3层分别是1
×1×
128的卷积核、3
×3×
128的卷积核、1
×1×
512的卷积核;第三个残差组共有6个残差块,每个残差块有3层分别是1
×1×
256的卷积核、3
×3×
256的卷积核、1
×1×
1024的卷积核,;第四个残差组共有3个残差块,每个残差块有3层分别是1
×1×
512的卷积核、3
×3×
512的卷积核、1
×1×
2048的卷积核。
[0017]进一步地,编码器Encoder包括N个子编码器层堆叠而成,每个子编码器层分别包括两个子层,第一个子层包括多头注意力层和规范化层,第二个子层包括前馈神经网络层和规范化层。
[0018]进一步地,所述多头注意力层使用一组线性变化层对向量进行线性变换和多头注意力计算,得到上下文信息。
[0019]进一步地,所述规范化层对向量进行数值的规范化。
[0020]进一步地,所述前馈神经网络层包括全连接层和激活函数。
[0021]进一步地,步骤e中,所述查询矩阵生成三个查询矩阵,分别代表人、物体和交互,将人物本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于TED

Net的非接触人

物交互检测方法,其特征是,包括以下步骤:a、对输入的人物交互图像进行数据增强;b、将数据增强后的图像输入到卷积神经网络中,通过卷积神经网络进行视觉特征提取,获取人

物视觉特征;c、通过图像压缩将人

物视觉特征进行压缩获取特征图的压缩特征;d、通过编码器对压缩后的特征图进一步编码,获取基于编码器的全局特征编码;e、通过查询矩阵获取三个查询向量分别表示人、物、交互关系,引入配对信息;f、融合编码后的特征构建三流解码器获取人的位置信息、物的位置信息及物体类别、交互类别,实现人物交互检测。2.根据权利要求1所述的基于TED

Net的非接触人

物交互检测方法,其特征是,卷积神经网络是在目标检测数据集上预训练好的ResNet

50,得到的特征图为其中,表示矩阵维度,H
r
、W
r
、C
r
分别表示图像的高、宽、通道数。3.根据权利要求2所述的基于TED

Net的非接触人

物交互检测方法,其特征是,所述ResNet

50包括7
×
7的卷积核、3
×
3的池化层以及四个残差组构成的特征提取的骨干网络,其中第一个残差组共有3个残差块,每个残差块有3层分别为1
×1×
64的卷积核、3
×3×
64的卷积核、1
×1×
256的卷积核;第二个残差组共有4个残差块,每个残差块有3层分别是1
×1×
128的卷积核、3
×3×
128的卷积核、1
×1×
512的卷积核;第三个残差组共有6个残差块,每个残差块有3层分别是1
×1×
256的卷积核、3
×3×
256的卷积核、1
×1×
1024的卷积核,;第四个残差组共有3个残差块,每个残差块有3层分别是1
×1×
512的卷积核、3
×3×
512的卷积核、1
×1×
2048的卷积核。4.根据权利要求1所述的基于TED
‑...

【专利技术属性】
技术研发人员:刘琦王煜骁林锦濠邢晓芬雷玉徐向民
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1