【技术实现步骤摘要】
一种基于级联解码器的语义人物交互检测方法
[0001]本申请属于人
‑
物交互检测
,尤其涉及一种基于级联解码器的人物交互检测方法。
技术介绍
[0002]人
‑
物交互检测是目标检测的下游任务,在基础视觉任务目标检测中,给定一张图片,检测出图片中的所有目标集合,目标集合表示为其中N代表目标的数量,代表将其以目标框、目标类别的形式输出,目标类别的形式输出,其中,为目标框,为类别。在人
‑
物交互检测任务中,该任务更关注于人与物的关系交互,输入图片,要求推断出<human,object,interaction>形式的三元组,其表示为Triplet
i
=< h
i
,o
i
,v
i
>,h
i
={human
bboxi
},oi={object
bboxi
,object
categoryi />},v
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于级联解码器的语义人物交互检测方法,基于构建的人
‑
物关系交互检测网络进行检测,其特征在于,所述人
‑
物关系交互检测网络包括骨干网络、共享编码器、人
‑
物解码器、动词解码器和语义分支,所述语义分支包括三元组编码器、sigmoid函数和置信度编码层,所述基于级联解码器的语义人物交互检测方法,包括:将待检测图像输入到骨干网络提取特征,将提取的特征展平为一维向量,作为后续处理的图像视觉特征;将图像视觉特征输入到共享编码器,得到人
‑
物编码特征、共享编码特征和视觉编码特征;将人
‑
物编码特征输入到人
‑
物解码器,得到人
‑
物解码特征,然后将人
‑
物解码特征经过全连接层得到人、物的边界框结果以及物的类别;将共享编码特征和人
‑
物解码特征输入到动词解码器,得到动词类别特征,并经过全连接层得到动词分类结果;获取待检测图像有效的三元组数据,输入到三元组编码器,得到三元组编码特征,然后采用视觉编码特征与三元组编码特征构建语义置信度矩阵,对语义置信度矩阵进行sigmoid函数操作后通过置信度编码层,得到对应的置信度分数;将人、物的边界框结果、物的类别和动词分类结果作为预测三元组,使用置信度分数来约束预测三元组,得到最终的检测结果。2.根据权利要求1所述的基于级联解码器的语义人物交互检测方法,其特...
【专利技术属性】
技术研发人员:刘盛,郭炳男,陈瑞祥,张峰,陈俊皓,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。