一种基于级联解码器的语义人物交互检测方法技术

技术编号:37149697 阅读:25 留言:0更新日期:2023-04-06 22:04
本发明专利技术公开了一种基于级联解码器的语义人物交互检测方法,将待检测图像输入到骨干网络提取特征,将提取的特征展平为一维向量,作为后续处理的图像视觉特征,然后将图像视觉特征输入到共享编码器,得到编码特征,之后采用人

【技术实现步骤摘要】
一种基于级联解码器的语义人物交互检测方法


[0001]本申请属于人

物交互检测
,尤其涉及一种基于级联解码器的人物交互检测方法。

技术介绍

[0002]人

物交互检测是目标检测的下游任务,在基础视觉任务目标检测中,给定一张图片,检测出图片中的所有目标集合,目标集合表示为其中N代表目标的数量,代表将其以目标框、目标类别的形式输出,目标类别的形式输出,其中,为目标框,为类别。在人

物交互检测任务中,该任务更关注于人与物的关系交互,输入图片,要求推断出<human,object,interaction>形式的三元组,其表示为Triplet
i
=< h
i
,o
i
,v
i
>,h
i
={human
bboxi
},oi={object
bboxi
,object
categoryi/>},v
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于级联解码器的语义人物交互检测方法,基于构建的人

物关系交互检测网络进行检测,其特征在于,所述人

物关系交互检测网络包括骨干网络、共享编码器、人

物解码器、动词解码器和语义分支,所述语义分支包括三元组编码器、sigmoid函数和置信度编码层,所述基于级联解码器的语义人物交互检测方法,包括:将待检测图像输入到骨干网络提取特征,将提取的特征展平为一维向量,作为后续处理的图像视觉特征;将图像视觉特征输入到共享编码器,得到人

物编码特征、共享编码特征和视觉编码特征;将人

物编码特征输入到人

物解码器,得到人

物解码特征,然后将人

物解码特征经过全连接层得到人、物的边界框结果以及物的类别;将共享编码特征和人

物解码特征输入到动词解码器,得到动词类别特征,并经过全连接层得到动词分类结果;获取待检测图像有效的三元组数据,输入到三元组编码器,得到三元组编码特征,然后采用视觉编码特征与三元组编码特征构建语义置信度矩阵,对语义置信度矩阵进行sigmoid函数操作后通过置信度编码层,得到对应的置信度分数;将人、物的边界框结果、物的类别和动词分类结果作为预测三元组,使用置信度分数来约束预测三元组,得到最终的检测结果。2.根据权利要求1所述的基于级联解码器的语义人物交互检测方法,其特...

【专利技术属性】
技术研发人员:刘盛郭炳男陈瑞祥张峰陈俊皓
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1