【技术实现步骤摘要】
一种基于编码器解码器的次路引导主路学习交互检测方法
[0001]本专利技术属于图像处理
,具体涉及一种基于编码器解码器的次路引导主路学习交互检测方法。
技术介绍
[0002]人与物的交互检测在理解高级信息方面发挥着重要作用。因此,交互检测的改进对人机交互具有重要意义。在机器人操纵中,机器人需要模仿人类的动作并完成操作,或者从人类的动作中推断出后续动作并完成操作。在行为监控方面,机器人需要能够检测危险行为,并直接警告或补救人类。那么,一些错误的合作行为就可以通过监测和理解人类的互动来为机器人避免。
[0003]目前交互检测主要分为二阶段和一阶段方式。二阶段依赖于优秀的目标检测器,在得到优质的目标类别和目标包围框后,将目标作配对操作,最后对配对的结果进行交互检测。这种方式一般在配对时都会借助于图卷积的方式,将配对的两个目标的特征进行特征融合得到一个交互特征,就像图的两个顶点的信息融合到对应的边上,因此该方式存在以下劣势:1)配对的过程实际上是一个强加组合的过程,有很多强行组合的配对是毫无意义的,容易出现正负样本不均匀;2)当图片中目标很多的时候,会组合出近似N2对交互,这会消耗很多的计算资源。
[0004]不同于二阶段,一阶段的方式虽然也依赖于目标检测器,但是它在得到检测结果之前就进行配对,这意味这种特征能够学习到潜在的、更有意义交互信息,比二阶段方法更加有的利于交互检测;其次,由于现在一阶段的方式几乎都是基于编码器解码器,所以其配对数是一个常数K,一定程度上缓解二阶段的计算资源消耗的问题。但目前一 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于编码器解码器的次路引导主路学习交互检测方法,通过构建深度学习模型进行交互检测,其特征在于,所述深度学习模型包括特征提取模块,双路学习模块和交互预测模块,所述基于编码器解码器的次路引导主路学习交互检测方法,包括:取已标注的交互图片输入所述特征提取模块,得到由特征提取模块输出的图片特征,所述特征提取模块包括深度残差网络和编码器;将所述图片特征分别输入所述双路学习模块的主路和次路,得到主路和次路分别输出的用于人、物和交互的特征,所述主路包括解码器单元,所述次路包括双阶段解码器单元;将主路和次路输出的用于人、物和交互的特征输入所述交互预测模块,得到分别对应于主路和次路的预测结果Pr1,Pr2∈{人,物,交互};根据对应于主路和次路的预测结果进行一致性学习,并对主路和次路进行损失监督,更新所述深度学习模型的网络参数;取训练后最优的深度学习模型对待检测的交互图片输出预测结果。2.如权利要求1所述的基于编码器解码器的次路引导主路学习交互检测方法,其特征在于,所述深度残差网络为深度残差网络ResNet
‑
50。3.如权利要求1所述的基于编码器解码器的次路引导主路学习交互检测方法,其特征在于,所述解码器单元的处理过程包括:将输入的图片特征当作查询库X,并初始化一个查询Q
hoi
,用查询Q
hoi
在查询库X中得到用于人、物和交互的特征所述双阶段解码器单元的处理过程包括:将输入的图片特征当作查询库X,并初始化用于人和物的查询Q
h
,Q
o
,将查询Q
h
,Q
o
合并成查询Q
ins
,用查询Q
ins
在查询库X中分别得到用于人的特征和用于物的特征然后将特征和做加权得到特征将特征作为先验信息初始交互的查询Q
′
inter
,通过查询Q
′
inter
在查询库X得到用于交互的特征将特征和特征进行特征融合,得到次路最终的用于交互的特征4.如权利要求3所述的基于编码器解码器的次路引导主路学习交互检测方法,其特征在于,所述将特征和特征进行特征融合,得到次路最终的用于交互的特征包括:将特征和拼接后进行融合,再对融合结果进行归一化处理,得到实例注意权重α,具体表示如下:其中,sigmoid(
·
)表示归一化处理,MLP1(
·
)表示特征融合,concat(
·
,
·
)表示特征拼接;
再将特征和实例注意权重α点乘,得到实例增强交互特征,最后采用短路连接,将特征实例增强交互特征和映射到交互域的特征相加,得到最终的用于交互的特征具体表示如下:其中,
⊙
技术研发人员:产思贤,王威翔,邵展鹏,白琮,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。