一种基于编码器解码器的次路引导主路学习交互检测方法技术

技术编号:36526560 阅读:14 留言:0更新日期:2023-02-01 16:05
本发明专利技术公开了一种基于编码器解码器的次路引导主路学习交互检测方法,包括取已标注的交互图片输入特征提取模块,得到由特征提取模块输出的图片特征;将图片特征分别输入所述双路学习模块的主路和次路,得到主路和次路分别输出的用于人、物和交互的特征;将主路和次路输出的用于人、物和交互的特征输入所述交互预测模块,得到分别对应于主路和次路的预测结果;根据对应于主路和次路的预测结果进行一致性学习,并对主路和次路进行损失监督,更新深度学习模型的网络参数;取训练后最优的深度学习模型对待检测的交互图片输出预测结果。本发明专利技术引入多层感知机进行全局感受野编码,以克服上述背景技术中所提出的技术问题。上述背景技术中所提出的技术问题。上述背景技术中所提出的技术问题。

【技术实现步骤摘要】
一种基于编码器解码器的次路引导主路学习交互检测方法


[0001]本专利技术属于图像处理
,具体涉及一种基于编码器解码器的次路引导主路学习交互检测方法。

技术介绍

[0002]人与物的交互检测在理解高级信息方面发挥着重要作用。因此,交互检测的改进对人机交互具有重要意义。在机器人操纵中,机器人需要模仿人类的动作并完成操作,或者从人类的动作中推断出后续动作并完成操作。在行为监控方面,机器人需要能够检测危险行为,并直接警告或补救人类。那么,一些错误的合作行为就可以通过监测和理解人类的互动来为机器人避免。
[0003]目前交互检测主要分为二阶段和一阶段方式。二阶段依赖于优秀的目标检测器,在得到优质的目标类别和目标包围框后,将目标作配对操作,最后对配对的结果进行交互检测。这种方式一般在配对时都会借助于图卷积的方式,将配对的两个目标的特征进行特征融合得到一个交互特征,就像图的两个顶点的信息融合到对应的边上,因此该方式存在以下劣势:1)配对的过程实际上是一个强加组合的过程,有很多强行组合的配对是毫无意义的,容易出现正负样本不均匀;2)当图片中目标很多的时候,会组合出近似N2对交互,这会消耗很多的计算资源。
[0004]不同于二阶段,一阶段的方式虽然也依赖于目标检测器,但是它在得到检测结果之前就进行配对,这意味这种特征能够学习到潜在的、更有意义交互信息,比二阶段方法更加有的利于交互检测;其次,由于现在一阶段的方式几乎都是基于编码器解码器,所以其配对数是一个常数K,一定程度上缓解二阶段的计算资源消耗的问题。但目前一阶段的方式,仅利用一条检测路径完成检测,而实际的检测路径会有很多,这是一阶段没有充分利用的地方;同时,有些检测路径是针对二阶段设计的,无法直接迁移至一阶段,这导致设计的检测路径没有充分利用。

技术实现思路

[0005]本专利技术的目的在于提供一种基于编码器解码器的次路引导主路学习交互检测方法,引入多层感知机进行全局感受野编码,以克服上述
技术介绍
中所提出的技术问题。
[0006]为实现上述目的,本专利技术所采取的技术方案为:
[0007]一种基于编码器解码器的次路引导主路学习交互检测方法,通过构建深度学习模型进行交互检测,所述深度学习模型包括特征提取模块,双路学习模块和交互预测模块,所述基于编码器解码器的次路引导主路学习交互检测方法,包括:
[0008]取已标注的交互图片输入所述特征提取模块,得到由特征提取模块输出的图片特征,所述特征提取模块包括深度残差网络和编码器;
[0009]将所述图片特征分别输入所述双路学习模块的主路和次路,得到主路和次路分别输出的用于人、物和交互的特征,所述主路包括解码器单元,所述次路包括双阶段解码器单
元;
[0010]将主路和次路输出的用于人、物和交互的特征输入所述交互预测模块,得到分别对应于主路和次路的预测结果Pr1,Pr2∈{人,物,交互};
[0011]根据对应于主路和次路的预测结果进行一致性学习,并对主路和次路进行损失监督,更新所述深度学习模型的网络参数;
[0012]取训练后最优的深度学习模型对待检测的交互图片输出预测结果。
[0013]以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
[0014]作为优选,所述深度残差网络为深度残差网络ResNet

50。
[0015]作为优选,所述解码器单元的处理过程包括:
[0016]将输入的图片特征当作查询库X,并初始化一个查询Q
hoi
,用查询Q
hoi
在查询库X中得到用于人、物和交互的特征
[0017]所述双阶段解码器单元的处理过程包括:
[0018]将输入的图片特征当作查询库X,并初始化用于人和物的查询Q
h
,Q
o
,将查询Q
h
,Q
o
合并成查询Q
ins
,用查询Q
ins
在查询库X中分别得到用于人的特征和用于物的特征然后将特征和做加权得到特征将特征作为先验信息初始交互的查询Q

inter
,通过查询Q

inter
在查询库X得到用于交互的特征将特征和特征进行特征融合,得到次路最终的用于交互的特征
[0019]作为优选,所述将特征和特征进行特征融合,得到次路最终的用于交互的特征包括:
[0020]将特征和拼接后进行融合,再对融合结果进行归一化处理,得到实例注意权重α,具体表示如下:
[0021][0022]其中,sigmoid(
·
)表示归一化处理,MLP1(
·
)表示特征融合,concat(
·
,
·
)表示特征拼接;
[0023]再将特征和实例注意权重α点乘,得到实例增强交互特征,最后采用短路连接,将特征实例增强交互特征和映射到交互域的特征相加,得到最终的用于交互的特征具体表示如下:
[0024][0025]其中,

表示点乘,MLP2(
·
)表示空间映射。
[0026]作为优选,所述预测结果如下:
[0027][0028][0029]其中,Pr1,Pr2分别表示主路和次路的预测结果,分别表示主路和次路上用于人的回归或者分类函数,分别表示主路和次路上用于物的回归或者分类函数,分别表示主路和次路上用于交互的回归或者分类函数,分别表示对应的回归或者分类函数输出的预测结果。
[0030]作为优选,所述根据对应于主路和次路的预测结果进行一致性学习,包括:
[0031]取预测集h对应于人,o对应于物,inter对应于交互,每条路径的预测结果和真值的二分匹配关系定义成于交互,每条路径的预测结果和真值的二分匹配关系定义成于交互,每条路径的预测结果和真值的二分匹配关系定义成表示真值,根据二分匹配关系配将主路和次路输出的三路预测结果进行配对,得到双路配对集δ;
[0032]在得到两条路径的对应关系后,针对分类上的一致,采用的KLoss衡量两条路径矩阵的相似度,数学表达如下:
[0033][0034][0035]其中,为两条路径针对用于物的特征的预测结果的相似度,为两条路径针对用于交互的特征的预测结果的相似度,KLoss(
·
||
·
)表示两个特征或者是两个概率分布的散度,z(f,m)表示取f的第m个,表示路径k中特征q的预测结果,q∈(o,inter);
[0036]针对包围框位置的一致性,采用平均绝对误差衡量配对组之间的一致性,数学表达如下:
[0037][0038][0039]其中,表示针对用于人的特征的包围框位置预测结果的平均绝对损失,表示针对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于编码器解码器的次路引导主路学习交互检测方法,通过构建深度学习模型进行交互检测,其特征在于,所述深度学习模型包括特征提取模块,双路学习模块和交互预测模块,所述基于编码器解码器的次路引导主路学习交互检测方法,包括:取已标注的交互图片输入所述特征提取模块,得到由特征提取模块输出的图片特征,所述特征提取模块包括深度残差网络和编码器;将所述图片特征分别输入所述双路学习模块的主路和次路,得到主路和次路分别输出的用于人、物和交互的特征,所述主路包括解码器单元,所述次路包括双阶段解码器单元;将主路和次路输出的用于人、物和交互的特征输入所述交互预测模块,得到分别对应于主路和次路的预测结果Pr1,Pr2∈{人,物,交互};根据对应于主路和次路的预测结果进行一致性学习,并对主路和次路进行损失监督,更新所述深度学习模型的网络参数;取训练后最优的深度学习模型对待检测的交互图片输出预测结果。2.如权利要求1所述的基于编码器解码器的次路引导主路学习交互检测方法,其特征在于,所述深度残差网络为深度残差网络ResNet

50。3.如权利要求1所述的基于编码器解码器的次路引导主路学习交互检测方法,其特征在于,所述解码器单元的处理过程包括:将输入的图片特征当作查询库X,并初始化一个查询Q
hoi
,用查询Q
hoi
在查询库X中得到用于人、物和交互的特征所述双阶段解码器单元的处理过程包括:将输入的图片特征当作查询库X,并初始化用于人和物的查询Q
h
,Q
o
,将查询Q
h
,Q
o
合并成查询Q
ins
,用查询Q
ins
在查询库X中分别得到用于人的特征和用于物的特征然后将特征和做加权得到特征将特征作为先验信息初始交互的查询Q

inter
,通过查询Q

inter
在查询库X得到用于交互的特征将特征和特征进行特征融合,得到次路最终的用于交互的特征4.如权利要求3所述的基于编码器解码器的次路引导主路学习交互检测方法,其特征在于,所述将特征和特征进行特征融合,得到次路最终的用于交互的特征包括:将特征和拼接后进行融合,再对融合结果进行归一化处理,得到实例注意权重α,具体表示如下:其中,sigmoid(
·
)表示归一化处理,MLP1(
·
)表示特征融合,concat(
·
,
·
)表示特征拼接;
再将特征和实例注意权重α点乘,得到实例增强交互特征,最后采用短路连接,将特征实例增强交互特征和映射到交互域的特征相加,得到最终的用于交互的特征具体表示如下:其中,

【专利技术属性】
技术研发人员:产思贤王威翔邵展鹏白琮
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1