一种人与物体关系检测方法、装置及存储介质制造方法及图纸

技术编号:34445421 阅读:28 留言:0更新日期:2022-08-06 16:39
本发明专利技术公开了一种人与物体关系检测方法、装置及存储介质,其中方法包括:获取人与物体关系检测数据集的训练集,并对训练集进行增强处理;构建Student网络并对Student网络进行初始化;构建Teacher网络并对Teacher网络进行初始化;在训练中使用预设的损失函数监督Student网络和Teacher网络的输出;在训练中使用预设的蒸馏损失函数拉近StudentTransformer解码器和Teacher Transformer解码器的预测;在测试中,采用训练后的Student网络获取人和物体关系的检测结果。本发明专利技术利用知识蒸馏的思想设计具有明确语义信息的Teacher网络,引导原有Student网络学习到更好的注意力矩阵,从而获得更具有判别力的上下文信息,大大提升了人与物体关系检测性能,可广泛应用于图像处理与识别技术领域。可广泛应用于图像处理与识别技术领域。可广泛应用于图像处理与识别技术领域。

【技术实现步骤摘要】
一种人与物体关系检测方法、装置及存储介质


[0001]本专利技术涉及图像处理与识别
,尤其涉及一种人与物体关系检测方法、装置及存储介质。

技术介绍

[0002]人与物体关系检测能够检测出一张图片中发生交互的人和物体的位置、物体的类别以及交互关系的类别。人与物体关系检测具有非常重要的意义,比如:在自动驾驶系统中,检测系统通过检测道路上行人和周围物体的关系判别周围道路的情况,从而做出安全的驾驶行为;在医院监护系统中,检测系统可以通过受监护人和周围物体的关系判断受监护人是否处于紧急情况中,从而保证受监护人的生命健康安全。
[0003]目前人与物体关系检测面临的问题主要是如何提取具有判别力的全局上下文特征。由于Transformer具有强大的提取上下文特征的能力,已经有一些方法将Transformer利用到人与物体关系检测中。但是在目前基于Transformer的方法中,Transformer解码器中互注意力模块的查询矩阵和解码器初始化特征具有语义不明确的问题,这大大限制了Transformer学习到更好的上下文特征以及更准确预测关系类别的能力。
[0004]术语解释:
[0005]CNN:卷积神经网络(Convolutional Neural Networks),是一类包含卷积计算且具有深度结构的前馈神经网络。

技术实现思路

[0006]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种人与物体关系检测方法、装置及存储介质。
[0007]本专利技术所采用的技术方案是:
[0008]一种人与物体关系检测方法,包括以下步骤:
[0009]获取人与物体关系检测数据集的训练集,并对训练集进行增强处理;
[0010]构建Student网络并对Student网络进行初始化;
[0011]构建Teacher网络并对Teacher网络进行初始化;
[0012]在训练中使用预设的损失函数监督Student网络和Teacher网络的输出;
[0013]在训练中使用预设的蒸馏损失函数拉近Student Transformer解码器和Teacher Transformer解码器的预测;
[0014]在测试中,采用训练后的Student网络获取人和物体关系的检测结果。
[0015]进一步地,所述对训练集进行增强处理,包括:
[0016]随机地对图片进行水平翻转、颜色抖动、大小缩放、裁剪,最后对图片进行归一化。
[0017]进一步地,所述构建Student网络并对Student网络进行初始化,包括:
[0018]构建并初始化基于CNN的深度神经网络;
[0019]构建并初始化Transformer编码器和Transformer解码器;
[0020]构建人与物体关系检测网络,根据Transformer解码器的输出预测待测图片中人和物体关系,并对人与物体关系检测网络进行初始化。
[0021]进一步地,深度神经网络的构建方法为:
[0022]使用经典残差网络ResNet

50或ResNet

101,后接一个1x1的卷积以减少通道数,得到特征图F。
[0023]进一步地,Transformer的位置编码的方式为:
[0024][0025][0026]其中pos代表二维图片的一个位置,D为常数,j代表维度,对于通道为奇数的位置,用cos函数进行位置编码;对于通道为偶数的位置,用sin函数进行位置编码;最终输出PE为三维的位置编码矩阵,维度大小与F一致。
[0027]进一步地,所述Transformer编码器的构造方法为:
[0028]用l个级联的编码器层构成一个编码器,每个编码器层由级联的自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块构成;编码器中自注意力模块的查询矩阵、键矩阵和值矩阵分别为F+PE,F+PE和F,Transformer编码器的输出为E;
[0029]所述Transformer解码器的构建方法为:
[0030]用l个级联的解码器层构成一个解码器,每个解码器层由级联的自注意力模块、残差连接网络、层归一化处理模块、互注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块构成;解码器中互注意力模块的查询矩阵、键矩阵和值矩阵分别为Q,E+PE和E,Transformer解码器的输出为D;
[0031]其中,F表示输入图像经过基于CNN的深度神经网络的输出特征,PE表示输入图像的位置编码,Q表示一组可学习向量的集合。
[0032]进一步地,所述人与物体关系检测网络的结构为:
[0033]包含4个前向反馈网络,分别预测人的位置、物体位置、物体类别、关系类别;4个前向反馈网络分别由3个全连接层(中间ReLU激活函数)、3个全连接层(中间ReLU激活函数)、1个全连接层和1个全连接层构成。
[0034]进一步地,根据Transformer解码器的输出预测待测图片中人和物体关系,获得的第j个预测结果,包括:
[0035]其中为归一化的人和物体的框的位置,其中N
obj
和N
act
分别为数据集中表述的物体数量和关系数量。
[0036]进一步地,预测结果和标注关系对的匹配方式为:
[0037]匈牙利算法,其中损失矩阵计算如下:
[0038][0039][0040][0041][0042][0043]其中代表图片中第i个标注的关系对,Φ代表图片中标注的关系对空集下标的集合;GIOU为generalized IoU的简写;经过上述计算得到每个标注的关系对对应的预测关系对的下标位置
[0044]进一步地,所述Teacher网络的组成为:与Student网络一样具有基于CNN的深度神经网络、Transformer编码器、Transformer解码器和人与物体关系检测网络,并共享参数上述网络的参数。
[0045]进一步地,所述Student Transformer解码器和Teacher Transformer解码器之间的不同包括:
[0046]在Student Transformer解码器中,互注意力模块的查询矩阵为一组可学习向量的集合Q;在Teacher Transformer解码器中,互注意力模块的查询矩阵为一组标注关系对的位置特征的集合Q
t

[0047]在Student Transformer解码器中,初始化特征D
o
为零向量;在Teacher Transformer解码器中,初始化特征D
to
为一组标注关系对中物体的词向量特征的集合。
[0048]进一步地,Teacher Transformer解码器中互注意力模块的查询矩阵Q
t
的构造方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人与物体关系检测方法,其特征在于,包括以下步骤:获取人与物体关系检测数据集的训练集,并对训练集进行增强处理;构建Student网络并对Student网络进行初始化;构建Teacher网络并对Teacher网络进行初始化;在训练中使用预设的损失函数监督Student网络和Teacher网络的输出;在训练中使用预设的蒸馏损失函数拉近Student Transformer解码器和Teacher Transformer解码器的预测;在测试中,采用训练后的Student网络获取人和物体关系的检测结果。2.根据权利要求1所述的一种人与物体关系检测方法,其特征在于,所述构建Student网络并对Student网络进行初始化,包括:构建并初始化基于CNN的深度神经网络;构建并初始化Transformer编码器和Transformer解码器;构建人与物体关系检测网络,根据Transformer解码器的输出预测待测图片中人和物体关系,并对人与物体关系检测网络进行初始化。3.根据权利要求2所述的一种人与物体关系检测方法,其特征在于,所述Transformer编码器的构造方法为:用l个级联的编码器层构成一个编码器,每个编码器层由级联的自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块构成;编码器中自注意力模块的查询矩阵、键矩阵和值矩阵分别为F+PE,F+PE和F,Transformer编码器的输出为E;所述Transformer解码器的构建方法为:用l个级联的解码器层构成一个解码器,每个解码器层由级联的自注意力模块、残差连接网络、层归一化处理模块、互注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块构成;解码器中互注意力模块的查询矩阵、键矩阵和值矩阵分别为Q,E+PE和E,Transformer解码器的输出为D;其中,F表示输入图像经过基于CNN的深度神经网络的输出特征,PE表示输入图像的位置编码,Q表示一组可学习向量的集合。4.根据权利要求2所述的一种人与物体关系检测方法,其特征在于,所述人与物体关系检测网络包括4个前向反馈网络,所述4个前向反馈网络分别由3个全连接层、3个全连接层、1个全连接层和1个全连接层构成;所述4个前向反馈网络分别用于预测人的位置、物体位置、物体类别以及关系类别。5.根据权利要求1所述的一种人与物体关系检测方法,其特征在于,所述Student Transformer解码器和Teacher Transformer解码器之间的不同包括:在Student Transformer解码器中,互注意力模块的查询矩阵为一组可学习向量的集合Q;在Teacher Transformer解码器中,互注意力模块的查询矩阵为一组标注关系对的位置特征的集合Q
...

【专利技术属性】
技术研发人员:丁长兴屈贤钟旭彬王健丁二锐
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1