一种人与物体关系检测方法、装置及存储介质制造方法及图纸

技术编号：34445421 阅读：28 留言：0更新日期：2022-08-06 16:39

本发明专利技术公开了一种人与物体关系检测方法、装置及存储介质，其中方法包括：获取人与物体关系检测数据集的训练集，并对训练集进行增强处理；构建Student网络并对Student网络进行初始化；构建Teacher网络并对Teacher网络进行初始化；在训练中使用预设的损失函数监督Student网络和Teacher网络的输出；在训练中使用预设的蒸馏损失函数拉近StudentTransformer解码器和Teacher Transformer解码器的预测；在测试中，采用训练后的Student网络获取人和物体关系的检测结果。本发明专利技术利用知识蒸馏的思想设计具有明确语义信息的Teacher网络，引导原有Student网络学习到更好的注意力矩阵，从而获得更具有判别力的上下文信息，大大提升了人与物体关系检测性能，可广泛应用于图像处理与识别技术领域。可广泛应用于图像处理与识别技术领域。可广泛应用于图像处理与识别技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种人与物体关系检测方法、装置及存储介质

[0001]本专利技术涉及图像处理与识别
，尤其涉及一种人与物体关系检测方法、装置及存储介质。

技术介绍

[0002]人与物体关系检测能够检测出一张图片中发生交互的人和物体的位置、物体的类别以及交互关系的类别。人与物体关系检测具有非常重要的意义，比如：在自动驾驶系统中，检测系统通过检测道路上行人和周围物体的关系判别周围道路的情况，从而做出安全的驾驶行为；在医院监护系统中，检测系统可以通过受监护人和周围物体的关系判断受监护人是否处于紧急情况中，从而保证受监护人的生命健康安全。
[0003]目前人与物体关系检测面临的问题主要是如何提取具有判别力的全局上下文特征。由于Transformer具有强大的提取上下文特征的能力，已经有一些方法将Transformer利用到人与物体关系检测中。但是在目前基于Transformer的方法中，Transformer解码器中互注意力模块的查询矩阵和解码器初始化特征具有语义不明确的问题，这大大限制了Transformer学习到更好的上下文特征以及更准确预测关系类别的能力。
[0004]术语解释：
[0005]CNN：卷积神经网络(Convolutional Neural Networks)，是一类包含卷积计算且具有深度结构的前馈神经网络。

技术实现思路

[0006]为至少一定程度上解决现有技术中存在的技术问题之一，本专利技术的目的在于提供一种人与物体关系检测方法、装置及存储介质。
[0007]本专...

【技术保护点】

【技术特征摘要】
1.一种人与物体关系检测方法，其特征在于，包括以下步骤：获取人与物体关系检测数据集的训练集，并对训练集进行增强处理；构建Student网络并对Student网络进行初始化；构建Teacher网络并对Teacher网络进行初始化；在训练中使用预设的损失函数监督Student网络和Teacher网络的输出；在训练中使用预设的蒸馏损失函数拉近Student Transformer解码器和Teacher Transformer解码器的预测；在测试中，采用训练后的Student网络获取人和物体关系的检测结果。2.根据权利要求1所述的一种人与物体关系检测方法，其特征在于，所述构建Student网络并对Student网络进行初始化，包括：构建并初始化基于CNN的深度神经网络；构建并初始化Transformer编码器和Transformer解码器；构建人与物体关系检测网络，根据Transformer解码器的输出预测待测图片中人和物体关系，并对人与物体关系检测网络进行初始化。3.根据权利要求2所述的一种人与物体关系检测方法，其特征在于，所述Transformer编码器的构造方法为：用l个级联的编码器层构成一个编码器，每个编码器层由级联的自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块构成；编码器中自注意力模块的查询矩阵、键矩阵和值矩阵分别为F+PE，F+PE和F，Transformer编码器的输出为E；所述Transformer解码器的构建方法为：用l个级联的解码器层构成一个解码器，每个解码器层由级联的自注意力模块、残差连接网络、层归一化处理模块、互注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块构成；解码器中互注意力模块的查询矩阵、键矩阵和值矩阵分别为Q，E+PE和E，Transformer解码器的输出为D；其中，F表示输入图像经过基于CNN的深度神经网络的输出特征，PE表示输入图像的位置编码，Q表示一组可学习向量的集合。4.根据权利要求2所述的一种人与物体关系检测方法，其特征在于，所述人与物体关系检测网络包括4个前向反馈网络，所述4个前向反馈网络分别由3个全连接层、3个全连接层、1个全连接层和1个全连接层构成；所述4个前向反馈网络分别用于预测人的位置、物体位置、物体类别以及关系类别。5.根据权利要求1所述的一种人与物体关系检测方法，其特征在于，所述Student Transformer解码器和Teacher Transformer解码器之间的不同包括：在Student Transformer解码器中，互注意力模块的查询矩阵为一组可学习向量的集合Q；在Teacher Transformer解码器中，互注意力模块的查询矩阵为一组标注关系对的位置特征的集合Q
...

【专利技术属性】
技术研发人员：丁长兴，屈贤，钟旭彬，王健，丁二锐，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人