一种基于单目相机的跨模态蒸馏3D目标检测方法及系统技术方案

技术编号：40793512 阅读：3 留言：0更新日期：2024-03-28 19:22

本发明专利技术公开了一种基于单目相机的跨模态蒸馏3D目标检测方法及系统，使用激光雷达数据训练教师网络，使用相机数据训练学生网络，计算教师网络与学生网络各目标的深度不确定度；将训练后的教师网络和学生网络与蒸馏模块组合构成蒸馏网络，计算加权特征蒸馏与加权关系蒸馏各目标的权重；基于加权特征蒸馏与加权关系蒸馏各目标的权重计算加权特征蒸馏与加权关系蒸馏的损失函数，将神经网络的梯度反向传播，更新神经网络的参数；当更新神经网络的参数达到最大迭代次数或者满足终止条件时，保留学生网络用于真实场景。本发明专利技术有利于基于相机的场景感知算法在自动驾驶工业界的应用，有利于相关产业的快速落地与发展。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉、安全辅助驾驶，具体涉及一种基于单目相机的跨模态蒸馏3d目标检测方法及系统。

技术介绍

1、三维(3d)目标检测是自动驾驶车辆和机器人场景感知的关键组成部分。目前，3d目标检测的主要解决方案通常依赖于激光雷达传感器。然而，激光雷达传感器的高成本限制了其在实际场景中的应用。相对的，单目3d检测提供了一种更方便和成本低廉的解决方案，成为了学界和工业界的研究热点。然而，由于单一图像中缺乏准确的深度信息，单目3d检测器与基于激光雷达的3d目标检测之间仍然存在巨大的性能差距。

2、现有的单目3d检测方案都受限于单目深度估计的病态性，其深度估计的低精度严重影响了检测效果。考虑到激光雷达传感器可以获取场景的准确深度信息，伪激光雷达方法尝试利用激光雷达数据来为单目3d检测提供后者缺乏的深度信息。然而，这些方法没有充分利用激光雷达数据的信息，并且不能做到端到端的训练。

3、跨模态知识蒸馏则提供了一种创新的解决方案，实现更有效的利用激光雷达数据进行3d目标检测。在这种方法中，跨模态蒸馏方法可以不增加任何推理成本的同时极大提升单目3d检测的精度。但由于跨模态蒸馏采用的激光雷达数据与图像数据存在巨大的模态差异，导致其存在严重的负迁移问题，限制了其性能的进一步提升。具体来说，负迁移可以分为架构不一致与特征过拟合两个问题。前者是激光雷达3d检测器与图像3d检测架构上的巨大差异导致蒸馏特征难以对齐；后者是推理阶段图像3d检测器没有了深度信息输入，导致其训练时拟合的特征失效。这两者都会严重影响跨模态蒸馏的精度，是

技术实现思路

1、本专利技术所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于单目相机的跨模态蒸馏3d目标检测方法及系统，用于解决跨模态蒸馏中由于模态差异引起的负迁移的技术问题，缩小基于相机与基于激光雷达传感器的3d目标检测方法的性能差距，有利于基于相机的场景感知算法在自动驾驶工业界的应用，有利于相关产业的快速落地与发展。

2、本专利技术采用以下技术方案：

3、一种基于单目相机的跨模态蒸馏3d目标检测方法，包括以下步骤：

4、使用激光雷达数据训练教师网络，使用相机数据训练学生网络，计算教师网络与学生网络各目标的深度不确定度；

5、将训练后的教师网络和学生网络与蒸馏模块组合构成蒸馏网络，计算加权特征蒸馏与加权关系蒸馏各目标的权重；

6、基于加权特征蒸馏与加权关系蒸馏各目标的权重计算加权特征蒸馏与加权关系蒸馏的损失函数，将神经网络的梯度反向传播，更新神经网络的参数；

7、当更新神经网络的参数达到最大迭代次数或者满足终止条件时，保留学生网络用于真实场景，面对真实场景时，使用相机数据作为输入，根据学生网络训练好的网络参数进行推理得到各目标的位置、尺寸和朝向，完成对目标的三维定位。

8、优选地，教师网络采用由激光雷达数据转换成的深度图作为输入，而学生网络采用单目图像作为输入，教师网络的学习率、数据增强及优化器设置与学生网络保持一致，并在训练完成后参数冻结。

9、更优选地，教师网络与学生网络各目标的深度不确定度计算如下：

10、

11、其中，ldep表示深度预测的损失函数，z和z*分别表示预测的深度值和真实深度值，σ表示预测的深度不确定度。

12、优选地，加权特征蒸馏与加权关系蒸馏各目标的权重计算如下：

13、

14、其中，θ＝t和θ＝s分别表示教师网络和学生网络生成的深度不确定度，σθ,i和ωi分别表示第i个目标的深度不确定度和加权权重。

15、优选地，加权特征蒸馏的损失函数计算如下：

16、

17、其中，ti(l)和分别表示教师网络和学生网络第l层第i个目标的特征，和wi(l)分别表示对应目标的特征图的长度和宽度，表示对应目标的2d检测框掩码，表示对应目标的加权权重，l表示用于中间层特征蒸馏的层数，n表示目标个数的总数，f(·)函数表示用以计算教师网络与学生网络对应目标的差异函数。

18、优选地，引入深度不确定度衡量教师网络和学生网络两个目标关系的重要程度，获得教师网络和学生网络两两目标之间的加权关系后，需要进一步计算教师网络和学生网络对应的目标关系的差异。

19、更优选地，教师网络和学生网络两个目标关系计算如下：

20、

21、

22、其中，dt[i,j]和ds[i,j]分别表示加权后教师网络和学生网络的i和j目标的关系，和分别表示第l层第i个目标的教师网络和学生网络预测的深度不确定度，ti(l)和分别表示教师网络和学生网络第l层第i个目标的特征，l表示用于中间层特征蒸馏的层数，r(·)函数表示用计算两个目标关系的基本公式。

23、更优选地，教师网络和学生网络对应的目标关系的差异计算如下：

24、

25、其中，n表示目标个数的总数，g(·)函数表示用计算教师网络和学生网络对应目标关系的差异。

26、第二方面，本专利技术实施例提供了一种基于单目相机的跨模态蒸馏3d目标检测系统，包括：

27、训练模块，使用激光雷达数据训练教师网络，使用相机数据训练学生网络，计算教师网络与学生网络各目标的深度不确定度；

28、权重模块，将训练后的教师网络和学生网络与蒸馏模块组合构成蒸馏网络，计算加权特征蒸馏与加权关系蒸馏各目标的权重；

29、函数模块，基于加权特征蒸馏与加权关系蒸馏各目标的权重计算加权特征蒸馏与加权关系的损失函数，将神经网络的梯度反向传播，更新神经网络的参数；

30、输出模块，当更新神经网络的参数达到最大迭代次数或者满足终止条件时，保留学生网络用于真实场景。

31、优选地，权重模块中，引入深度不确定度衡量教师网络和学生网络两个目标关系的重要程度，获得教师网络和学生网络两两目标之间的加权关系后，需要进一步计算教师网络和学生网络对应的目标关系的差异；

32、教师网络和学生网络两个目标关系计算如下：

33、

34、

35、其中，dt[i,j]和ds[i,j]分别表示加权后教师网络和学生网络的i和j目标的关系，和分别表示第l层第i个目标的教师网络和学生网络预测的深度不确定度，ti(l)和分别表示教师网络和学生网络第l层第i个目标的特征，l表示用于中间层特征蒸馏的层数，r(·)函数表示用计算两个目标关系的基本公式；

36、教师网络和学生网络对应的目标关系的差异计算如下：

37、

38、其中，n表示目标个数的总数，g(·)函数表示用计算教师网络和学生网络对应目标关系的差异。

39、与现有技术相比，本专利技术至少具有以下有益效果：

40、一种基于单目相机的跨模态蒸馏3d目标检测方法，神经网络训练阶段有教师网络、学生网络和蒸馏模块本文档来自技高网...

【技术保护点】

1.一种基于单目相机的跨模态蒸馏3D目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于单目相机的跨模态蒸馏3D目标检测方法，其特征在于，教师网络采用由激光雷达数据转换成的深度图作为输入，而学生网络采用单目图像作为输入，教师网络的学习率、数据增强及优化器设置与学生网络保持一致，并在训练完成后参数冻结。

3.根据权利要求2所述的基于单目相机的跨模态蒸馏3D目标检测方法，其特征在于，教师网络与学生网络各目标的深度不确定度计算如下：

4.根据权利要求1所述的基于单目相机的跨模态蒸馏3D目标检测方法，其特征在于，加权特征蒸馏与加权关系蒸馏各目标的权重计算如下：

5.根据权利要求1所述的基于单目相机的跨模态蒸馏3D目标检测方法，其特征在于，加权特征蒸馏的损失函数计算如下：

6.根据权利要求1所述的基于单目相机的跨模态蒸馏3D目标检测方法，其特征在于，引入深度不确定度衡量教师网络和学生网络两个目标关系的重要程度，获得教师网络和学生网络两两目标之间的加权关系后，需要进一步计算教师网络和学生网络对应的目标关系的差异。</p>

7.根据权利要求6所述的基于单目相机的跨模态蒸馏3D目标检测方法，其特征在于，教师网络和学生网络两个目标关系计算如下：

8.根据权利要求6所述的基于单目相机的跨模态蒸馏3D目标检测方法，其特征在于，教师网络和学生网络对应的目标关系的差异计算如下：

9.一种基于单目相机的跨模态蒸馏3D目标检测系统，其特征在于，包括：

10.根据权利要求9所述的基于单目相机的跨模态蒸馏3D目标检测系统，其特征在于，权重模块中，引入深度不确定度衡量教师网络和学生网络两个目标关系的重要程度，获得教师网络和学生网络两两目标之间的加权关系后，需要进一步计算教师网络和学生网络对应的目标关系的差异；

...

【技术特征摘要】

1.一种基于单目相机的跨模态蒸馏3d目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于单目相机的跨模态蒸馏3d目标检测方法，其特征在于，教师网络采用由激光雷达数据转换成的深度图作为输入，而学生网络采用单目图像作为输入，教师网络的学习率、数据增强及优化器设置与学生网络保持一致，并在训练完成后参数冻结。

3.根据权利要求2所述的基于单目相机的跨模态蒸馏3d目标检测方法，其特征在于，教师网络与学生网络各目标的深度不确定度计算如下：

4.根据权利要求1所述的基于单目相机的跨模态蒸馏3d目标检测方法，其特征在于，加权特征蒸馏与加权关系蒸馏各目标的权重计算如下：

5.根据权利要求1所述的基于单目相机的跨模态蒸馏3d目标检测方法，其特征在于，加权特征蒸馏的损失函数计算如下：

6.根据权利要求1所述的基于单目相机的跨模态蒸馏3d目标检...

【专利技术属性】
技术研发人员：杨勐，丁瑞，郑南宁，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人