System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及计算机视觉,特别涉及一种利用多模态专家知识进行3d物体检测的方法及系统。
技术介绍
1、纯视觉的3d感知方法,即基于摄像头的3d感知方法在自动驾驶感知任务中越来越受到关注。尽管仅基于摄像头模型具有部署成本低和易于广泛应用的优点,但在感知精度方面,它们仍然落后于利用激光雷达传感器的最先进模型。因此,人们采用了提取方法,将知识从强大的专家模型转移到仅相机的学徒模型中,期望利用这些更强的专家模型的专业知识来增强仅相机模型的能力。
2、现有的3d感知提取方法通常采用性能最好的专家模型,如基于点云的模型或多模态融合模型。然而,激光雷达和相机特征之间的领域差距阻碍了蒸馏过程中的知识转移,导致实际应用中的改进有限。
技术实现思路
1、本申请实施例提供一种利用多模态专家知识进行3d物体检测的方法及系统,提出一个改进仅相机学徒模型的框架,包括一个适合学徒的多模态专家和适合时序融合的蒸馏监督,从而对静态和动态对象进行监督,以减轻长期时间融合过程中的错位问题。
2、为解决上述技术问题,第一方面,本申请实施例提供了一种利用多模态专家知识进行3d物体检测的方法,包括:首先,构建专家模型;专家模型为以视觉为中心的多模态专家模型;然后,构建基于轨迹的蒸馏模块和占据重建模块;接下来,根据基于轨迹的蒸馏模块、占据重建模块,将专家模型的知识转移至学徒模型;学徒模型为标准长期视觉检测模型;基于知识转移后的学徒模型,对3d物体进行检测。
3、在一些示例性实施例中,构建专
4、在一些示例性实施例中,构建基于轨迹的蒸馏模块,包括以下步骤:基于所有历史帧的转换后的真实对象位置,构建运动轨迹;通过对采样特征进行双线性插值采样,然后进行归一化处理,得到归一化的关键采样特征;所述采样特征为来自专家bev特征、来自学徒bev特征的相同点上的采样特征;在归一化的关键采样特征之间计算基于轨迹的蒸馏损失;使用运动轨迹作为查询,在与所述运动轨迹对应的代表位置上进行基于轨迹的蒸馏,使专家对学徒中的运动不对齐问题进行纠正。
5、在一些示例性实施例中,归一化处理的计算公式为:
6、
7、其中,分别表示来自专家bev特征fe和学徒bev特征fa的相同点pij′上的采样特征;
8、基于轨迹的蒸馏损失的计算公式为:
9、
10、其中,ltd表示基于轨迹的蒸馏损失;n表示当前帧与历史帧之间的时间间隔;k表示待测对象的个数。
11、在一些示例性实施例中,占据重建模块根据所述专家模型的深度信息,建立网格占用状态,并基于所述网格占用状态对所述学徒模型进行监督。
12、在一些示例性实施例中,构建占据重建模块,包括以下步骤:基于深度估计模块,预测每个图像像素的深度,得到深度图;将深度图反投影为3d点云,将每个图像像素转换为3d坐标;将每个3d坐标的高斯分布扩展至3d空间,得到精确的3d物体建模;采用3d物体建模的网格作为辅助监督,并采用直观的l1正则化损失来优化预测的网格占用状态,从而提升对静态和动态物体的深度预测能力。
13、在一些示例性实施例中,将每个图像像素转换为3d坐标的转换公式为:
14、
15、其中,(u,v)表示图像像素;d(u,v)表示图像像素的深度;cu、cv分别表示相机的中心点,fu、fv分别表示水平和垂直焦距;将每个3d坐标的高斯分布扩展至3d空间,得到精确的3d物体建模;3d物体建模的网格为:
16、
17、其中,(px,py,pz)表示3d物体的中心,σp表示每个物体尺寸的标准差。
18、采用直观的l1正则化损失来优化预测的网格占用状态,得到占用重构损失;其计算公式为:
19、
20、其中,lor表示占用重构损失;gxyz表示3d物体建模的网格;g′xyz表示预测的网格占用状态。
21、在一些示例性实施例中,根据基于轨迹的蒸馏模块、占据重建模块,将专家模型的知识转移至学徒模型的蒸馏过程中,通过联合训练损失,促进专家模型对学徒模型的语义和几何知识的转移;联合训练损失ltotal定义为:
22、ltotal=la+ltd+lor (6)
23、其中,ltotal表示联合训练损失;la表示学徒模型的感知损失;ltd表示基于轨迹的蒸馏损失;lor表示占用重构损失。
24、第二方面,本申请实施例还提供了一种利用多模态专家知识进行3d物体检测的系统,包括:相连接的模型构建模块和检测模块;其中,模型构建模块包括专家模型构建单元、基于轨迹的蒸馏模块构建单元以及占据重建模块构建单元;所述检测模块包括学徒模型;所述学徒模型为标准长期视觉检测模型;专家模型构建单元用于构建以视觉为中心的多模态专家模型;基于轨迹的蒸馏模块构建单元、占据重建模块构建单元分别用于构建基于轨迹的蒸馏模块、占据重建模块;基于轨迹的蒸馏模块和所述占据重建模块用于将所述专家模型的知识转移至学徒模型;检测模块用于根据知识转移后的学徒模型,对3d物体进行检测。
25、在一些示例性实施例中,基于轨迹的蒸馏模块构建单元,包括:依次连接的运动轨迹构建单元、归一化处理单元、计算单元以及蒸馏单元;运动轨迹构建单元用于根据所有历史帧的转换后的真实对象位置,构建运动轨迹;归一化处理单元用于通过对采样特征进行双线性插值采样,然后进行归一化处理,得到归一化的关键采样特征;所述采样特征为来自专家bev特征、来自学徒bev特征的相同点上的采样特征;计算单元用于在归一化的关键采样特征之间计算基于轨迹的蒸馏损失;蒸馏单元用于使用运动轨迹作为查询,在与所述运动轨迹对应的代表位置上进行基于轨迹的蒸馏,使专家对学徒中的运动不对齐问题进行纠正。
26、本申请实施例提供的技术方案至少具有以下优点:
27、本申请实施例提供一种利用多模态专家知识进行3d物体检测的方法及系统,该方法包括以下步骤:首先,构建专家模型;专家模型为以视觉为中心的多模态专家模型;然后,构建基于轨迹的蒸馏模块和占据重建模块;接下来,根据基于轨迹的蒸馏模块、占据重建模块,将专家模型的知识转移至学徒模型;学徒模型为标准长期视觉检测模型;基于知识转移后的学徒模型,对3d物体进行检测。
28、本申请通过提供一种利用多模态专家知识进行3d物体检测的方法,本申请首先构建了一个以视觉为中心的多模态专家模型,该模型专门编码图像模态,从而省去了使用激光雷达骨干网络的需要。本申请首次证明了这样的专家模型可以与其本文档来自技高网...
【技术保护点】
1.一种利用多模态专家知识进行3D物体检测的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的利用多模态专家知识进行3D物体检测的方法,其特征在于,所述构建专家模型,包括以下步骤:
3.根据权利要求1所述的利用多模态专家知识进行3D物体检测的方法,其特征在于,所述构建基于轨迹的蒸馏模块,包括以下步骤:
4.根据权利要求3所述的利用多模态专家知识进行3D物体检测的方法,其特征在于,所述归一化处理的计算公式为:
5.根据权利要求1所述的利用多模态专家知识进行3D物体检测的方法,其特征在于,所述占据重建模块根据所述专家模型的深度信息,建立网格占用状态,并基于所述网格占用状态对所述学徒模型进行监督。
6.根据权利要求1所述的利用多模态专家知识进行3D物体检测的方法,其特征在于,所述构建占据重建模块,包括以下步骤:
7.根据权利要求6所述的利用多模态专家知识进行3D物体检测的方法,其特征在于,将每个图像像素转换为3D坐标的转换公式为:
8.根据权利要求1所述的利用多模态专家知识进行3D物体检测的方法
9.一种利用多模态专家知识进行3D物体检测的系统,其特征在于,包括:相连接的模型构建模块和检测模块;其中,
10.根据权利要求9所述的利用多模态专家知识进行3D物体检测的系统,其特征在于,所述基于轨迹的蒸馏模块构建单元,包括:依次连接的运动轨迹构建单元、归一化处理单元、计算单元以及蒸馏单元;
...【技术特征摘要】
1.一种利用多模态专家知识进行3d物体检测的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的利用多模态专家知识进行3d物体检测的方法,其特征在于,所述构建专家模型,包括以下步骤:
3.根据权利要求1所述的利用多模态专家知识进行3d物体检测的方法,其特征在于,所述构建基于轨迹的蒸馏模块,包括以下步骤:
4.根据权利要求3所述的利用多模态专家知识进行3d物体检测的方法,其特征在于,所述归一化处理的计算公式为:
5.根据权利要求1所述的利用多模态专家知识进行3d物体检测的方法,其特征在于,所述占据重建模块根据所述专家模型的深度信息,建立网格占用状态,并基于所述网格占用状态对所述学徒模型进行监督。
6.根据权利要求1所述的利用多模态专家知识进行3d物体检测的方法,其特征在...
【专利技术属性】
技术研发人员:李弘扬,黄琳焱,司马崇昊,王文海,乔宇,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。