预训练模型确定方法、装置、设备以及存储介质制造方法及图纸

技术编号：40747028 阅读：7 留言：0更新日期：2024-03-25 20:04

本公开提供了预训练模型确定方法、装置、设备以及存储介质，涉及人工智能技术领域，具体涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为：获取多帧时序图像，以及多帧时序图像对应的多帧原始点云数据；对多帧原始点云数据进行随机掩码运算，得到掩码后点云数据；提取多帧时序图像的图像语义特征，得到特征图；将掩码后点云数据中的点云投影到特征图上，得到点云对应的图像坐标；根据图像坐标对应的图像语义特征和掩码后点云数据，确定掩码后点云数据的掩码区域的点云重建目标；根据点云重建目标和掩码后点云数据上的未掩码区域的未掩码特征，对掩码区域的图像语义特征和几何属性特征进行重建，以生成点云预训练模型。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，具体涉及计算机视觉、深度学习、大模型等，尤其涉及一种预训练模型确定方法、装置、设备以及存储介质。

技术介绍

1、目前，点云是一种常用的三维数据表示形式，可以从各种传感器(如激光雷达、深度相机等)获取，广泛应用于计算机视觉、机器人、自动驾驶等领域。然而，点云数据具有高维、稀疏、无序、异构等特点，给点云的分析和处理带来了很大的挑战。

2、transformer是一种基于自注意力机制的深度神经网络结构，在自然语言处理领域取得了巨大的成功，也被逐渐引入到点云领域，展现了强大的潜力。然而，由于点云领域缺乏大规模的标注数据集，以及transformer缺乏对点云的归纳偏置，导致直接应用transformer在点云上的效果并不理想。

技术实现思路

1、本公开提供了一种预训练模型确定方法、装置、设备以及存储介质。

2、根据本公开的第一方面，提供了一种预训练模型确定方法，所述方法包括：

3、获取多帧时序图像，以及多帧时序图像对应的多帧原始点云数据；

4、对多帧所述原始点云数据进行随机掩码运算，得到掩码后点云数据；

5、提取多帧所述时序图像的图像语义特征，得到特征图；

6、将所述掩码后点云数据中的点云投影到所述特征图上，得到所述点云对应的图像坐标；

7、根据所述图像坐标对应的图像语义特征和所述掩码后点云数据，确定所述掩码后点云数据的掩码区域的点云重建目标，其中，所述点云重建目标包括：语义级别点云重建

8、根据所述点云重建目标和所述掩码后点云数据上的未掩码区域的未掩码特征，对所述掩码区域的图像语义特征和几何属性特征进行重建，以生成点云预训练模型。

9、进一步地，所述对多帧所述原始点云数据进行随机掩码运算，得到掩码后点云数据，包括：

10、对原始点云数据进行体素特征编码处理，得到处理后点云数据；

11、对所述处理后点云数据进行随机掩码运算，得到掩码后点云数据。

12、进一步地，所述将所述掩码后点云数据中的点云投影到所述特征图上，得到所述点云对应的图像坐标，包括：

13、基于预先确定的内外参矩阵，确定所述掩码后点云数据中的点云和所述图像语义特征之间的对应关系；

14、根据所述对应关系，将所述掩码后点云数据中的点云投影到所述特征图上，得到对应的图像坐标。

15、进一步地，基于预先确定的内外参矩阵，确定所述掩码后点云数据中的点云和所述图像语义特征之间的对应关系，包括：

16、对所述掩码后点云数据中体素内的三维点云坐标进行平均值计算，得到三维点云坐标平均值；

17、基于所述内外参矩阵，确定所述三维点云坐标平均值和所述图像语义特征之间的对应关系。

18、进一步地，所述根据所述图像坐标对应的图像语义特征，确定所述掩码后点云数据的掩码区域的点云重建目标，包括：

19、确定所述图像坐标对应的图像语义特征的位置编码信息；

20、基于所述位置编码信息，确定所述掩码后点云数据的掩码区域的点云重建目标。

21、进一步地，所述方法还包括：

22、采用语义损失函数，将所述未掩码区域的未掩码特征与图像语义特征进行语义对齐。

23、进一步地，多帧所述时序图像是采用图像传感器采集到的，多帧所述原始点云数据是采用激光雷达采集到的，其中，所述图像传感器和所述激光雷达已预先经过标定和时间戳对齐。

24、进一步地，所述方法还包括：

25、采用点云特征提取算法，对所述掩码后点云数据中的未掩码区域进行特征提取，得到所述未掩码区域的未掩码特征。

26、进一步地，根据所述点云重建目标和所述掩码后点云数据上的未掩码区域的未掩码特征，对所述掩码区域的图像语义特征和几何属性特征进行重建，得到所述点云预训练模型，包括：

27、根据所述点云重建目标和所述掩码后点云数据上的未掩码区域的未掩码特征，对所述掩码区域的图像语义特征和几何属性特征进行重建，得到所述掩码区域的掩码特征；

28、根据所述图像语义特征、所述掩码特征和所述未掩码特征，生成所述点云预训练模型。

29、根据本公开的第二方面，提供了一种预训练模型确定装置，所述装置包括：

30、获取单元，用于获取多帧时序图像，以及多帧时序图像对应的多帧原始点云数据；

31、掩码处理单元，用于对多帧所述原始点云数据进行随机掩码运算，得到掩码后点云数据；

32、提取单元，用于提取多帧所述时序图像的图像语义特征，得到特征图；

33、投影处理单元，用于将所述掩码后点云数据中的点云投影到所述特征图上，得到所述点云对应的图像坐标；

34、确定单元，用于根据所述图像坐标对应的图像语义特征，确定所述掩码后点云数据的掩码区域的点云重建目标；

35、生成单元，用于根据所述点云重建目标和所述掩码后点云数据上的未掩码区域的未掩码特征，对所述掩码区域的图像语义特征和几何属性特征进行重建，以生成点云预训练模型。

36、进一步地，所述掩码处理单元，包括：

37、第一处理子单元，用于对所述原始点云数据进行体素特征编码处理，得到处理后点云数据；

38、第二处理子单元，用于对所述处理后点云数据进行随机掩码运算，得到掩码后点云数据。

39、进一步地，所述投影处理单元，包括：

40、第一确定子单元，用于基于预先确定的内外参矩阵，确定所述掩码后点云数据中的点云和所述图像语义特征之间的对应关系；

41、投影处理子单元，用于根据所述对应关系，将所述掩码后点云数据中的点云投影到所述特征图上，得到对应的图像坐标。

42、进一步地，所述第一确定子单元，包括：

43、计算模块，用于对所述掩码后点云数据中体素内的三维点云坐标进行平均值计算，得到三维点云坐标平均值；

44、确定模块，用于基于所述内外参矩阵，确定所述三维点云坐标平均值和所述图像语义特征之间的对应关系。

45、进一步地，所述确定单元，包括：

46、第二确定子单元，用于确定所述图像坐标对应的图像语义特征的位置编码信息；

47、第三确定子单元，用于基于所述位置编码信息，确定所述掩码后点云数据的掩码区域的点云重建目标。

48、进一步地，所述装置还包括：

49、对齐处理单元，用于采用语义损失函数，将所述未掩码区域的未掩码特征与图像语义特征进行语义对齐。

50、进一步地，多帧所述时序图像是采用图像传感器采集到的，多帧所述原始点云数据是采用激光雷达采集到的，其中，所述图像传感器和所述激光雷达已预先经过标定和时间戳对齐。

51、进一步地，所述装置还包括：

52、特征提取单元，用于采用点云特征提取算法本文档来自技高网...

【技术保护点】

1.一种预训练模型确定方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述对多帧所述原始点云数据进行随机掩码运算，得到掩码后点云数据，包括：

3.根据权利要求1所述的方法，其中，所述将所述掩码后点云数据中的点云投影到所述特征图上，得到所述点云对应的图像坐标，包括：

4.根据权利要求3所述的方法，其中，基于预先确定的内外参矩阵，确定所述掩码后点云数据中的点云和所述图像语义特征之间的对应关系，包括：

5.根据权利要求1所述的方法，其中，所述根据所述图像坐标对应的图像语义特征和所述掩码后点云数据，确定所述掩码后点云数据的掩码区域的点云重建目标，包括：

6.根据权利要求1至5中任意一项所述的方法，其中，所述方法还包括：

7.根据权利要求1至5中任意一项所述的方法，其中，

8.根据权利要求1至5中任意一项所述的方法，其中，所述方法还包括：

9.根据权利要求1至5中任意一项所述的方法，其中，根据所述点云重建目标和所述掩码后点云数据上的未掩码区域的未掩码特征，对所述掩码区域的图像语义特征和

10.一种预训练模型确定装置，所述装置包括：

11.根据权利要求10所述的装置，其中，所述掩码处理单元，包括：

12.根据权利要求10所述的装置，其中，所述投影处理单元，包括：

13.根据权利要求12所述的装置，其中，所述第一确定子单元，包括：

14.根据权利要求10所述的装置，其中，所述确定单元，包括：

15.根据权利要求10至14中任意一项所述的装置，其中，所述装置还包括：

16.根据权利要求10至14中任意一项所述的装置，其中，多帧所述时序图像是采用图像传感器采集到的，多帧所述原始点云数据是采用激光雷达采集到的，其中，所述图像传感器和所述激光雷达已预先经过标定和时间戳对齐。

17.根据权利要求10至14中任意一项所述的装置，其中，所述装置还包括：

18.根据权利要求10至14中任意一项所述的装置，其中，所述生成单元，包括：

19.一种电子设备，包括：

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种预训练模型确定方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述对多帧所述原始点云数据进行随机掩码运算，得到掩码后点云数据，包括：

3.根据权利要求1所述的方法，其中，所述将所述掩码后点云数据中的点云投影到所述特征图上，得到所述点云对应的图像坐标，包括：

4.根据权利要求3所述的方法，其中，基于预先确定的内外参矩阵，确定所述掩码后点云数据中的点云和所述图像语义特征之间的对应关系，包括：

6.根据权利要求1至5中任意一项所述的方法，其中，所述方法还包括：

7.根据权利要求1至5中任意一项所述的方法，其中，

8.根据权利要求1至5中任意一项所述的方法，其中，所述方法还包括：

9.根据权利要求1至5中任意一项所述的方法，其中，根据所述点云重建目标和所述掩码后点云数据上的未掩码区域的未掩码特征，对所述掩码区域的图像语义特征和几何属性特征进行重建，得到所述点云预训练模型，包括：

10.一种预训练模型确定装置，所述装置包括...

【专利技术属性】
技术研发人员：王学宽，路金诚，张伟，谭啸，李莹莹，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人