一种基于光流嵌入的3D语义场景补全方法技术

技术编号：40107638 阅读：15 留言：0更新日期：2024-01-23 18:40

本发明专利技术公开了一种基于光流嵌入的3D语义场景补全方法，包括以下步骤：RGB图像通过2D UNet编码器得到编码的RGB图特征张量；深度图通过深度坐标系转换得到全尺寸3D体素；将2D UNet编码的RGB特征张量通过2D UNet解码网络，将初始3D体素进行多尺度采样，再将其沿光轴进行映射，得到初始RGB 3D体素；将初始RGB 3D体素与全尺寸3D体素相融合，得到3D F‑TSDF；将初始RGB3D体素与3D光流嵌入层进行耦合，将光流编码到3D体素中，得到编码光流的3D体素；将编码光流的3D体素与3D F‑TSDF进行逐点交叉操作，得到逐体素光流编码的F‑TSDF，下采样后喂入3D UNet编码解码网络，得到最终输出。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉和模式识别，尤其是一种基于光流嵌入的3d语义场景补全方法。

技术介绍

1、令x为场景的不完整的3d表示，语义场景补全(ssc)是函数f，推断一个密集的语义标记的场景y^，最好近似真正的3d场景y。最常见的是，x比y明显稀疏，复杂性在于固有的歧义，尤其是由于稀疏的感应或遮挡而缺少大量数据的地方。随后，无法通过在x中插值数据来解决该问题，并且最常通过(x，y)对带有语义标签的稀疏输入和密集的3d场景来解决先验。

2、稀疏3d输入x的性质极大地影响了任务复杂性。尽管可以从多种传感器中获得3d数据，但通常使用rgb-d/立体摄像头或激光镜头。例如，前者提供了对可见表面的密集描述，其中缺失区域对应于遮挡区域。这将ssc任务减少到仅在遮挡区域中估计语义补全。相反，lidar数据提供了传感范围大，直到无穷远处，远处密度小，更加稀疏密度降低了远处，并且从激光束的点回报覆盖了空间的无穷小部分，导致未知体积的比例很高。

3、因此，本文在ssc领域提出一种基于光流嵌入的3d语义场景补全方法，该方法通过将rgb图...

【技术保护点】

1.一种基于光流嵌入的3D语义场景补全方法，其特征是，包括以下步骤：

2.如权利要求1所述的一种基于光流嵌入的3D语义场景补全方法，其特征是，RGB图像通过2D UNet编码器得到编码的RGB图特征张量，包括：

3.如权利要求1所述的一种基于光流嵌入的3D语义场景补全方法，其特征是，深度图通过深度坐标系转换得到全尺寸3D体素，包括：

4.如权利要求1所述的一种基于光流嵌入的3D语义场景补全方法，其特征是，将2DUNet编码的RGB特征张量通过2D UNet解码网络，将初始3D体素进行多尺度采样，再将其沿光轴进行映射，得到初始RGB

【技术特征摘要】

1.一种基于光流嵌入的3d语义场景补全方法，其特征是，包括以下步骤：

2.如权利要求1所述的一种基于光流嵌入的3d语义场景补全方法，其特征是，rgb图像通过2d unet编码器得到编码的rgb图特征张量，包括：

3.如权利要求1所述的一种基于光流嵌入的3d语义场景补全方法，其特征是，深度图通过深度坐标系转换得到全尺寸3d体素，包括：

4.如权利要求1所述的一种基于光流嵌入的3d语义场景补全方法，其特征是，将2dunet编码的rgb特征张量通过2d unet解码网络，将初始3d体素进行多尺度采样，再将其沿光轴进行映射，得到初始rgb 3d体素，包括...

【专利技术属性】
技术研发人员：朱玉鹤，张盛平，
申请(专利权)人：哈尔滨工业大学威海，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人