一种基于光流嵌入的3D语义场景补全方法技术

技术编号:40107638 阅读:15 留言:0更新日期:2024-01-23 18:40
本发明专利技术公开了一种基于光流嵌入的3D语义场景补全方法,包括以下步骤:RGB图像通过2D UNet编码器得到编码的RGB图特征张量;深度图通过深度坐标系转换得到全尺寸3D体素;将2D UNet编码的RGB特征张量通过2D UNet解码网络,将初始3D体素进行多尺度采样,再将其沿光轴进行映射,得到初始RGB 3D体素;将初始RGB 3D体素与全尺寸3D体素相融合,得到3D F‑TSDF;将初始RGB3D体素与3D光流嵌入层进行耦合,将光流编码到3D体素中,得到编码光流的3D体素;将编码光流的3D体素与3D F‑TSDF进行逐点交叉操作,得到逐体素光流编码的F‑TSDF,下采样后喂入3D UNet编码解码网络,得到最终输出。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和模式识别,尤其是一种基于光流嵌入的3d语义场景补全方法。


技术介绍

1、令x为场景的不完整的3d表示,语义场景补全(ssc)是函数f,推断一个密集的语义标记的场景y^,最好近似真正的3d场景y。最常见的是,x比y明显稀疏,复杂性在于固有的歧义,尤其是由于稀疏的感应或遮挡而缺少大量数据的地方。随后,无法通过在x中插值数据来解决该问题,并且最常通过(x,y)对带有语义标签的稀疏输入和密集的3d场景来解决先验。

2、稀疏3d输入x的性质极大地影响了任务复杂性。尽管可以从多种传感器中获得3d数据,但通常使用rgb-d/立体摄像头或激光镜头。例如,前者提供了对可见表面的密集描述,其中缺失区域对应于遮挡区域。这将ssc任务减少到仅在遮挡区域中估计语义补全。相反,lidar数据提供了传感范围大,直到无穷远处,远处密度小,更加稀疏密度降低了远处,并且从激光束的点回报覆盖了空间的无穷小部分,导致未知体积的比例很高。

3、因此,本文在ssc领域提出一种基于光流嵌入的3d语义场景补全方法,该方法通过将rgb图和深度图与嵌入的光流本文档来自技高网...

【技术保护点】

1.一种基于光流嵌入的3D语义场景补全方法,其特征是,包括以下步骤:

2.如权利要求1所述的一种基于光流嵌入的3D语义场景补全方法,其特征是,RGB图像通过2D UNet编码器得到编码的RGB图特征张量,包括:

3.如权利要求1所述的一种基于光流嵌入的3D语义场景补全方法,其特征是,深度图通过深度坐标系转换得到全尺寸3D体素,包括:

4.如权利要求1所述的一种基于光流嵌入的3D语义场景补全方法,其特征是,将2DUNet编码的RGB特征张量通过2D UNet解码网络,将初始3D体素进行多尺度采样,再将其沿光轴进行映射,得到初始RGB 3D体素,包括:...

【技术特征摘要】

1.一种基于光流嵌入的3d语义场景补全方法,其特征是,包括以下步骤:

2.如权利要求1所述的一种基于光流嵌入的3d语义场景补全方法,其特征是,rgb图像通过2d unet编码器得到编码的rgb图特征张量,包括:

3.如权利要求1所述的一种基于光流嵌入的3d语义场景补全方法,其特征是,深度图通过深度坐标系转换得到全尺寸3d体素,包括:

4.如权利要求1所述的一种基于光流嵌入的3d语义场景补全方法,其特征是,将2dunet编码的rgb特征张量通过2d unet解码网络,将初始3d体素进行多尺度采样,再将其沿光轴进行映射,得到初始rgb 3d体素,包括...

【专利技术属性】
技术研发人员:朱玉鹤张盛平
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1