大范围光场语义驱动智能表征与实时重建方法技术

技术编号：38768091 阅读：33 留言：0更新日期：2023-09-10 10:41

本发明专利技术公开了大范围光场语义驱动智能表征与实时重建方法，本发明专利技术属于三维重建与智能理解、人工智能技术领域；该方法包括构建语义驱动智能表征；基于当前RGB

全部详细技术资料下载

【技术实现步骤摘要】
大范围光场语义驱动智能表征与实时重建方法

[0001]本专利技术属于三维重建与智能理解/人工智能
，特别是涉及大范围光场语义驱动智能表征与实时重建方法与系统。

技术介绍

[0002]大范围光场实时重建是人工智能、机器视觉、虚拟现实等领域的核心技术难题之一，对于实现光场的高效重建和场景渲染等方面具有重要意义。大范围光场语义驱动智能表征与实时重建指的是：利用RGB、深度传感器等设备从多个视角采集场景的色彩图像和深度图像等信息，检测和提取色彩图像和深度图像中的语义信息，利用语义信息维护和更新场景的智能表征，并以增量的形式快速地将多视角图像的信息融合进大场景的光场表征中，达到实时且高质量的大范围光场重建的目的。
[0003]现有的大范围光场重建算法无法实时地重建光场的几何和纹理信息。一方面，传统同时定位和建图（SLAM）算法只关注几何重建，利用输入的RGB或者RGB
‑
D图像重建出场景的几何模型，并不支持高质量的新视角渲染。另一方面，近两年流行的基于神经辐射场（NeRF）的体渲染算法，将场景表示为隐式的连续场，并利用多视角图像进行联合优化，在内插视角上得到了出色的渲染效果，但缺点是稠密的空间采样导致渲染速度很慢；另外由于缺少显式的几何约束，光场重建速度慢，且外插视角的渲染效果很差。一些算法（如NeurMips）将场景表示为平面的集合，并通过类似体渲染的方式对每个平面的几何参数和色彩进行优化，由于采样点数量大大减少，在提升渲染速度的同时仍然可以保证理想的渲染效果。但是这种算法无法表示和优化复杂的...

【技术保护点】

【技术特征摘要】
1.一种大范围光场语义驱动智能表征与实时重建方法，其特征在于，所述方法包括以下步骤：构建语义驱动智能表征；其中，所述语义驱动智能表征，包括基于3D空间中的场景语义信息构建语义体和语义列表；基于当前RGB
‑
D图像检测得到当前语义基元，并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新所述语义列表；基于更新后的语义列表对所述语义体中的体素进行更新得到更新后的语义体；基于更新后的语义体得到基于射线采样的3D空间采样点的坐标，并基于所述3D空间采样点的坐标得到射线RGB色彩值，以根据所述RGB色彩值进行基于所有RGB
‑
D图像的大范围光场的实时重建得到大范围光场的实时重建结果。2.根据权利要求1所述的方法，其特征在于，所述语义体中的体素的状态包括空状态、稠密填充状态和语义填充状态；所述语义填充状态表示为语义基元序号。3.根据权利要求1所述的方法，其特征在于，所述基于当前RGB
‑
D图像检测得到当前语义基元，并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新所述语义列表，包括：利用语义基元检测算法计算当前RGB
‑
D图像的当前语义基元；基于当前语义基元的几何参数和所占像素坐标对当前语义基元与语义列表中所有语义基元进行相似度比较；如果语义列表中存在与当前语义基元的相似度高于第一预设阈值的语义基元，则将当前语义基元与高于第一预设阈值的语义基元合并，并更新合并后的语义基元的几何参数；如果不存在，则将当前语义基元作为新的语义基元添加至语义列表以得到更新后的语义列表。4.根据权利要求2所述的方法，其特征在于，所述基于更新后的语义列表对所述语义体中的体素进行更新得到更新后的语义体，包括：基于当前RGB
‑
D图像和相机位姿得到当前语义基元在3D空间中的反投影结果，并根据所述反投影结果对语义体中需要被更新的体素集合进行状态判断；如果体素集合的当前状态是空状态或稠密填充状态，则将当前状态更新为语义填充状态，并在体素集合内填充当前语义基元在更新后的语义列表中的序号；如果体素集合的当前状态是语义填充状态，且已存储的语义基元序号与将要更新的语义基元序号不同，则将当前状态更新为稠密填充状态，以得到更新后的体素；基于更新后的体素得到更新后的语义体。5.根据权利要求4所述的方法，其特征在于，所述基于更新后的语义体得到基于射线...

【专利技术属性】
技术研发人员：方璐，营海洋，于涛，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人