基于点云-体素聚合网络模型的语义场景补全方法及系统技术方案

技术编号：31609786 阅读：14 留言：0更新日期：2021-12-29 18:37

本发明专利技术公布了一种基于点云

全部详细技术资料下载

【技术实现步骤摘要】
基于点云
‑
体素聚合网络模型的语义场景补全方法及系统

[0001]本专利技术涉及一种应用于语义场景补全任务的深度神经网络模型，具体涉及一种基于点云
‑
体素双路聚合深度神经网络模型的语义场景补全方法及系统，用于从单目深度图像中恢复三维场景的结构以及图像的语义信息，属于计算机视觉中的三维视觉

技术介绍

[0002]语义场景补全(Semantic Scene Completion，SSC)任务指的是从通过深度传感器采集，如Microsoft Kinect，LiDAR等获取的单目深度图像中恢复三维场景，包括场景补全以及语义分割这两个子任务。其中，场景补全任务可以从单目的深度图观测中恢复三维场景的结构，例如补全被遮挡的物体的形状；语义分割任务可以对体素化的三维场景中的每个体素的语义类别进行预测，例如将室内场景分割为地面、墙壁、家具等不同部分。文献[1](Shuran Song,Fisher Yu,Andy Zeng,Angel X Chang,Manolis Savva,and Thomas Funkhouser.Semantic scene completion from a single depth image.In CVPR,pages 1746
–
1754,2017)中提出的SSCNet首次记载了SSC任务并证明了场景补全以及语义分割这两个任务是高度相关的，同时学习这两个任务可以获得更好的效果。
[0003]后续的工作对这一任务进行了进一步的探索，...

【技术保护点】

【技术特征摘要】
1.一种基于点云
‑
体素聚合网络模型的语义场景补全方法，建立点云
‑
体素聚合网络模型作为三维图像语义场景补全深度神经网络模型，将二维单目深度图像转换为三维点云；提取点云与体素两种数据模态中互补的特征，并对特征进行融合；再使用提取的特征进行预测，得到每个三维点的语义结果，最终对应到体素中得到三维场景的结构与语义；三维图像语义场景补全深度神经网络模型包括点云
‑
体素双路编码器和以语义传播模块为基本单元构成的解码器；所述点云
‑
体素双路编码器以点云模型作为主干，同时使用浅层的三位卷积神经网络作为体素分支，用于提取局部结构信息，并对特征进行融合，且保留稠密体素中的局部结构特征；再通过解码器对提取的特征逐层上采样，恢复三维场景的几何结构以及语义信息；所述基于点云
‑
体素聚合网络模型的语义场景补全方法包括如下步骤：A.通过深度传感器采集二维单目深度图像，根据二维单目深度图像生成三维空间的体素表示；并计算得到三维空间中每一个体素的截断符号距离函数TSDF矩阵以及标准化高度信息；根据TSDF矩阵，提取可见表面以及被遮挡的体素；再转换为点云表示；B.构建三维图像语义场景补全深度神经网络模型的点云
‑
体素双路编码器；通过点云
‑
体素双路编码器提取特征；点云
‑
体素双路编码器包括点云分支和体素分支；使用体素分支对生成的体素表示进行卷积，提取体素特征；使用点云分支对生成的点云表示提取点云特征；再将体素特征融合到点云特征中；C.构建三维图像语义场景补全深度神经网络模型的解码器；包括：C1.将融合的特征逐层上采样，最后输出每一个输入的点云的分类结果，包括场景补全结果和语义分割结果；C2.根据点云与体素的一一对应关系，将点云的预测结果对应到体素的预测结果，从而获得使用体素表示的三维场景结构及其语义分割结果；利用训练好的三维图像语义场景补全深度神经网络模型，即实现基于点云
‑
体素聚合网络模型的语义场景补全。2.如权利要求1所述基于点云
‑
体素聚合网络模型的语义场景补全方法，其特征是，步骤A具体包括：A1.通过相机参数，将二维单目深度图像投影到三维空间，并对三维空间按照一定的空间分辨率进行量化，得到以体素的形式表示的三维场景；A2.对体素空间进行进一步编码，计算其中每一个体素的截断符号距离函数TSDF矩阵以及标准化的高度信息；A3.根据TSDF矩阵，提取可见表面以及被遮挡的体素，并转换为点云表示。3.如权利要求1所述基于点云
‑
体素聚合网络模型的语义场景补全方法，其特征是，在步骤A中，根据输入的深度图数据以及相机参数将二维深度投影到三维空间，得到观测到的表面的位置和被遮挡区域的位置。4.如权利要求3所述基于点云
‑
体素聚合网络模型的语义场景补全方法，其特征是，在步骤A中，根据TSDF值，将体素空间中的每一个体素进行分类，TSDF为0的位置为可见表面体素，TSDF为正的位置为可见空气体素，TSDF为负的位置为被遮挡的体素；在点云表示中舍弃可见空气体素，只提取可见表面与被遮挡的体素转换为点云分支的输入。
5.如权利要求1所述基于点云
‑
体素聚合网络模型的语义场景补全方法，其特征是，在步骤B中，通过点云
‑
体素双路编码器对输入进行特征提取；体素分支具体使用浅层3D CNN提取局部结构特征；点云分支具体使用层次化的多层感知机提取全局特征；神经网络的层数包含多个层次，每个层次均对点云进行降采样，并提高特征的维度。6.如权利要求1所述基于点云
‑
体素聚合网络模型的语义场景...

【专利技术属性】
技术研发人员：陈小康，唐嘉祥，王靖博，曾钢，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人