当前位置: 首页 > 专利查询>北京大学专利>正文

基于点云-体素聚合网络模型的语义场景补全方法及系统技术方案

技术编号:31609786 阅读:14 留言:0更新日期:2021-12-29 18:37
本发明专利技术公布了一种基于点云

【技术实现步骤摘要】
基于点云

体素聚合网络模型的语义场景补全方法及系统


[0001]本专利技术涉及一种应用于语义场景补全任务的深度神经网络模型,具体涉及一种基于点云

体素双路聚合深度神经网络模型的语义场景补全方法及系统,用于从单目深度图像中恢复三维场景的结构以及图像的语义信息,属于计算机视觉中的三维视觉


技术介绍

[0002]语义场景补全(Semantic Scene Completion,SSC)任务指的是从通过深度传感器采集,如Microsoft Kinect,LiDAR等获取的单目深度图像中恢复三维场景,包括场景补全以及语义分割这两个子任务。其中,场景补全任务可以从单目的深度图观测中恢复三维场景的结构,例如补全被遮挡的物体的形状;语义分割任务可以对体素化的三维场景中的每个体素的语义类别进行预测,例如将室内场景分割为地面、墙壁、家具等不同部分。文献[1](Shuran Song,Fisher Yu,Andy Zeng,Angel X Chang,Manolis Savva,and Thomas Funkhouser.Semantic scene completion from a single depth image.In CVPR,pages 1746

1754,2017)中提出的SSCNet首次记载了SSC任务并证明了场景补全以及语义分割这两个任务是高度相关的,同时学习这两个任务可以获得更好的效果。
[0003]后续的工作对这一任务进行了进一步的探索,主要使用三维卷积神经网络模型(3DConvolutional Neural Network,3D CNN)进行语义场景补全,这些方法先将二维的深度图编码为三维的截断符号距离函数(Truncated Signed Distance Function,TSDF)矩阵来表示三维场景,再通过监督学习训练3D CNN对其中的每一个体素进行语义标签的预测。但是,SSC任务的数据中通常存在大量的可见空气体素(例如在NYUCAD数据集中,可见空气体素与其他体素的比例约为9:1),这些体素的类别可以通过相机参数直接判断,也不参与最后评价指标的运算,而3D CNN只能同时对所有体素进行运算,不能只对部分体素进行预测,因此现有的基于体素的方法都存在着计算冗余的问题,即对已知的空气体素进行了不必要的运算,导致运算效率较低,并且需要占用大量的显存。
[0004]文献[2](Zhong and Gang Zeng.Semantic point completion network for 3d semantic scene completion.ECAI,2020.)中提出利用点云的方法进行语义场景补全,由于点云是一种稀疏的表面模型,通过提取三维空间中观测到的表面以及被遮挡的区域,避免了在可见空气体素上的计算,从而具有更高的计算效率,占用的显存更少,部分地解决了上述的计算冗余问题。但由于点云数据不具有规则的空间结构,基于点云的方法无法直接对点云数据应用卷积操作,导致难以有效提取三维图像的语义场景局部结构信息,语义场景补全效果也相比基于体素的方法较差。

技术实现思路

[0005]为了克服上述现有技术存在的不足,本专利技术提供一种基于点云

体素聚合网络模型的语义场景补全方法及系统,创建应用于三维图像语义场景补全任务的深度神经网络模型,具体采用的点云

体素双路深度神经网络模型是一种高效且准确的深度学习模型,用于
从单目深度图像中恢复三维场景的结构以及语义信息,能够更好地完成SSC任务。
[0006]基于体素的方法可以更好地提取稠密体素中的结构信息,但计算量较大且对于空白体素有冗余计算;基于点云的方法可以避免冗余计算,但难以较好提取局部结构信息。本专利技术提出了点云

体素聚合网络模型,具有两种方法的优势,在点云分支保证较高的计算效率的同时使用体素分支提取局部结构信息,并提出了各向异性聚合模块融合特征,最后通过语义传播模块输出分类结果。
[0007]本专利技术的技术方案是:
[0008]一种基于点云

体素聚合网络模型的语义场景补全方法,通过建立三维图像语义场景补全深度神经网络模型,将二维单目深度图像转换为三维点云;提取两种数据模态中互补的特征,并对特征进行融合;使用提取的特征进行预测,得到每个三维点的语义结果,最终对应到体素中得到三维场景的结构与语义;三维图像语义场景补全深度神经网络模型包括点云

体素双路编码器和以语义传播模块为基本单元构成的解码器。详细的网络结构如图2所示,点云

体素双路编码器在以高效的点云模型作为主干的同时,使用一个浅层的三位卷积神经网络作为体素分支提取局部结构信息,并利用各向异性体素聚合模块对特征进行融合,在保持整个网络具有较高的计算效率的同时尽可能保留稠密体素中的局部结构特征,从而取得更好的效果,最后再通过解码器对提取的特征逐层上采样,恢复三维场景的几何结构以及语义信息。
[0009]基于点云

体素聚合网络模型的语义场景补全方法包括如下步骤:
[0010]A.通过深度传感器采集二维单目深度图像,根据输入的深度图生成三维空间的点云表示和体素表示;
[0011]A1.通过相机参数,将二维单目深度图像(深度图)投影到三维空间,并对三维空间按照一定的空间分辨率进行量化(Quantization),得到以体素的形式(体素空间)表示的三维场景;
[0012]A2.对体素空间进行进一步编码,计算其中每一个体素的截断符号距离函数TSDF矩阵以及标准化的高度信息;
[0013]A3.根据TSDF矩阵,提取可见表面以及被遮挡的体素,将其转换为点云表示。
[0014]B.构建三维图像语义场景补全深度神经网络模型的点云

体素双路编码器;通过点云

体素双路编码器提取特征;
[0015]点云

体素双路编码器包括点云分支和体素分支;
[0016]B1.使用体素分支对A1生成的体素表示进行卷积提取体素特征;
[0017]B2.使用点云分支对A3生成的点云表示提取点云特征;
[0018]B3.通过各向异性聚合模块,将体素特征融合到点云特征中。
[0019]C.构建三维图像语义场景补全深度神经网络模型的解码器;
[0020]C1.通过多层语义传播模块将融合的特征逐层上采样,最后输出每一个输入的点云的分类结果,包括场景补全(是否为空气)结果以及语义分割(非空气时所属的具体语义类别)结果。
[0021]C2.根据点云与体素(不包含可见空气)的一一对应关系,将点云的预测结果对应到体素的预测结果,从而获得使用体素表示的三维场景结构及其语义分割结果。
[0022]D.在数据集上通过监督学习的方法对构建的三维图像语义场景补全深度神经网
络模型进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于点云

体素聚合网络模型的语义场景补全方法,建立点云

体素聚合网络模型作为三维图像语义场景补全深度神经网络模型,将二维单目深度图像转换为三维点云;提取点云与体素两种数据模态中互补的特征,并对特征进行融合;再使用提取的特征进行预测,得到每个三维点的语义结果,最终对应到体素中得到三维场景的结构与语义;三维图像语义场景补全深度神经网络模型包括点云

体素双路编码器和以语义传播模块为基本单元构成的解码器;所述点云

体素双路编码器以点云模型作为主干,同时使用浅层的三位卷积神经网络作为体素分支,用于提取局部结构信息,并对特征进行融合,且保留稠密体素中的局部结构特征;再通过解码器对提取的特征逐层上采样,恢复三维场景的几何结构以及语义信息;所述基于点云

体素聚合网络模型的语义场景补全方法包括如下步骤:A.通过深度传感器采集二维单目深度图像,根据二维单目深度图像生成三维空间的体素表示;并计算得到三维空间中每一个体素的截断符号距离函数TSDF矩阵以及标准化高度信息;根据TSDF矩阵,提取可见表面以及被遮挡的体素;再转换为点云表示;B.构建三维图像语义场景补全深度神经网络模型的点云

体素双路编码器;通过点云

体素双路编码器提取特征;点云

体素双路编码器包括点云分支和体素分支;使用体素分支对生成的体素表示进行卷积,提取体素特征;使用点云分支对生成的点云表示提取点云特征;再将体素特征融合到点云特征中;C.构建三维图像语义场景补全深度神经网络模型的解码器;包括:C1.将融合的特征逐层上采样,最后输出每一个输入的点云的分类结果,包括场景补全结果和语义分割结果;C2.根据点云与体素的一一对应关系,将点云的预测结果对应到体素的预测结果,从而获得使用体素表示的三维场景结构及其语义分割结果;利用训练好的三维图像语义场景补全深度神经网络模型,即实现基于点云

体素聚合网络模型的语义场景补全。2.如权利要求1所述基于点云

体素聚合网络模型的语义场景补全方法,其特征是,步骤A具体包括:A1.通过相机参数,将二维单目深度图像投影到三维空间,并对三维空间按照一定的空间分辨率进行量化,得到以体素的形式表示的三维场景;A2.对体素空间进行进一步编码,计算其中每一个体素的截断符号距离函数TSDF矩阵以及标准化的高度信息;A3.根据TSDF矩阵,提取可见表面以及被遮挡的体素,并转换为点云表示。3.如权利要求1所述基于点云

体素聚合网络模型的语义场景补全方法,其特征是,在步骤A中,根据输入的深度图数据以及相机参数将二维深度投影到三维空间,得到观测到的表面的位置和被遮挡区域的位置。4.如权利要求3所述基于点云

体素聚合网络模型的语义场景补全方法,其特征是,在步骤A中,根据TSDF值,将体素空间中的每一个体素进行分类,TSDF为0的位置为可见表面体素,TSDF为正的位置为可见空气体素,TSDF为负的位置为被遮挡的体素;在点云表示中舍弃可见空气体素,只提取可见表面与被遮挡的体素转换为点云分支的输入。
5.如权利要求1所述基于点云

体素聚合网络模型的语义场景补全方法,其特征是,在步骤B中,通过点云

体素双路编码器对输入进行特征提取;体素分支具体使用浅层3D CNN提取局部结构特征;点云分支具体使用层次化的多层感知机提取全局特征;神经网络的层数包含多个层次,每个层次均对点云进行降采样,并提高特征的维度。6.如权利要求1所述基于点云

体素聚合网络模型的语义场景...

【专利技术属性】
技术研发人员:陈小康唐嘉祥王靖博曾钢
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1