当前位置: 首页 > 专利查询>清华大学专利>正文

实时三维场景重建方法及装置制造方法及图纸

技术编号:34885110 阅读:35 留言:0更新日期:2022-09-10 13:42
本申请公开了一种实时三维场景重建方法及装置,其中,方法包括:获取单目相机的相机内参;提取单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点;以及利用预设三维场景重建网络,基于由相机内参、实际相机位姿和稀疏深度点得到的融合时空信息生成三维场景重建结果。由此,解决了相关技术中忽视粗略稀疏特征点的深度估计数据,对空间信息的利用不完善,导致三维重建结果连续性、准确性较差,且实用性较差的技术问题。且实用性较差的技术问题。且实用性较差的技术问题。

【技术实现步骤摘要】
实时三维场景重建方法及装置


[0001]本申请涉及图像处理
,特别涉及一种实时三维场景重建方法及装置。

技术介绍

[0002]三维场景重建技术是计算机视觉的核心问题,在许多应用场景如AR/VR,机器人运动规划,机器人场景理解中,精细、稠密地重建智能体所在的三维场景是不可或缺的。如今,稠密地重建三维场景可以利用多种传感器输入,包括激光雷达、深度相机等提供深度信息的设备,但这些设备具有成本过高、较为笨重的缺点,应用场景十分受限,而仅仅使用单目相机拍摄的视频进行三维场景重建拥有成本低、应用方便的优势,所以成为了目前的研究热点。
[0003]然而相关技术中,利用单目相机重建三维场景,输入的为已知的场景全部的扫描序列,并不是增量式的未知输入,实用性较差,且在三维特征体素表示的构建方面,使用对二维图像特征进行反投影后平均池化的方法,忽视了图像特征间的时域联系,同时,还忽易视粗略稀疏特征点的深度估计数据,对空间信息的利用不完善,亟需改善。

技术实现思路

[0004]本申请是基于专利技术人对以下问题的认知和发现作出的:
[0005]利用单目相机得到的多角度图像直接进行稠密三维重建目前面临很大的问题,如有限的计算资源、重建场景的连续性不好、噪音太多等等。目前,直接利用深度神经网络进行端到端重建方法能够部分解决重建质量问题,但已有的方法忽视了多角度图像的时域联系,以及可以提取出的空间信息。
[0006]现有的利用单目相机重建三维场景的技术主要分为:(1)传统VSLAM(Visual Simultaneous Localization And Mapping,视觉同时定位与建图)方法,利用图像中的纹理、颜色等低级特征以及对应的几何约束构建稀疏的三维点模型,是一种基于优化的方法;(2)MVS(Multi

view Stereo,多视角立体)方法,对每帧或连续多帧输入图像估计深度,利用估计的深度值再进行三维重建;(3)基于神经网络的端到端方法,设计端到端的人工神经网络,输入序列图像,输出场景的三维表示。
[0007](1)传统VSLAM方法
[0008]传统的VSLAM方法注重对相机位姿的估计,其估计相机位姿以及重建场景点云都基于优化方法,即利用帧间匹配特征点的几何约束构建损失函数进行优化,得到最优的相机位姿和三维特征点坐标。这类方法的特征点提取十分稀疏,所以重建结果也大多并不稠密,并且受制于计算性能限制、图像纹理丰富程度等,对于纹理不明确的区域会出现重建失败的情况。
[0009](2)MVS方法
[0010]MVS方法是一种两阶段重建的方法,第一阶段需要估计每帧输入图像的深度图,再根据滤波等手段传递相邻帧间深度,进行深度修正,然后第二阶段再利用估计的深度值进
行场景的三维重建。
[0011]基于传统的图像块匹配的方法进行建图,在缺少鲜明图像特征的时候难以完整重建场景;多数基于深度学习的方法利用二维特征平均池化构建三维特征体素,少数注重帧间深度信息的传播。
[0012]MVS方法因为每帧深度由分别估计得到,并不考虑三维场景的整体空间连续性,故最后的三维重建结果经常面临连续性差、噪声较大的缺点,另外,对每帧都进行深度估计也存在重复计算的问题。
[0013](3)基于神经网络的端到端方法
[0014]基于神经网络的端到端方法输入单目相机拍摄的连续图像序列,输出场景的三维表示,大多端到端方法都利用CNN(Convolutional Neural Network,卷积神经网络)等提取图像二维特征,利用对应的相机位姿,基于此建立场景的三维特征体素表示,最后利用TSDF(Truncated Signed Distance Function,截断符号距离函数)作为网络输出,得到连续性、一致性较好的三维重建结果。
[0015]具体而言,需要同时输入一个场景的全部序列,而不能处理现实生活中机器人只能获取到的增量式输入,所以应用场景受限。基于神经网络的端到端方法采用局部平均池化构建三维特征体素,然后使用GRU(Gate Recurrent Unit,门控循环单元)模块进行全局融合的方法,是目前效果最好的实时重建工作,但平均池化忽视了帧间的时序特征联系;还可以利用注意力机制直接重建全局特征体素,但直接构建全局体素消耗很大的显存和运行时间,故该方法不能做到实时重建。
[0016]然而,传统的VSLAM方法存在计算量大,大多方法重建不稠密,难以处理图像纹理不明显的区域等问题。
[0017]MVS方法因为每帧深度分别估计得到,并不考虑三维场景的整体空间连续性,故最后的三维重建结果经常面临连续性差、噪声较大的缺点,另外,对每帧都进行深度估计也存在重复计算,浪费计算资源的问题。
[0018]现有的基于神经网络的端到端方法中,有些方法输入的是已知的场景全部的扫描序列,并不是增量式的未知输入,这类方法并没有实用价值,因为机器人并不能获取场景的全部图像信息,而只能处理增量式输入。
[0019]另外,在三维特征体素表示的构建方面,相关方法大都使用对二维图像特征进行反投影后平均池化的方法,忽视了图像特征间的时域联系,且相关方法需要基于实时VSLAM前端得到的相机位姿数据,但忽视了VSLAM前端能得到的粗略稀疏特征点的深度估计数据,对这部分空间信息的利用也并不完善。
[0020]综上所述,在基于单目相机拍摄的视频进行实时三维场景重建领域,提出一种实时三维场景重建方法及装置,以解决相关技术中忽视粗略稀疏特征点的深度估计数据,对空间信息的利用不完善,导致三维重建结果连续性、准确性较差,且实用性较差的技术问题。
[0021]本申请第一方面实施例提供一种实时三维场景重建方法,包括以下步骤:获取单目相机的相机内参;提取所述单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点;以及利用预设三维场景重建网络,基于由所述相机内参、所述实际相机位姿和所述稀疏深度点得到的融合时空信息生成三维场景重建结果。
[0022]可选地,在本申请的一个实施例中,所述利用预设三维场景重建网络,基于由所述相机内参、所述实际相机位姿和所述稀疏深度点得到的融合时空信息生成三维场景重建结果,包括:分别提取所述实际相机位姿和所述稀疏深度点的二维特征,并分别反投影为对应的初始局部三维特征体素;从所述稀疏深度点提取空间信息,并融合所述空间信息和帧间时序特征联系,得到局部融合三维特征体素;将所述局部融合三维特征体素融合至全局,得到最终的全局融合三维特征体素;基于所述最终的全局融合三维特征体素利用预设MLP网络得到所述三维场景重建结果。
[0023]可选地,在本申请的一个实施例中,分别提取所述实际相机位姿和所述稀疏深度点的二维特征之前,还包括:计算所述稀疏深度点的归一化置信度;将所述稀疏深度点和所述归一化置信度投影成对应的稀疏深度图及置信度;由所述稀疏深度图及置信度得到稀疏深度先验。
[0024]可选地,在本申请的一个实施例中,所述局部融合三维特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时三维场景重建方法,其特征在于,包括以下步骤:获取单目相机的相机内参;提取所述单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点;以及利用预设三维场景重建网络,基于由所述相机内参、所述实际相机位姿和所述稀疏深度点得到的融合时空信息生成三维场景重建结果。2.根据权利要求1所述的方法,其特征在于,所述利用预设三维场景重建网络,基于由所述相机内参、所述实际相机位姿和所述稀疏深度点得到的融合时空信息生成三维场景重建结果,包括:分别提取所述实际相机位姿和所述稀疏深度点的二维特征,并分别反投影为对应的初始局部三维特征体素;从所述稀疏深度点提取空间信息,并融合所述空间信息和帧间时序特征联系,得到局部融合三维特征体素;将所述局部融合三维特征体素融合至全局,得到最终的全局融合三维特征体素;基于所述最终的全局融合三维特征体素利用预设MLP网络得到所述三维场景重建结果。3.根据权利要求2所述的方法,其特征在于,分别提取所述实际相机位姿和所述稀疏深度点的二维特征之前,还包括:计算所述稀疏深度点的归一化置信度;将所述稀疏深度点和所述归一化置信度投影成对应的稀疏深度图及置信度;由所述稀疏深度图及置信度得到所述稀疏深度先验。4.根据权利要求2或3所述的方法,其特征在于,所述局部融合三维特征体素为:其中,为片段特征体素,F代表本申请实施例为将片段特征体素进行融合的过程,为得到的局部融合三维特征体素。5.根据权利要求2所述的方法,其特征在于,所述基于所述最终全局融合三维特征体素利用预设MLP网络得到所述三维场景重建结果,包括:基于所述最终全局融合三维特征体素,利用所述预设MLP网络中级联的两个MLP层得到估计的占用度栅格和场景TSDF体素;根据所述占用度栅格和场...

【专利技术属性】
技术研发人员:季向阳张晨阳光娄志强
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1