一种基于特征聚合Transformer的多视图立体重建系统技术方案

技术编号:40797430 阅读:22 留言:0更新日期:2024-03-28 19:24
本发明专利技术涉及一种基于特征聚合Transformer的多视图立体重建系统,在该多视图立体重建系统中,首先,对输入图像提取多尺度特征后利用可变形卷积根据不同尺度特征自适应地调整感受野的大小和形状;接着,引入了基于Transformer的特征聚合模块,以利用图像内部自注意力机制和图像间交叉注意力机制有效地视图内全局上下文信息以及视图间的信息交互关系,从而在参考图像和源图像之间进行精确的特征聚合,实现可靠的特征匹配;最后,采用可见性成本聚合处理估计像素可见性信息,以去除成本聚合中的噪声和错误匹配像素。由于运用特征聚合Transformer获得了视图内和视图之间的上下文感知信息以及建立长程3D信息关联,本发明专利技术实现了在重建准确性和完整性方面的显著提高。

【技术实现步骤摘要】

本专利技术涉及神经网络及立体图像重建,具体涉及一种基于特征聚合transformer的多视图立体重建系统。


技术介绍

1、近年来,随着自动驾驶、机器人导航、数字化城市以及虚拟现实等领域的广泛应用,多视图立体重建成为了计算机视觉领域广泛研究的核心问题,它利用多幅图像之间的匹配关系和立体对应关系为主要线索来恢复场景的3d几何结构。尽管,传统的mvs重建方法patchmatch、colmap取得了很大进步,但也存在一些棘手的问题,复杂场景下重建的精度和完整性不佳。

2、为了解决传统方法的局限性,受卷积神经网络(cnn)在许多计算机视觉领域的成功启发,提出了基于学习mvs的方法来稳健地估计深度图。mvsnet是深度学习在mvs中的重要工作之一,以一幅参考图像和多幅源图像作为输入,使用特征金字塔网络(featurepyramid network,fpn)提取图像特征;然后将图像特征扭曲到参考相机截头体中,通过可微分的单应性变换来构建3d成本体积;最后通过3d cnn回归深度图。为了减少3d cnn的巨大内存消耗,r-mvsnet使用门控递归单元(gate本文档来自技高网...

【技术保护点】

1.一种基于特征聚合Transformer的多视图立体重建系统,其特征在于,包括输入单元、多视图立体深度图构建网络单元以及融合重建单元;

2.根据权利要求1所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,所述特征提取模块中,采用可变形卷积对输入的初始图像进行两级下采样特征提取,得到分辨率由低到高分别为W/4×H/4、W/2×H/2、W×H的特征图像,W、H分别为初始图像的像素宽尺寸和像素高尺寸。

3.根据权利要求1所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,所述特征聚合模块包括位置编码器、自注意力机制模组、交叉注...

【技术特征摘要】

1.一种基于特征聚合transformer的多视图立体重建系统,其特征在于,包括输入单元、多视图立体深度图构建网络单元以及融合重建单元;

2.根据权利要求1所述基于特征聚合transformer的多视图立体重建系统,其特征在于,所述特征提取模块中,采用可变形卷积对输入的初始图像进行两级下采样特征提取,得到分辨率由低到高分别为w/4×h/4、w/2×h/2、w×h的特征图像,w、h分别为初始图像的像素宽尺寸和像素高尺寸。

3.根据权利要求1所述基于特征聚合transformer的多视图立体重建系统,其特征在于,所述特征聚合模块包括位置编码器、自注意力机制模组、交叉注意力机制模组和特征聚合模组;

4.根据权利要求1所述基于特征聚合transformer的多视图立体重建系统,其特征在于,所述级联式深度图构建网络中的每一分辨率阶段均包括成本体构建模块、自适应聚合模块和深度图构建模块;

5.根据权利要求4所述基于特...

【专利技术属性】
技术研发人员:宋涛王敏赵明富龙邹荣汤斌冉璐杨贻晨陈霜
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1