System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于特征聚合Transformer的多视图立体重建系统技术方案_技高网

一种基于特征聚合Transformer的多视图立体重建系统技术方案

技术编号:40797430 阅读:2 留言:0更新日期:2024-03-28 19:24
本发明专利技术涉及一种基于特征聚合Transformer的多视图立体重建系统,在该多视图立体重建系统中,首先,对输入图像提取多尺度特征后利用可变形卷积根据不同尺度特征自适应地调整感受野的大小和形状;接着,引入了基于Transformer的特征聚合模块,以利用图像内部自注意力机制和图像间交叉注意力机制有效地视图内全局上下文信息以及视图间的信息交互关系,从而在参考图像和源图像之间进行精确的特征聚合,实现可靠的特征匹配;最后,采用可见性成本聚合处理估计像素可见性信息,以去除成本聚合中的噪声和错误匹配像素。由于运用特征聚合Transformer获得了视图内和视图之间的上下文感知信息以及建立长程3D信息关联,本发明专利技术实现了在重建准确性和完整性方面的显著提高。

【技术实现步骤摘要】

本专利技术涉及神经网络及立体图像重建,具体涉及一种基于特征聚合transformer的多视图立体重建系统。


技术介绍

1、近年来,随着自动驾驶、机器人导航、数字化城市以及虚拟现实等领域的广泛应用,多视图立体重建成为了计算机视觉领域广泛研究的核心问题,它利用多幅图像之间的匹配关系和立体对应关系为主要线索来恢复场景的3d几何结构。尽管,传统的mvs重建方法patchmatch、colmap取得了很大进步,但也存在一些棘手的问题,复杂场景下重建的精度和完整性不佳。

2、为了解决传统方法的局限性,受卷积神经网络(cnn)在许多计算机视觉领域的成功启发,提出了基于学习mvs的方法来稳健地估计深度图。mvsnet是深度学习在mvs中的重要工作之一,以一幅参考图像和多幅源图像作为输入,使用特征金字塔网络(featurepyramid network,fpn)提取图像特征;然后将图像特征扭曲到参考相机截头体中,通过可微分的单应性变换来构建3d成本体积;最后通过3d cnn回归深度图。为了减少3d cnn的巨大内存消耗,r-mvsnet使用门控递归单元(gated recurrent unit,gru)来代替3d cnn进行成本体积正则化。patchmatchnet通过学习图像块之间的匹配关系来提高重建效率,但显著降低了重建性能。fast-mvsnet利用稀疏成本体积快速推断初始稀疏深度图,然后逐渐优化稀疏深度图。最近,一种从粗到细的架构被广泛用于mvs,以减少内存消耗。casmvsnet、ucs-net提出了基于特征金字塔的级联成本量,并以从粗到细的方式估计深度图。cvp-mvsnet和pva-mvsnet形成图像金字塔以构建从粗到细的成本体积。

3、尽管基于学习的mvs方法已经取得了巨大的成功,但它们在具有挑战性的区域中仍然存在匹配模糊和不匹配的问题。以上基于学习的mvs方法通常利用cnn来提取视图的特征,只考虑有限的感受野,缺乏对整体视图的理解,导致相同的3d位置在不同视图中存在三维特征不一致的现象。此外,每个视图的特征都是独立于其它视图提取的,而不考虑潜在的视图间对应关系,缺乏长程3d关联。这是导致在非朗伯曲面、弱纹理或遮挡区域的局部模糊,降低匹配鲁棒性的主要原因。

4、因此,如何更好的实现高精度和高完整度的多视图立体重建,成为了领域内亟需解决的问题。


技术实现思路

1、针对上述现有技术的不足,本专利技术提供了一种基于特征聚合transformer的多视图立体重建系统,用以进一步的提高多视图立体重建的准确性和完整性。

2、为了解决上述技术问题,本专利技术采用了如下的技术方案:

3、一种基于特征聚合transformer的多视图立体重建系统,包括输入单元、多视图立体深度图构建网络单元以及融合重建单元;

4、所述输入单元用于输入进行立体重建的初始图像,所述初始图像包括多张源图像和1张参考图像;

5、所述多视图立体深度图构建网络单元包括特征提取模块、特征聚合模块和级联式深度图构建网络模块;所述特征提取模块用于对初始图像进行多尺度的特征提取,得到多个不同分辨率的特征图;所述特征聚合模块用于对各不同分辨率的特征图分别进行依次的上下文特征提取和图像间特征提取处理,得到各不同分辨率的注意力特征图;级联式深度图构建网络用于按分辨率从低到高分阶段对各不同分辨率的注意力特征图进行深度估计,且其中非最低分辨率阶段将相邻一个较低分辨率阶段输出的深度图一并作为输入用以参与深度估计,并以最高分辨率阶段的深度估计得到的深度图作为全分辨率深度图进行输出;

6、所述融合重建单元用于根据全分辨率深度图融合生成3d密集点云,进而处理得到重建的三维立体视图。

7、作为优选方案,所述特征提取模块中,采用可变形卷积对输入的初始图像进行两级下采样特征提取,得到分辨率由低到高分别为w/4×h/4、w/2×h/2、w×h的特征图像,w、h分别为初始图像的像素宽尺寸和像素高尺寸。

8、作为优选方案,所述特征聚合模块包括位置编码器、自注意力机制模组、交叉注意力机制模组和特征聚合模组;

9、所述位置编码器用于对各不同分辨率的特征图分别进行位置编码:

10、x0=[f0,1+p1,f0,2+p2,…,f0,n+pn]

11、xi=[fi,1+p1,fi,2+p2,…,fi,n+pn];

12、其中,x0表示对参考图像的特征图f0进行位置编码得到的编码特征图,xi表示对第i个源图像的特征图fi进行位置编码得到的编码特征图,i=1,2,…,n-1,n为初始图像中源图像和参考图像的总数;f0,1,f0,2,…,f0,n表示参考图像的特征图f0中的各个像素,fi,1,fi,2,…,fi,n表示第i个源图像的特征图fi中的各个像素,p1,p2,…,pn表示对各个像素的2d位置编码,n表示每个特征图的像素数量;

13、自注意力机制模组用于对各不同分辨率的编码特征图分别进行自注意力机制处理,得到对应的上下文特征图:

14、q0=k0=v0=x0;

15、x′0=concat(ln(msa(q0,k0,v0)),x0);

16、y0=ln(ffn(x′0))+x0;

17、qi=ki=vi=xi;

18、x′i=concat(ln(msa(qi,ki,vi)),xi);

19、yi=ln(ffn(x′i))+xi;

20、其中,q0,k0,v0分别表示参考图像在注意力层对应的查询、关键字和键值,qi,ki,vi分别表示第i个源图像在注意力层对应的查询、关键字和键值;concat(·)表示级联操作,ln(·)表示层规范化,msa(·)表示多头自注意力,ffn(·)表示一个全连接的前馈网络;y0表示参考图像的编码特征图x0对应的上下文特征图;yi表示第i个源图像的编码特征图xi对应的上下文特征图;

21、交叉注意力机制模组对各不同分辨率的上下文特征图分别进行交叉注意力机制处理,得到对应的图像间特征图:

22、q′i=yi,k′0=v′0=y0;

23、y′i=concat(ln(mca(q′i,k′0,v′0)),yi);

24、zi=ln(ffn(y′i))+yi;

25、其中,mca(·)表示多头交叉注意力,zi表示上下文特征图yi对应的图像间特征图;

26、所述特征聚合模组用分别对每个分别率的各图像间特征图进行聚合,得到相应分别率的注意力特征图。

27、作为优选方案,所述级联式深度图构建网络中的每一分辨率阶段均包括成本体构建模块、自适应聚合模块和深度图构建模块;

28、所述成本体构建模块用于对该分辨率阶段的注意力特征图以及相邻一个较低分辨率阶段输出的深度图进行成本体构建处理,得到各像素点的可见性并构建对应的成本体;若该阶段为最低分辨率阶段,则仅根据本文档来自技高网...

【技术保护点】

1.一种基于特征聚合Transformer的多视图立体重建系统,其特征在于,包括输入单元、多视图立体深度图构建网络单元以及融合重建单元;

2.根据权利要求1所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,所述特征提取模块中,采用可变形卷积对输入的初始图像进行两级下采样特征提取,得到分辨率由低到高分别为W/4×H/4、W/2×H/2、W×H的特征图像,W、H分别为初始图像的像素宽尺寸和像素高尺寸。

3.根据权利要求1所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,所述特征聚合模块包括位置编码器、自注意力机制模组、交叉注意力机制模组和特征聚合模组;

4.根据权利要求1所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,所述级联式深度图构建网络中的每一分辨率阶段均包括成本体构建模块、自适应聚合模块和深度图构建模块;

5.根据权利要求4所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,所述成本构建模块的工作过程包括:

6.根据权利要求5所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,所述自适应聚合模块通过3D CNN处理成本体,并在3D CNN的末尾应用深度方向的softmax来分析每个像素的预测深度概率体后,得到该分辨率阶段对应的概率体。

7.根据权利要求6所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,对于任意的第l个分辨率阶段,任意像素p的预测深度概率体Ql(p)为:

8.根据权利要求1所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,所述多视图立体深度图构建网络单元通过如下方式进行训练后得到:

9.根据权利要求8所述基于特征聚合Transformer的多视图立体重建系统,其特征在于,在多视图立体深度图构建网络单元的训练中,通过如下公式计算训练损失:

...

【技术特征摘要】

1.一种基于特征聚合transformer的多视图立体重建系统,其特征在于,包括输入单元、多视图立体深度图构建网络单元以及融合重建单元;

2.根据权利要求1所述基于特征聚合transformer的多视图立体重建系统,其特征在于,所述特征提取模块中,采用可变形卷积对输入的初始图像进行两级下采样特征提取,得到分辨率由低到高分别为w/4×h/4、w/2×h/2、w×h的特征图像,w、h分别为初始图像的像素宽尺寸和像素高尺寸。

3.根据权利要求1所述基于特征聚合transformer的多视图立体重建系统,其特征在于,所述特征聚合模块包括位置编码器、自注意力机制模组、交叉注意力机制模组和特征聚合模组;

4.根据权利要求1所述基于特征聚合transformer的多视图立体重建系统,其特征在于,所述级联式深度图构建网络中的每一分辨率阶段均包括成本体构建模块、自适应聚合模块和深度图构建模块;

5.根据权利要求4所述基于特...

【专利技术属性】
技术研发人员:宋涛王敏赵明富龙邹荣汤斌冉璐杨贻晨陈霜
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1