一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法技术

技术编号:34631997 阅读:14 留言:0更新日期:2022-08-24 15:04
本发明专利技术提供了一种基于多分辨率自适应性的多视角立体重建网络模型MA

【技术实现步骤摘要】
一种基于多分辨率自适应性的多视角立体重建网络模型MA

MVSNet的图像处理方法


[0001]本专利技术属于图像处理
,具体涉及一种基于多分辨率自适应性的多视角立体重建网络模型MA

MVSNet的图像处理方法。

技术介绍

[0002]随着三维传感器迭代发展和虚拟信息实体化等原因,使用三维数据用于对现实世界的理解和交互显然变得越来越重要。与二维数据相比,三维数据由于带有深度信息,在数据表达上拥有天然优势,因此它也成为了实现高精度识别、定位、重建、场景理解等研究的关键。三维重建技术可以将实体几何信息较为完整的保存下来,为深入数据分析提供极大便利。
[0003]多视角立体视觉MVS(Multiple View Stereo)是指从多个视角观察和获取场景的图像,利用图像和对应的相机参数恢复场景的三维表达,完成立体匹配和深度估计。传统的多视角立体重建方法使用的是几何或者光学一致性构造匹配代价,进行代价累积,再估计深度值。虽然传统方法在理想的实验环境下效果很好,有较高的深度估计精度,但在缺少纹理或者光照条件剧烈变化的场景中,完整性还有待提高。
[0004]近年来,随着深度学习技术不断成熟,在计算机视觉领域取得突破性进展。基于深度学习的多视角立体匹配方法通过学习全局语义信息,可以较好地提升模型在弱纹理和非朗伯区域的重建完整性,并且利用大规模数据训练,效率更高,具有良好的泛化性。因此基于深度学习的多视角立体重建技术被越来越多的学者研究。
[0005]2017年提出的SurfaceNet和Learned Stereo Machine(LSM)网络都是基于三维数据的表现形式之一:体积像素进行重建,内存的高消耗在很大程度限制了重建精度,无法进行大规模的重建。MVSNet是Yao等人在2018年提出的一种基于深度学习的端到端深度估计框架。该算法以一张参考图像和多张源图像为输入,得到参考图像深度图,以固定的分辨率构建代价体,导致处理高分辨率图像的高内存需求。R

MVSNet是将MVSNet网络正则化所使用的 3D卷积换成循环神经网络GRU(Gate Recurrent Unit)来降低模型大小。减少了内存需求但增加了运行时间。Point

MVSNet通过粗糙到精细的结构,首先预测一个粗糙深度图,转成点云后再进行深度优化。该算法节约卷积正则化操作,内存消耗更少,结果更平滑。Fast

MVSNet提出从稀疏代价体得到稀疏深度图,使用高斯牛顿层对深度图进行优化,算法的运行速度快。P

MVSNet 采用Patch

Wise进行代价聚合,考虑邻域像素匹配代价值,提高匹配精度,使用3D U

Net推断出深度图,重建后点云完整性更好。CVP

MVSNet是目前深度学习精度最高的网络,以图像金字塔构建代价体金字塔,估计初始深度图,与每一层的深度残差估计叠加得到最终深度图。该算法网络模型复杂导致冗余问题,重建速度较慢,内存消耗大,计算昂贵。

技术实现思路

[0006]为了解决深度图在精度和完整性方面的冲突,本专利技术提出一种基于多分辨率自适应性的多视角立体重建网络模型MA

MVSNet,网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题。
[0007]一种基于多分辨率自适应性的多视角立体重建网络模型MA

MVSNet的图像处理方法,包括如下步骤:
[0008]步骤1、输入多视角图像,对图像进行降采样得到不同的训练输入图;
[0009]步骤2、将不同的训练输入图输入到特征提取网络中对每幅图像进行特征提取,将最粗分辨率图像的特征图变换到参考相机的特征视锥体空间中,形成代价体;
[0010]步骤3、使用三维卷积对代价体正则化操作,得到沿深度方向的概率体,进一步处理后得到粗糙的深度估计图;
[0011]步骤4、迭代的采样深度估计图,进行重投影视锥体操作,以更高的图像分辨率确定每个像素当前深度残差的局部搜索范围,用从粗糙到精细的方式构建不同分辨率的代价体金字塔,进行剩余图像的深度残差估计;
[0012]步骤5、叠加计算出参考图像的完整深度图。
[0013]进一步的,所述步骤1、输入的多视角图像包括1一幅参考图像和N幅源图像。
[0014]进一步的,所述特征提取网络是由二维卷积网络上融合CBAM注意力机制的卷积网络组成。
[0015]进一步的,所述CBAM注意力机制包括空间注意力和通道注意力两个模块。
[0016]进一步的,所述代价体是由多视角立体重建网络模型MA

MVSNet通过可微分的单应性变换将像素点之间坐标关系映射到深度方向构建而成,具体过程是:以相机主光轴n为扫描方向,将参考图像按深度间隔从最小深度d
min
一直映射到最大深度d
max
,得到含有N个不同深度间隔的相机视锥体;将提取的 N张特征图投影到相机视锥体得到N个特征体即特征体是参考特征图 f0上像素p在深度d处所对应源特征图上的特征向量,将多个特征体聚合为一个代价体。
[0017]本专利技术的优点是:本专利技术提供这种基于多分辨率自适应性的多视角立体重建网络模型MA

MVSNet,网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题,在特征提取阶段使用融合了CBAM(Convolutional Block Attention Module)注意力机制的改进卷积网络替换原有的普通二维卷积网络,获取图像特征的全局信息。在代价体正则化阶段,提出自适应卷积网络,针对不同分辨率图像能自适应调整卷积参数,提升正则化网络的感受野,在减少内存消耗的同时提升模型性能;该 MA

MVSNet网络模型通过提取像素的卷积特征,使得网络在获得较高准确率的同时抑制模型复杂性增长。模型在DTU数据集上训练并测试,准确度和完整性实验验证了该网络能处理大尺寸图像,并且重建效果也有所提升。此外,本专利技术设计的消融实验证明了融合CBAM和自适应卷积的必要性,生成深度图速度较快,内存消耗和运行时间均比已有网络模型有所降低。之后的主要研究方向主要是进一步提高反光区域深度估计的精度和完整性。
附图说明
[0018]图1是本A

MVSNet网络结构示意图。
[0019]图2是基于图像金字塔的特征提取网络示意图。
[0020]图3是构造匹配代价示意图。
[0021]图4a是对CBAM的消融实验示意图一。
[0022]图4b是对CBAM的消融实验示意图二。
[0023]图4c是对CBAM的消融实验示意图三。
[0024]图5a是自适应卷积的消融实验示意图一。
[0025]图5b是自适应卷积的消融实验本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多分辨率自适应性的多视角立体重建网络模型MA

MVSNet的图像处理方法,其特征在于,包括如下步骤:步骤1、输入多视角图像,对图像进行降采样得到不同的训练输入图;步骤2、将不同的训练输入图输入到特征提取神经网络中对每幅图像进行特征提取,将最粗分辨率图像的特征图变换到参考相机的特征视锥体空间中,形成代价体;步骤3、使用三维卷积对代价体正则化操作,得到沿深度方向的概率体,用深度期望值的计算方式作为该像素的深度估计值平滑整个深度图;步骤4、迭代的采样深度估计图,进行重投影视锥体操作,以更高的图像分辨率确定每个像素当前深度残差的局部搜索范围,用从粗糙到精细的方式构建不同分辨率的代价体金字塔,进行剩余图像的深度残差估计;步骤5、叠加计算出参考图像的完整深度图。2.如权利要求1所述的一种基于多分辨率自适应性的多视角立体重建网络模型MA

MVSNet的图像处理方法,其特征在于:所述步骤1、输入的多视角图像包括1一幅参考图像和N幅源图像。3.如权利要求1所述的一种基于多分辨率自适应性的多视角立体重建网络模型MA
...

【专利技术属性】
技术研发人员:李良福张晰黎光耀
申请(专利权)人:陕西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1