一种基于注意力机制与可变卷积深度网络的多视图三维重建方法技术

技术编号:38029981 阅读:16 留言:0更新日期:2023-06-30 10:56
本发明专利技术提供了一种基于深度学习的三维重建方法,包括:构建多尺度特征提取网络,对获取的多张多视角图像进行多尺度的语义特征提取,得到多个尺度的目标关键特征;基于注意力机制和变形卷积深度网络的块匹配迭代模型中进行像素级别的深度评估迭代计算,完成迭代计算之后输出每幅图像对应的深度图;通过残差网络提取深度残差对深度图进行优化,获得最终的深度图;通过几何一致性约束和光照一致性约束对深度点进行过滤,根据可见性融合算法进行深度图融合,输出获得场景的三维点云。实施本发明专利技术,通过注意力机制提纯目标特征,并基于可变卷积深度网络进行深度评估优化,使得所获取深度图更加准确,从而提高了三维重建模型的完整度和精度。度。度。

【技术实现步骤摘要】
一种基于注意力机制与可变卷积深度网络的多视图三维重建方法


[0001]本专利技术属于几何计算机视觉三维重建领域,涉及一种基于基于注意力机制与可变卷积深度网络的多视图三维重建方法。

技术介绍

[0002]近年来,深度学习在计算机视觉领域得到了广泛的应用并取得了巨大的成功,其在二维图像的处理应用领域,如图像分类、目标检测、语义分割等视觉任务上表现出了卓越的性能。但是图像只是简单的二维信息,所能传递的信息有限,因此如何从二维图像中获取更多的三维信息逐渐成为了研究的热点问题之一。
[0003]多视图三维重建技术是一种基于多张同一场景不同视角的图像进行三维场景的恢复的方法。传统的多视图三维重建技术可分为基于体素、基于表面演化、基于特征区域扩展以及基于深度图的四类方法。基于深度图的方法简洁灵活,但传统的深度图方法难以处理弱纹理区域或镜面反射区域的重建问题,重建的完整性较低且速度缓慢。基于深度学习的重建方法由于可以更好的利用全局语义信息,重建的精度和速度都有明显提升。
[0004]基于深度学习的多视图重建方法,通常会构造一个三维代价体进行深度回归获取场景深度值。但由于深度回归计算中的三维卷积正则化处理,在处理大范围场景或高分辨率场景时存在显存资源受限问题;并且由于户外大范围场景模型重建环境影响因素较为复杂,难以全面提取场景特征,参数自适应性较差,只能针对特定的场景进行建模,模型泛化能力不强。
[0005]综上所述,本领域技术人员急需对以上问题进行解决。

技术实现思路

[0006]本方案针对上文提到的问题和需求,提出一种基于注意力机制与可变卷积深度网络的多视图三维重建方法,其由于采取了如下技术方案而能够解决上述技术问题。
[0007]为实现上述目的,本专利技术提供了如下技术方案:一种基于注意力机制与可变卷积深度网络的多视图三维重建方法,包括以下步骤:
[0008]步骤Step1:基于递归特征金字塔结构,构建多尺度特征提取网络,对获取的多张多视角图像进行多尺度的语义特征提取,获取完整、准确的目标关键特征;
[0009]步骤Step2:将步骤Step1中得到的特征输入基于注意力机制和变形卷积深度网络的块匹配迭代模型中进行像素级别的深度评估迭代计算,完成迭代计算之后输出每幅图像对应的深度图;
[0010]步骤Step3:将步骤Step2中得到的深度图和对应的图像作为输入,通过残差网络提取深度残差对深度图进行优化,获得最终的深度图;
[0011]步骤Step4:将迭代计算获得的所有深度图作为输入,通过几何一致性约束和光照一致性约束对深度点进行过滤,根据可见性融合算法进行深度图融合,输出获得场景的三
维点云。
[0012]其中,所述的递归特征金字塔机构,是通过对原有的特征金字塔结构输出的特征图施加一个空洞空间卷积池化金字塔网络进行目标关键特征的提取,并将获得的目标特征再次输入到特征金字塔网络中对目标特征进行再次提纯,获得信息更为丰富的特征图。
[0013]其中,在所述的基于注意力机制和变形卷积深度网络的块匹配模型的迭代过程中,若是初次迭代,则以目标特征图作为初始迭代输入;若迭代已开始,则以目标特征图与上次迭代输出的深度图连接起来作为当前迭代的输入。在具体进行深度评估时,通过注意力机制强化目标特征,再通过group

wise相关性计算每个像素的每个depth假设值的代价来实现的,具体的步骤如下:
[0014]首先基于注意力机制强化参考图像的关键特征,在迭代计算之中重点关注于图像中的关键目标;然后基于单应性变换将源视图像素点转换到参考视图坐标系下,并在参考视图坐标系下,对参考视图和源视图进行点积运算获取图像相似度;随后对特征通道维度进行分组,并通过三维卷积网络将每个分组相似性投影为参考图像的每个像素的每个深度假设的代价值;接下来,对所有源视图的深度代价值进行求和归一化计算,获得每个像素点的每个深度假设的概率,进行深度回归计算输出深度图;最后,通过可变性卷积深度网络对每一个像素点的相似像素点进行深度值采样,并进行深度滤波以平滑过滤错误的深度估计值。
[0015]其中,所述的优化残差网络是以目标特征图和上述得到的深度图作为输入,提取深度残差信息,对深度图进行优化。
[0016]其中,所述的深度图融合用于将满足几何约束要求和光照一致性要求的深度点投影到三维空间中形成三维点云,以得到重建的三维模型。
[0017]从上述的技术方案可以看出,本专利技术的有益效果是:通过递归特征金字塔结构获取语义更加丰富的目标关键特征,并通过注意力机制在深度评估计算中融合全局语义信息以弥补卷积网络的不足,并根据可变性卷积网络对深度图进行滤波,使得到的深度图更加完整和准确,三维模型的重建精度更高,整个网络模型的普适性也更强。
附图说明
[0018]图1为本专利技术实施例中的具体步骤示意图;
[0019]图2为本专利技术实施例中的网络结构图;
[0020]图3为本专利技术实施例中的递归特征金字塔网络结构图;
[0021]图4为本专利技术实施例中的空洞空间卷积池化金字塔网络结构图;
[0022]图5为本专利技术实施例中的注意力机制网络结构图;
[0023]图6为本专利技术实施例中的三维重建效果图。
具体实施方式
[0024]下面将结合附图对本专利技术作进一步的详细描述,所描述的实例仅旨在便于对本专利技术的理解,并不用于限定本专利技术。
[0025]目前已有的多视图三维重建方法,在弱纹理区域或反射表面的重建效果不好,并且存在运行时间长、内存消耗大以及泛化能力弱等问题,因此,本专利技术公开了一种基于注意
力机制和可变性深度卷积网络的处理方法,该方法具有很强的泛化能力,能够快速高效的获得高精度的深度图,从而获得准确、完整的三维重建效果。如图1、图2所示,本专利技术提供了一种基于注意力机制和可变性深度卷积网络的多视图三维重建方法,本专利技术的具体步骤包括:
[0026]步骤Step1、基于递归特征金字塔结构,构建多尺度特征提取网络,对获取的多张多视角图像进行多尺度的语义特征提取,获取完整、准确的目标关键特征。
[0027]具体地,如图3所示,基于递归特征金字塔结构,使用卷积神经网络对多张多视角图像进行多尺度特征提取得到原始特征图。对低分辨率的原始特征图再施加一个上采样层,与下一个尺度的原始特征图进行融合,获取具有丰富语义信息的目标特征。对相邻两个尺度之间的原始特征图都采用上述的上采样融合处理,获得多种尺度的特征图。
[0028]更进一步地,对于上述获得的多尺度特征图,通过空洞空间卷积池化金字塔网络进行提纯,并将提纯后的特征图再次输入上述的特征提取网络中进行目标关键特征的再次提取,获得语义信息更加丰富的多尺度特征图。
[0029]在本实施例中,通过训练集对所述多尺度提取网络进行训练的过程包括:
[0030]输入N张H
×
W大小的多视角图像,其中包括一张参考视图I
ref
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制与可变卷积深度网络的多视图三维重建方法,其特征在于,包括一下步骤:步骤Step1:基于递归特征金字塔结构,构建多尺度特征提取网络,对获取的多张多视角图像进行多尺度的语义特征提取,获取完整、准确的目标关键特征;步骤Step2:基于注意力机制和变形卷积深度网络的块匹配迭代模型中进行像素级别的深度评估迭代计算,完成迭代计算之后输出每幅图像对应的深度图;步骤Step3:基于残差深度优化模块,以深度图和对应的图像作为输入,通过残差网络提取深度残差对深度图进行优化,获得最终的深度图;步骤Step4:基于深度图融合模块,将迭代计算获得的所有深度图作为输入,通过几何一致性约束和光照一致性约束对深度点进行过滤,根据可见性融合算法进行深度图融合,输出获得场景的三维点云。2.如权利要求1所述的基于注意力机制与可变卷积深度网络的多视图三维重建方法,其特征在于,所述的递归特征金字塔结构,使用卷积神经网络对多张多视角图像进行多尺度特征提取得到原始特征图;对低分辨率的原始特征图再施加一个上采样层,与下一个尺度的原始特征图进行融合,获取具有丰富语义信息的目标特征;对相邻两个尺度之间的原始特征图都采用上述的上采样融合处理,获得多种尺度的特征图;对于上述获得的多尺度特征图,通过空洞空间卷积池化金字塔网络进行提纯,并将提纯后的特征图再次输入上述的特征提取网络中进行目标关键特征的再次提取,获得语义信息更加丰富的多尺度特征图。3.如权利要求1所述的基于注意力机制与可变卷积深度网络的多视图三维重建方法,其特征在于,所述的基于注意力机制和变形卷积深度网络的块匹配迭代模型,基于注意力机制强化参考图像的关键...

【专利技术属性】
技术研发人员:周贵云周祥
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1