一种基于自适应网络的三维重建方法、装置及介质制造方法及图纸

技术编号:34140613 阅读:17 留言:0更新日期:2022-07-14 17:43
本发明专利技术公开了一种基于自适应网络的三维重建方法、装置及介质,其中方法包括:输入两张图像,采用两个特征提取网络分别对两张图像进行特征提取,采用自适应网络对提取的特征进行处理,获得两张图像特征图;根据图像特征图和相机参数构建视图的代价体,获得两个代价体;采用正则化网络对所有的代价体进行正则化处理,以利用空间上下文信息,将代价转化为深度假设的概率分布;采用损失函数对特征提取网络、自适应网络和正则化网络进行训练,获得三维重建模型,采用获得的三维重建模型对待处理图像进行三维重建。本发明专利技术采用自适应网络对特征进行处理,采用正则化网络对代价体进行正则化,有效提升三维重建的精确度,可广泛应用于三维重建技术领域。三维重建技术领域。三维重建技术领域。

【技术实现步骤摘要】
一种基于自适应网络的三维重建方法、装置及介质


[0001]本专利技术涉及三维重建
,尤其涉及一种基于自适应网络的三维重建方法、装置及介质。

技术介绍

[0002]基于深度学习的三维重建技术,主要以卷积神经网络(CNN)为学习模型,通过大量数据学习图像中物体的三维信息,实现二维图像物体到三维物体模型端到端的转换。相比传统的三维重建方法,深度学习的方法表现出很大的优势,在与其他算法的对比实现了显著的提升,将深度学习技术运用到三维重建中,具有天然的优势,深度学习可以利用先验经验来大致估计物体的深度,其原理类似于人类凭借经验大致估计物体的距离,具有一定的合理性。因此,将深度学习引入三维重建中,依靠其自动学习特征的能力,用神经网络代替立体匹配,取得了很好的效果,也成为了目前主流的思路。近年来涌现出了一大批优秀的基于深度学习的三维重建算法。
[0003]虽然近些年来,人们已经陆续开始研究以深度学习为基础的三维重建方法,但仍存在一些基本的问题,首先在高精度方面,目前的技术虽然已经能够恢复粗略的三维物体模型,不断提高了重建的分辨率,但其精度仍然没有达到足够精确的部分,在物体信息更加丰富的表面,三维重建精度仍然面临重大的挑战。
[0004]其次,在面对室外复杂场景中,如何不受户外复制因素的干扰来获得更加准确的物体信息,从而重建出三维模型,也需要研究解决,尤其是在面对有遮挡、无纹理或者低纹理物体的情况下,如何面对该挑战,从而获得更加精细的三维重建模型,也一直是需要面对的困难。并且,目前,基于深度学习的算法更多的是依赖于传统算法,对传统算法的其中一部分进行改善,通用性较差。
[0005]基于以上的难点问题,如何使用深度学习方法来提升三维重建的精确度,降低算法的复杂度,都需要进行进一步的研究。

技术实现思路

[0006]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种基于自适应网络的三维重建方法、装置及介质。
[0007]本专利技术所采用的技术方案是:
[0008]一种基于自适应网络的三维重建方法,包括以下步骤:
[0009]输入两张图像,采用两个特征提取网络分别对两张图像进行特征提取,采用自适应网络对提取的特征进行处理,获得两张图像特征图;
[0010]根据图像特征图和相机参数构建视图的代价体,获得两个代价体;
[0011]采用正则化网络对所有的代价体进行正则化处理,以利用空间上下文信息,将代价转化为深度假设的概率分布;
[0012]采用损失函数对特征提取网络、自适应网络和正则化网络进行训练,获得三维重
建模型,采用获得的三维重建模型对待处理图像进行三维重建。
[0013]进一步地,所述两个特征提取网络的参数相同,且参数共享;所述特征提取网络由五层CNN组成。
[0014]进一步地,所述自适应网络用于自适应聚合不同尺度和不同纹理丰富度区域的特征;
[0015]所述自适应网络中有三个不同的特征空间尺度,该三个特征空间尺度由三个可变形卷积处理获得:
[0016][0017]其中,f(p)代表像素点p的特征值,w
k
表示普通卷积运算中定义的核参数,p
k
表示固定偏移量,Δp
k
和Δm
k
是指由可变形卷积的可学习子网络自适应产生的偏移和调制权值。
[0018]进一步地,所述根据图像特征图和相机参数构建视图的代价体,获得两个代价体,包括:
[0019]将得到的两个图像的特征和相机参数进行匹配计算,获得两个代价体;
[0020]在相机的深度假设为d的情况下,图像特征和第i幅输入图像之间的像素映射关系有:
[0021][0022]其中,T和K代表相机的外部变换参数和内部参数;
[0023]代价体的表达式如下:
[0024][0025]其中,f
i
(d)表示输入第i张图像的特征,表示两张图像的平均特征。
[0026]进一步地,在获得代价体后,还包括以下步骤:
[0027]采用卷积网络模块来处理不可靠的匹配代价体,具体表达式如下:
[0028][0029]其中,*是矩阵对应元素的乘积,ω(
·
)每张图像的代价体自适应生成特征。
[0030]进一步地,所述正则化网络采用RNN

CNN混合方式,在D维度处切取代价量H
×
W
×
D
×
32;
[0031]正则化网络中通过的特征具有水平方向和垂直方向,在水平方向上,三维成本体积的每一片都由一个具有编码器

解码器架构的CNN进行正则化;在垂直方向上,采用5个平行的RNN,将原卷积层的中间输出传递给后一个卷积层。
[0032]进一步地,所述采用5个平行的RNN,将原卷积层的中间输出传递给后一个卷积层,包括:
[0033]将第j个卷积层需要处理的深度d的代价体(第j

1层的输出)记为v
j
‑1(d),深度d

1的这一层输出为v
j
(d

1),此时保持原值操作(也就是隐藏状态)记为m
j
(d

1);将v
j
‑1(d)和v
j
(d

1)进行串联,经过卷积层处理后,将特征维的张量分成4张量w、x、y、z,一个卷积层内的4个二维信号:
[0034][0035]由于m
j
(d)=m
j
(d

1),可得到:
[0036]m
j
(d)=m
j
(d

1)
·
f+i
·
g
[0037]最终输出代价体v
j
(d)的表达式如下:
[0038]v
j
(d)=o
·
tanh(m
j
(d))
[0039]其中,w、x、y、z表示特征提取得到的四维矩阵的四个维度信息。
[0040]进一步地,由于正则化将匹配成本转化为像素级概率分布的深度假设,因此深度估计的任务类似于像素级分类问题,故通过对真实值进行编码,采用交叉熵来计算训练损失,具体表达式如下:
[0041][0042]其中,G
d
(p)和P
d
(p)表示像素p的真实图像的概率和深度假设d的预测概率,p
v
为可靠深度的有效像素集合;d0表示第一个图像的深度假设预测概率,d1表示第二个图像的深度假设预测概率。
[0043]本专利技术所采用的另一技术方案是:
[0044]一种基于自适应网络的三维重建装置,包括:
[0045]至少一个处理器;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应网络的三维重建方法,其特征在于,包括以下步骤:输入两张图像,采用两个特征提取网络分别对两张图像进行特征提取,采用自适应网络对提取的特征进行处理,获得两张图像特征图;根据图像特征图和相机参数构建视图的代价体,获得两个代价体;采用正则化网络对所有的代价体进行正则化处理,以利用空间上下文信息,将代价转化为深度假设的概率分布;采用损失函数对特征提取网络、自适应网络和正则化网络进行训练,获得三维重建模型,采用获得的三维重建模型对待处理图像进行三维重建。2.根据权利要求1所述的一种基于自适应网络的三维重建方法,其特征在于,所述两个特征提取网络的参数相同,且参数共享;所述特征提取网络由五层CNN组成。3.根据权利要求1所述的一种基于自适应网络的三维重建方法,其特征在于,所述自适应网络用于自适应聚合不同尺度和不同纹理丰富度区域的特征;所述自适应网络中有三个不同的特征空间尺度,该三个特征空间尺度由三个可变形卷积处理获得:其中,f(p)代表像素点p的特征值,w
k
表示普通卷积运算中定义的核参数,p
k
表示固定偏移量,Δp
k
和Δm
k
是指由可变形卷积的可学习子网络自适应产生的偏移和调制权值。4.根据权利要求1所述的一种基于自适应网络的三维重建方法,其特征在于,所述根据图像特征图和相机参数构建视图的代价体,获得两个代价体,包括:将得到的两个图像的特征和相机参数进行匹配计算,获得两个代价体;在相机的深度假设为d的情况下,图像特征和第i幅输入图像之间的像素映射关系有:其中,T和K代表相机的外部变换参数和内部参数;代价体的表达式如下:其中,f
i
(d)表示输入第i张图像的特征,表示两张图像的平均特征。5.根据权利要求4所述的一种基于自适应网络的三维重建方法,其特征在于,在获得代价体后,还包括以下步骤:采用卷积网络模块来处理不可靠的匹配代价体,具体表达式如下:其中,*是矩阵对应元素的乘积,ω(
·
)每张图像的代价体自适应生成特征。6.根据权利要求1所述的一种基于自适应网络的三维重建方法,其特征在于,所述正则化网络采用RNN

CNN混合方式,在D维度处切取代价量H
×
W
×
D
×
32;正则化网络中通过的特征具有水平方向和垂直方向,在水平方向上,三维成本体积的每一片都由一个具有编码器

...

【专利技术属性】
技术研发人员:胡军委孙季丰
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1