一种多视角深度获取方法技术

技术编号:32016329 阅读:14 留言:0更新日期:2022-01-22 18:34
一种多视角深度获取方法,涉及计算机视觉领域和深度学习技术领域,使用机器学习的方式求深度图,对宽基线等拍摄角度问题及粗糙区域,弱纹理区域,遮挡等复杂的纹理和光影问题有更好的鲁棒性。在特征提取模块引入了CBAM注意力机制,从通道维度和空间维度两个方向整理每次卷积得到的特征。使用特征提取Unet结构中的跳层连接保证了高层信息不被覆盖,同时兼顾获取低层信息。特征提取Unet配合CBAM注意力机制充分考虑不同视角几何映射的关系,提高了特征提取模块对不同视角特征的识别能力。在代价正则化部分使用3D卷积和双向长短期记忆LSTM组合的方式,从深度维度和通道维度两个方面正则化三维方差特征,从而提高网络的处理,生成速度快。速度快。速度快。

【技术实现步骤摘要】
一种多视角深度获取方法


[0001]本专利技术涉及计算机视觉领域和深度学习
,具体涉及一种多视角深度获取方法。

技术介绍

[0002]三维重建是指使用现实世界中三维物体的图像建立由计算机存储的三维模型,它是使用计算机存储客观世界三维几何结构的关键技术。三维重建应用于3D建模和绘图、机器人、医学成像、监视、跟踪和导航。同时深度获取在逆向工程、游戏和娱乐业等各行各业都有着广阔的应用前景。
[0003]使用计算机视觉实现三维重建是一个完整过程,包括相机标定、特征匹配和重建。三维重建目的是恢复物体完整的结构信息,因此需要获取物体的位置信息,通常包括法向量、深度等信息,其中深度是三维重建需要的重要信息,直接影响到重建的精确度和完整度。深度是指物点到相机的向量在相机的光轴上距离。深度获取容易受到干扰,场景中的光照和噪声等干扰都会影响到深度获取,因此深度获取是三维重建的关键技术。
[0004]多视角的深度获取,是指获取物体的一组图像序列或一段视频作为输入,并对输入进行处理,最终得到相机和每一个特征点的位置关系。多视角获取深度计算量巨大,耗时长、资源占用高,但是多视角获取深度的方法使重建的结果稳定、精确,适应各种不同曝光条件,对不连续区域及遮挡区域等复杂环境因素有着良好的鲁棒性。多视角的深度获取应用于3D建模和绘图、机器人、医学成像、监视、跟踪和导航。同时深度获取在逆向工程、游戏和娱乐业等各行各业都有着广阔的应用前景。
[0005]多视角深度获取算法可以分为传统的深度获取算法和基于深度学习的深度获取算法两类。第一类传统的深度获取算法具体有两个步骤构成,SFM(Structure from motion)和MVS(Multi

view stereo)。SFM即运动恢复结构,首先使用LM优化(Levenberg

Marquardt),高斯牛顿法(Gauss

Newton iteration method)等优化方法迭代调整稀疏特征点,从而使用稀疏特征点的关系获取每个视角的位姿矩阵,使用稀疏特征点和位姿矩阵最终得到由稀疏特征点组成的点云。由于SFM只能根据稀疏特征点的三维空间位置进行计算,其重建出来的三维点云较为稀疏,缺少对细节的描述,无法实现可视化。因此需要MVS,即多视角立体匹配进行稠密估计,构造稠密点云。MVS可以分为四类:基于点云的方法、基于体素的方法、基于曲面演变的方法和基于深度获取的方法。本方法中讨论的MVS主要为基于深度获取的方法。MVS在SFM中获得的空间结构的基础上,计算各个视角对应的深度图,然后将各个深度图融合并进行表面重建,最终得到三维模型。基于深度获取的MVS方法通过多视角图像的匹配,将复杂的多视图三维重建简化为相对简单的单视图深度获取,从而简化了MVS的工作,提升了MVS的灵活性。
[0006]虽然传统的深度获取算法有很多优点,但是它的缺点在于接受的数据量大,运算速度难以提高。并且由于环境噪声、相机的畸变等不可避免的环境原因,以及粗糙区域,平滑无纹理区域以及遮挡等模型的原因,获取的图像难以提取特征,从而提高了特征匹配的
难度。
[0007]基于深度学习的深度获取使用神经网络代替了SFM和MVS这种传统方法,简化了大部分的运算工作,同时提高了深度获取的鲁棒性。网络一般包括卷积或反卷积、批量归一化、非线性激活等模块。除此以外,一些网络为了学习不同尺度的特征,添加了最大池化模块和平均池化模块。在基于深度学习的深度获取中常用的网络结构为Unet。Unet分为编码器和解码器两部分,编码器使用卷积逐步使用下采样,同时随着通道数的增加,将特征信息归类到不同的通道中。解码器使用反卷积进行上采样,将不同的通道中的特征融合,恢复局部的细节,细化附加信息。
[0008]基于深度学习的深度获取方法训练时需要大量的数据,但是在使用时运算速度明显快于传统的深度获取方法。而且使用基于深度学习的深度获取方法可以获取不同尺度的图像特征以提高结果的准确度,并对弱纹理、重复纹理等一些复杂纹理有很好的鲁棒性。因此是近几年的研究热点。

技术实现思路

[0009]专利技术目的:
[0010]为了获得更高精度的深度信息,解决传统深度获取方法受限于提取特征点导致对特征匹配的依赖性,同时加快生成深度图的速度。本专利技术提供了一种多视角深度获取方法。
[0011]技术方案:
[0012]一种多视角深度获取方法,本方法包括:
[0013]图像输入:同一相机在多个位置获取多幅输入图像组成的图像序列,图像序列中图像分为一幅参考图像和多幅目标图像;图像序列通过下采样的方法得到n组不同尺度的图像序列;获取的原始图像组成的图像序列和下采样得到的n组图像序列总共n+1组图像序列,n+1组图像序列按照尺度由小到大的顺序送入特征提取部分;
[0014]特征提取:将图像输入中获取n+1组三通道图像序列输入到特征提取Unet中。特征提取Unet由编码器和解码器构成,编码器由多个CBLC模块组成。每一个CBLC模块由卷积层(Convolution Layer)、批归一化(Batch Normalize)、泄露线性单元(LeakyReLu)和卷积注意力(CBAM)构成。解码器由多个使用反卷积的CBLC模块构成,每个反卷积CBLC模块由反卷积(Deconvolution Layer)、批归一化、泄露线性单元和卷积注意力构成。最终输出按尺度对应的n+1组16通道的二维特征序列。每一组二维特征序列包括一个参考图像的特征和多个目标图像的特征。输出的n+1组二维特征序列输入深度求精部分。
[0015]深度求精:在获得特征提取部分提取的n+1组二维特征序列以后,按照L=n,n

1,

,0,的顺序分别对这n+1组二维特征序列使用深度求精方法求取估计深度图,整个过程需要使用深度求精n+1次。深度求精包括三个部分:单应性变换、代价正则化、深度获取,如此循环进行深度求精的三个部分得到与原始图像尺度一致的估计深度图;
[0016]深度求精的三个部分如下:
[0017]一、单应性变换:单应性变换包括以下两个部分:获取深度数据、可微性单应。
[0018](1)获取深度数据:第n组二维特征序列在深度取值范围内按照48等分,每等分内取中值,对48个中值进行深度遍历,因此长、宽两个维度的二维特征序列变成深度、长、宽三个维度的三维特征序列。由于等分使得遍历的深度值不精确,导致反转的过程中特征空间
会存在空洞,采用双线性插值算法填充这些空洞。而对于其余的二维特征序列,在获取上一组图像序列的估计深度图后,对其上采样后再复制多组的策略构造深度数据。具体为使用上采样将上一组图像序列的估计深度图长宽扩增为原先的两倍,并根据上采样的结果复制8次形成深度数据作为本组的输入。
[0019](2)可微性单应:特征提取获得的n+1组二维特征序列中的目标图像特征通过空间变换投射到对应的参考图像所在的坐标系中获得目标图像的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多视角深度获取方法,其特征在于:该方法包括:图像输入:同一相机在多个位置获取多幅输入图像组成的图像序列,图像序列中图像分为一幅参考图像和多幅目标图像;图像序列通过下采样的方法得到n组不同尺度的图像序列;获取的原始图像组成的图像序列定义组数L=0,而下采样得到的n组图像序列按照下采样的次数定义组数L分别为1,2,

,n,两者总共n+1组图像序列;将这n+1组图像序列按照尺度由小到大的顺序送入特征提取部分;特征提取:将图像输入部分获得的n+1组多尺度图像序列送入特征提取Unet提取特征;使用特征提取Unet对每一组图像序列提取特征,得到由图像序列中的多张图像获取的特征组成的二维特征序列,并且这n+1组二维特征序列和其对应的图像序列相比通道数增加,长和宽不变;然后按照L=n,n

1,

,0,的顺序将这n+1组二维特征序列送入深度求精;深度求精:在获得特征提取部分提取的n+1组二维特征序列以后,按照L=n,n

1,

,0,的顺序分别对这n+1组二维特征序列使用深度求精的方法求估计深度图,整个过程需要重复n+1次;深度求精包括三个部分:单应性变换、代价正则化、深度获取;每次深度求精输出的估计深度图使用上采样后作为下次深度求精的输入,如此循环进行深度求精的三个部分得到与原始图像尺度一致的估计深度图;深度求精的三个部分如下:一、单应性变换:对特征提取获取的每一组二维特征序列中的多个目标图像的特征通过空间变换投射到参考图像所在的坐标系中获得反转的特征;然后使用目标图像的反转特征序列和参考图像的特征求方差,得到三维方差特征输出;单应性变换主要为以下两个部分:获取深度数据、可微性单应;(1)获取深度数据:空间变换投射时需要深度数据;对于第n组二维特征序列,在深度范围内按照48等分进行深度值的离散化得到初始深度数据;而对于其余的二维特征序列,获取上一组的估计深度图后,使用上采样后再复制多组的策略构造深度数据;(2)可微性单应:同一二维特征序列中,首先将多个目标图像的二维特征映射到参考图像所在的坐标系下;由于遍历获取的深度数据,映射后的目标图像的特征序列为三维特征序列;此三维特征序列和由参考图像的二维特征复制形成的三维特征计算方差,作为此图像序列对应的三维方差特征;二、代价正则化:将单应性变换获得的L=n,

【专利技术属性】
技术研发人员:魏东于璟玮何雪刘涵
申请(专利权)人:沈阳工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1