当前位置: 首页 > 专利查询>郑健青专利>正文

一种基于自监督深度学习的双图深度估计方法技术

技术编号:28378753 阅读:19 留言:0更新日期:2021-05-08 00:06
本发明专利技术涉及一种基于自监督深度学习的双图深度估计方法,相比现有的深度学习双图深度估计技术,在应用场景中该发明专利技术通过两张图像所提取特征的对应关系内化得到基础矩阵参数,从而无须相机标定参数和位置姿态信息,提高了使用灵活性和适用价值,其中交互注意力机制实现了两张图像之间不同尺度上特征的匹配与融合,而嵌入的最优传输算法解决了这一过程中的特征筛选问题,提升了现有方法中特征提取和匹配的准确性和稳定性,其中二维坐标被额外串联于特征图中改善卷积神经网络对空间感知不足问题,进一步提高现有方法的精确性,另外相比于现有的自监督学习算法,该发明专利技术结合多个损失函数项避免训练陷入局部极值,提高了学习过程的稳健性。

【技术实现步骤摘要】
一种基于自监督深度学习的双图深度估计方法
本专利技术涉及图像数据采集
,特别是一种基于自监督深度学习的双图深度估计方法。
技术介绍
图像的深度估计作为计算机视觉领域里通过二维图像获得三维信息的一种重要手段,被广泛应用于无人机/无人车控制、三维场景重建、手术机器人导航等方面,通常,根据使用图像数量分为单图深度估计方法和多图深度估计方法。其中单图深度估计方法通过单张图片实现深度估计,由于完全依赖于该图像中观测对象的轮廓、纹理、光源等对观测物体的先验信息,从而导致容易缺失泛用性和对噪音的稳健性。相比之下多图深度估计方法可以使用单个或多个摄像头,从不同位置角度观测同一物体,通过同一空间点在不同视角下的二维图像位置来估计到该空间点的深度。由于多图深度估计方法中包括双图深度估计方法,并且多图深度估计方法通常是基于双图方法拓展的,所以,以下在不失通用性前提下仅讨论双图深度估计方法。目前的双图深度估计方法主要分为传统算法和深度学习算法,其中深度学习算法可以根据训练过程是否需要标记深度图数据分为监督学习算法和自监督学习算法。自监督学习算法可以减少标记数据所需成本,但是现有的自监督学习算法通常往往只使用基于图像再投影的损失函数而容易陷入局部最优解。双图深度估计过程通常包括三个部分:1)提取二维图像特征;2)寻找同一空间点的图像特征对应关系;3)通过两个视角的对应图像坐标来估测到该空间点的深度距离。在第一部分中,传统算法基于特征点线面的提取方法(如SIFT、SURF),通常需要根据使用的具体场景进行调整,缺少普适性。相对来说深度学习算法如卷积神经网络可以根据不同场景数据来自适应调整,但是监督学习算法通常需要大量的标记数据进行训练而增加成本。第二部分中一大难点在于特征筛选,相机视野限制造成了存在没有同时被两张图像观测到的特征,传统算法通常需要迭代运算(如Ransac)来排除这些无法匹配的特征点,但是会因此消耗较多时间而无法进行实时任务。而目前已知的深度学习算法还尚未有效解决这一问题。在第三部分中,现有的双图深度学习算法大多需要在使用前通过相机标定得到对应参数,并要求在深度估计过程中两张图片拍摄中相机的相对位置和姿态,这极大的限制了其应用场景。另外目前双图深度学习方法通常依赖于卷积神经网络对图像进行处理,其中有两种主要方式:(1)将两张图像串联后处理,(2)用双生网络结构,即共享权重的双分支网络结构。其中(1)由于卷积操作的感受野大小限制了两张图像的视差大小,因此限制了双图方法相对单图方法的收益;而(2)中现有双生网络分支之间缺乏有效的特征融合,因此限制了该结构在第二部分特征匹配中的表现。
技术实现思路
本专利技术的目的是针对现有的双图深度估计方法所存在的不足,提供一种基于自监督的端到端的深度学习算法的双图深度估计方法。本专利技术的基于自监督深度学习的双图深度估计方法,特征在于是通过以下措施来实现的:步骤1.搭建一个包含双生编码器-双生解码器(SiameseEncoder–SiameseDecoder)结构、包括两个并行的网络分支的卷积神经网络模型,对应两个并行的网络分支分别输入左图像和右图像,便可输出对应的左深度图和右深度图,依照网络分支的阶段又可分为双生编码器、特征融合器和双生解码器三个部分,其中:所述的双生编码器和双生解码器中两个分支间的所述卷积层、反卷积层参数可以共享,以减少网络参数数量并加速网络训练,而中间特征融合器部分中的卷积层和激活层则不共享。所述的双生编码器结构中的若干个卷积层、激活层和下采样层,被用于提取两个图像不同尺度的特征,得到特征图;所述的特征融合器部分中的卷积层和激活层,被用于将经过双生编码器多次下采样后得到的左右特征图通过串联或相加等操作进行抽象特征的融合;所述的双生解码器结构中的若干个卷积层、激活层和反卷积层或上采样层,被用于恢复特征图的分辨率,以提供更多空间特征;在所述的双生编码器和所述的双生解码器之间,用跃接特征图连接每一个对应尺度模块,以确保证其不同分辨率特征和对应坐标信息的传递;在所述的卷积神经网络模型的两个并行分支之间,用交互注意力(MutualAttention)机制实现各个尺度上两个特征图之间的相似特征的匹配与融合,对矩阵变维后的左图特征向量组Xl和右图特征向量组Xr相互进行查找匹配和融合:Yr→l=Φ(Xl,Xr)Ψ(Xr)Yl→r=Φ(Xr,Xl)Ψ(Xl)该公式通过匹配函数Φ得到第二个输入中的每一个向量到第一个输入中每一个向量的匹配矩阵,通过特征变换函数Ψ实现两个分支特征图之间对应关系的特征空间变换,最终得到右图到左图的融合特征向量组Yr→l和左图到右图的融合特征向量组Yl→r;在所述的匹配函数Φ中,可用最优传输算法于特征模糊匹配问题,并通过排除因为未同时出现在两个特征图里而无法匹配的特征完成特征筛选,其中可用迭代(Sinkhorn)算法计算最优传输问题的近似数值解,使得最优传输算法得以嵌入神经网络中;所述的卷积层中特征图的每个像素的二维坐标数值都可以作为两层额外串联的特征图进行卷积运算,以加强网络对空间信息的利用。步骤2.利用步骤1中搭建的所述卷积神经网络模型,通过相机,对在已知位置、角度及标定参数下观测到的多张图像进行训练,先将左右图像输入网络,再输出对应深度图,计算得到损失函数,并通过优化该损失函数来训练获得网络参数;在所述的卷积神经网络模型的训练过程中,可以采用自监督模式,从而减少人工标记的成本,仅需要对应的相机标定参数,包括内参数K和外参数T,优化一个包含图像再投影差异损失一致性损失和光滑度损失的损失函数其中α、β和γ分别是三者的权重,所述图像再投影差异损失项计算左右图像Il,Ir与右左图像Ir,Il在对应深度图Dr,Dl位置被投影至左右相机像平面后的差异,其中包括如SSIM图像结构相似度差异和曼哈顿距离对应像素差值;一致性损失项计算左右深度图Dl,Dr在三维空间中的差异性(如三维点云距离Chamfer距离)或投影至同一校正像平面的差异性(如深度图再投影差值);光滑度损失项计算左右图所预测深度的光滑程度。步骤3.经训练完成的所述卷积神经网络模型,即可用来对两张相机在未知坐标和姿态下观测到的图像进行深度估计。本专利技术的有益技术效果是:实现了基于自监督端到端学习算法的双图深度估计,相比现有的深度学习双图深度估计技术,在应用场景中该专利技术通过两张图像所提取特征的对应关系内化得到观测的相对位置姿态变换和标定参数,从而无须观测的位置姿态,提高了使用的灵活性和适用价值;其中交互注意力机制实现了左右图之间不同尺度的相似特征的匹配与融合,而嵌入的最优传输算法解决了这一过程中的特征筛选问题,提升了深度学习方法对于图像特征提取和匹配的准确性及稳定性;其中二维坐标数值被额外串联于特征图中改善了卷积神经网络对空间学习感知不足的问题,进一步提高了深度学习深度估计方法的精确性;另外相比于现有的自监督学习算法,该专利技术结合多个损失函本文档来自技高网
...

【技术保护点】
1.一种基于自监督深度学习的双图深度估计方法,其特征在于是通过以下措施来实现:/n步骤1.搭建一个包含双生编码器-双生解码器(Siamese Encoder–Siamese Decoder)结构、包括两个并行网络分支的卷积神经网络模型,对应两个并行网络分支分别输入左图像和右图像,便可输出对应的左深度图和右深度图,依照网络分支的阶段又可分为双生编码器、特征融合器和双生解码器三个部分,其中:/n所述的双生编码器结构中的若干个卷积层、激活层和下采样层,被用于提取两个图像不同尺度的特征,得到特征图;/n所述的特征融合器部分中的卷积层和激活层,被用于将经过双生编码器多次下采样后得到的左右特征图通过串联或相加等操作进行抽象特征的融合;/n所述的双生解码器结构中的若干个卷积层、激活层和反卷积层或上采样层,被用于恢复特征图的分辨率,以提供更多空间特征;/n在所述的双生编码器和所述的双生解码器之间,用跃接特征图连接每一个对应尺度模块,以保证其不同分辨率特征和对应坐标信息的传递;/n在所述的卷积神经网络模型的两个并行分支之间,用交互注意力机制实现各个尺度上两个特征图之间的相似特征的匹配与融合;/n步骤2.利用步骤1中搭建的所述卷积神经网络模型,通过相机,对在已知位置、角度及标定参数下观测到的多张图像进行训练,先将左右图像输入网络,再输出对应深度图,计算得到损失函数,并通过优化该损失函数来训练获得网络参数;/n步骤3.经训练完成的所述卷积神经网络模型,即可用来对两张相机在未知坐标和姿态下观测到的图像进行深度估计。/n...

【技术特征摘要】
1.一种基于自监督深度学习的双图深度估计方法,其特征在于是通过以下措施来实现:
步骤1.搭建一个包含双生编码器-双生解码器(SiameseEncoder–SiameseDecoder)结构、包括两个并行网络分支的卷积神经网络模型,对应两个并行网络分支分别输入左图像和右图像,便可输出对应的左深度图和右深度图,依照网络分支的阶段又可分为双生编码器、特征融合器和双生解码器三个部分,其中:
所述的双生编码器结构中的若干个卷积层、激活层和下采样层,被用于提取两个图像不同尺度的特征,得到特征图;
所述的特征融合器部分中的卷积层和激活层,被用于将经过双生编码器多次下采样后得到的左右特征图通过串联或相加等操作进行抽象特征的融合;
所述的双生解码器结构中的若干个卷积层、激活层和反卷积层或上采样层,被用于恢复特征图的分辨率,以提供更多空间特征;
在所述的双生编码器和所述的双生解码器之间,用跃接特征图连接每一个对应尺度模块,以保证其不同分辨率特征和对应坐标信息的传递;
在所述的卷积神经网络模型的两个并行分支之间,用交互注意力机制实现各个尺度上两个特征图之间的相似特征的匹配与融合;
步骤2.利用步骤1中搭建的所述卷积神经网络模型,通过相机,对在已知位置、角度及标定参数下观测到的多张图像进行训练,先将左右图像输入网络,再输出对应深度图,计算得到损失函数,并通过优化该损失函数来训练获得网络参数;
步骤3.经训练完成的所述卷积神经网络模型,即可用来对两张相机在未知坐标和姿态下观测到的图像进行深度估计。


2.根据权利要求1所述的基于自监督深度学习的双图深度估计方法,其特征在于所述的双生编码器和双生解码器中两个分支间的所述卷积层、反卷积层参数可以共享,以减少网络参数数量并加速网络训练,而中间特征融合器部分中的卷积层和激活层则不共享。


3.根据权利要求1所述的基于自监督深度学习的双图深度估计方法,其特征在于所述的卷积层中特征图的每个像素的二维坐标数值...

【专利技术属性】
技术研发人员:郑健青黄保茹
申请(专利权)人:郑健青
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1