一种基于卷积神经网络的立体视觉无监督深度估计方法技术

技术编号:25838818 阅读:26 留言:0更新日期:2020-10-02 14:18
本发明专利技术公开了一种基于卷积神经网络的立体视觉无监督深度估计方法,属于图像处理和计算机视觉领域。本发明专利技术旨在克服现有技术的不足,提供了一种新的无监督深度估计方法,设计了一个基于卷积神经网络进行高质量深度估计的框架,该框架包括立体视觉编码器‑解码器主干网络和判别器网络,并引入双重注意力机制有效获取特征,构建深度感知损失函数训练框架,以获得高质量的深度信息。系统容易构建;程序框架易于实现,算法运行速度快。本方法利用无监督方法来估计深度信息,避免了有监督方法中真实数据难以获取的问题。

【技术实现步骤摘要】
一种基于卷积神经网络的立体视觉无监督深度估计方法
本专利技术属于图像处理和计算机视觉领域,具体涉及一种基于卷积神经网络的立体视觉无监督深度估计方法。
技术介绍
深度估计在计算机视觉领域已经成为了一项重要课题,是大量实际应用中的基础问题,例如,增强现实,物体检测等应用。随着深度学习的快速发展,许多方法已经利用卷积神经网络来估计深度图。到目前为止,使用深度卷积神经网络进行深度估计的方法主要分为两类情况:有监督方法和无监督方法。尽管有监督学习方法在深度预测方面已经取得了不错的成果,但是这些方法往往需要大量的真实深度数据,这些数据难以被深度感知设备获取。与之相对,无监督方法不需要任何深度数据,并在训练中利用立体视觉数据及对极几何约束关系,将深度估计问题转化为图像重建问题来训练网络,指导网络参数更新。基于上述,本专利技术设计了一个基于卷积神经网络的无监督学习框架,以立体视觉(双视点)数据为训练数据,完成高质量场景深度图的预测。
技术实现思路
本专利技术旨在克服现有技术的不足,提供了一种新的无监督深度估计方法,设计了一个基于卷积神经网络进行高质量深度估计的框架,该框架包括立体视觉编码器-解码器主干网络和判别器网络,并于编码器-解码器主干网络中引入双重注意力机制有效获取特征。构建深度感知损失函数训练框架,以获得高质量的深度信息。本专利技术采用卷积神经网络对深度估计任务进行建模,在不需要任何真实深度数据作为监督的情况下,利用立体视觉图像作为输入,采用无监督的形式即可得到高质量深度图,本专利技术的具体技术方案为,一种基于卷积神经网络的立体视觉无监督深度估计方法,包括如下步骤:1)准备初始数据:初始数据包括用来训练的校正双视点图片对,以及用来测试的左视点图片;2)编码器-解码器主干网络的搭建:对编码器-解码器主干网络进行训练,对空间尺寸相同的编码器层和解码器层之间加入跳跃连接,加强特征表示;将双重注意力机制加入到编码器-解码器主干网络;此双重注意力机制包括空间注意力模块和通道注意力模块,其中空间注意力模块用于捕获深度图局部特征的非局部相关性,通道注意力模块用于考虑通道维度上的特征相关性,两个注意力模块合并称为双重注意力机制;按通道注意力机制、空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端;编码器-解码器主干网络的输入为左视点图片,输出为左右双视点图片的深度图,利用扭转函数(Warping)通过深度图和原彩色图得到合成的左右双视点彩色图,构建深度感知损失函数;以改善由左右视点图像视差产生的边缘,遮挡和平滑区域难以产生高质量深度估计结果的问题。3)判别器网络的搭建:将步骤2)搭建的编码器-解码器主干网络视作生成器网络,则在生成器末端加入一个判别器网络,判别器网络具有5个3×3的卷积层,下采样率为2,每次卷积后都进行批标准化(batchnormalization,BN)操作;判别器网络的输入为步骤2)中得到的合成左右双视点彩色图,利用对抗损失函数区分它们和真实的原彩色图,生成器网络学习合成图和真视图之间的特征映射;让合成图更像真实图,增强主干网络合成彩色图的能力从而间接提高深度估计的质量。4)基于步骤(2)、步骤(3)得到的卷积神经网络进行联合训练,监督方式采用构建的损失函数逐步迭代优化网络参数;当训练完毕,利用训练好的模型在测试集上进行测试,得到相应输入图片的输出结果。进一步地,上述双重注意力机制的构建,具体包括以下步骤:2-1)编码器网络得到的特征图作为双重注意力机制的输入,其中H、W、C分别代表高度、宽度、通道数,双重注意力机制将A变形为其中N=H×W,然后对B和B的转置矩阵做乘法运算,结果经过softmax激活函数得到通道注意力图即S1=softmax(BTB);对S1和B做矩阵乘法并变形为最后将原特征图A与U逐像素地加和得到经过通道注意力机制的输出Aa;将Aa作为空间注意力机制的输入,空间注意力机制除了softmax激活函数得到空间注意力图即S2=softmax(BBT)不同外,其他步骤与通道注意力机制相同,最终得到与原特征图高度、宽度、通道数相同的新特征图,将新特征图送入解码器结构,解码器输出深度图;经实验证明,此注意力机制加在编码器-解码器主干网络的编码器末端效果提升明显,若加入到其他位置很难提升效果且会显著增加网络参数量。进一步地,步骤4)中构建深度感知损失函数和判别器的对抗损失函数用以训练网络,具体包括以下步骤:3-1)修正光度损失函数Lp;首先将训练数据的左图Il送入到带有双重注意力模块的编码器-译码器网络中,分别得到预测的左右视差图,在已知相机参数的情况下直接得到深度图dl、dr,利用真实的左右图Il、Ir和预测的左右深度图dl、dr通过扭曲函数(Warping)得到合成的左右图现有的光度损失函数无法解决遮挡区域带来的问题,因此在此基础上进行设计,解决遮挡问题。修正的光度损失函数为其中,°表示逐像素相乘,N表示每次训练的图片数量,M*=1-M,M定义为:其中为指示函数,ξ的定义如下,η1和η2是参数;3-2)空间平滑损失函数Ls;通常,深度图主要由平滑区域和跳跃部分(深度边缘)组成。自然场景下深度图的梯度往往服从重尾分布,因而可以使用总变差(totalvariation,TV)作为一个保边正则项来建模。然而,由于TV往往不能很好地诱导梯度的稀疏性,从而导致输出的图像在平滑区域有阶梯伪影。因此,本专利技术提出使用广义总变差(totalgeneralizedvariation,TGV)来更好地刻画深度图的分布特征,得到公式:其中,中的i表示图片序列中的第i张,中的i同理。和分别为坐标系x和y方向的二阶梯度;3-3)左右一致性损失函数Ld,以减小视点间由于遮挡带来的误差,确保图片的一致性,公式如下:其中,是左扭曲视差图,可通过在生成的左视差图上应用扭曲函数获得,上标i表示图片序列的第i张;3-4)判别器在判别真实图片与合成图片时用到了对抗损失函数,将主干网络视为生成器,其最后生成的合成图片与真实的输入图片一同送进判别器中;对抗损失函数公式如下:其中p(*)表示数据*的概率分布,表示期望,表示判别器,这种对抗性损失促使生成器学习从合成数据到真实数据的映射,从而使合成图像与真实图像相似;3-5)整体网络结构的损失函数定义如下:其中上标l代表左视点图片,上标r代表右视点图片,α4是权重系数,LD表示深度感知损失函数,公式如下:α1,α2,α3是权重系数。本专利技术的有益效果是:本专利技术基于卷积神经网络,在无监督方法的基础上,提出一种双重注意力机制,用于筛选有意义的图像特征,并根据场景的几何特征设计了一个深度感知损失函数,用来描述深度图的本质特征。最后加入判别损失函数用于得到更高质量的深度图。该专利技术具有以下特点:1、系统容易构建;程序框架易于实现,算法运行速度快。2、本方法利用无监督方法来估计深度本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的立体视觉无监督深度估计方法,其特征在于,所述方法包括下列步骤;/n1)准备初始数据:初始数据包括用来训练的校正双视点图片对,以及用来测试的左视点图片;/n2)编码器-解码器主干网络的搭建:/n对编码器-解码器主干网络进行训练,对空间尺寸相同的编码器层和解码器层之间加入跳跃连接,加强特征表示;将双重注意力机制加入到编码器-解码器主干网络;此双重注意力机制包括空间注意力模块和通道注意力模块,其中空间注意力模块用于捕获深度图局部特征的非局部相关性,通道注意力模块用于考虑通道维度上的特征相关性,两个注意力模块合并称为双重注意力机制;按通道注意力机制、空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端;编码器-解码器主干网络的输入为左视点图片,输出为左右双视点图片的深度图,利用扭转函数通过深度图和原彩色图得到合成的左右双视点彩色图,构建深度感知损失函数;/n3)判别器网络的搭建:/n将步骤2)搭建的编码器-解码器主干网络视作生成器网络,则在生成器末端加入一个判别器网络,判别器网络具有5个3×3的卷积层,下采样率为2,每次卷积后都进行批标准化操作;判别器网络的输入为步骤2)中得到的合成左右双视点彩色图,利用对抗损失函数区分它们和真实的原彩色图,生成器网络学习合成图和真视图之间的特征映射;/n4)基于步骤(2)、步骤(3)得到的卷积神经网络进行联合训练,监督方式采用构建的损失函数逐步迭代优化网络参数;当训练完毕,利用训练好的模型在测试集上进行测试,得到相应输入图片的输出结果。/n...

【技术特征摘要】
1.一种基于卷积神经网络的立体视觉无监督深度估计方法,其特征在于,所述方法包括下列步骤;
1)准备初始数据:初始数据包括用来训练的校正双视点图片对,以及用来测试的左视点图片;
2)编码器-解码器主干网络的搭建:
对编码器-解码器主干网络进行训练,对空间尺寸相同的编码器层和解码器层之间加入跳跃连接,加强特征表示;将双重注意力机制加入到编码器-解码器主干网络;此双重注意力机制包括空间注意力模块和通道注意力模块,其中空间注意力模块用于捕获深度图局部特征的非局部相关性,通道注意力模块用于考虑通道维度上的特征相关性,两个注意力模块合并称为双重注意力机制;按通道注意力机制、空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端;编码器-解码器主干网络的输入为左视点图片,输出为左右双视点图片的深度图,利用扭转函数通过深度图和原彩色图得到合成的左右双视点彩色图,构建深度感知损失函数;
3)判别器网络的搭建:
将步骤2)搭建的编码器-解码器主干网络视作生成器网络,则在生成器末端加入一个判别器网络,判别器网络具有5个3×3的卷积层,下采样率为2,每次卷积后都进行批标准化操作;判别器网络的输入为步骤2)中得到的合成左右双视点彩色图,利用对抗损失函数区分它们和真实的原彩色图,生成器网络学习合成图和真视图之间的特征映射;
4)基于步骤(2)、步骤(3)得到的卷积神经网络进行联合训练,监督方式采用构建的损失函数逐步迭代优化网络参数;当训练完毕,利用训练好的模型在测试集上进行测试,得到相应输入图片的输出结果。


2.如权利要求1所述的基于卷积神经网络的立体视觉无监督深度估计方法,其特征在于,双重注意力机制的构建,具体包括以下步骤:
2-1)编码器网络得到的特征图作为双重注意力机制的输入,其中H、W、C分别代表高度、宽度、通道数,双重注意力机制将A变形为其中N=H×W,然后对B和B的转置矩阵做乘法运算,结果经过softmax激活函数得到通道注意力图即S1=softmax(BTB);对S1和B做矩阵乘法并变形为最后将原特征图A与U逐像素地加和得到经过通道注意力机制的输出Aa;
将Aa作为空...

【专利技术属性】
技术研发人员:叶昕辰吕佳龙徐睿樊鑫
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1