一种基于卷积神经网络的立体视觉无监督深度估计方法技术

技术编号：25838818 阅读：26 留言：0更新日期：2020-10-02 14:18

本发明专利技术公开了一种基于卷积神经网络的立体视觉无监督深度估计方法，属于图像处理和计算机视觉领域。本发明专利技术旨在克服现有技术的不足，提供了一种新的无监督深度估计方法，设计了一个基于卷积神经网络进行高质量深度估计的框架，该框架包括立体视觉编码器‑解码器主干网络和判别器网络，并引入双重注意力机制有效获取特征，构建深度感知损失函数训练框架，以获得高质量的深度信息。系统容易构建；程序框架易于实现，算法运行速度快。本方法利用无监督方法来估计深度信息，避免了有监督方法中真实数据难以获取的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的立体视觉无监督深度估计方法
本专利技术属于图像处理和计算机视觉领域，具体涉及一种基于卷积神经网络的立体视觉无监督深度估计方法。
技术介绍
深度估计在计算机视觉领域已经成为了一项重要课题，是大量实际应用中的基础问题，例如，增强现实，物体检测等应用。随着深度学习的快速发展，许多方法已经利用卷积神经网络来估计深度图。到目前为止，使用深度卷积神经网络进行深度估计的方法主要分为两类情况：有监督方法和无监督方法。尽管有监督学习方法在深度预测方面已经取得了不错的成果，但是这些方法往往需要大量的真实深度数据，这些数据难以被深度感知设备获取。与之相对，无监督方法不需要任何深度数据，并在训练中利用立体视觉数据及对极几何约束关系，将深度估计问题转化为图像重建问题来训练网络，指导网络参数更新。基于上述，本专利技术设计了一个基于卷积神经网络的无监督学习框架，以立体视觉(双视点)数据为训练数据，完成高质量场景深度图的预测。
技术实现思路
本专利技术旨在克服现有技术的不足，提供了一种新的无监督深度估计方法，设计了一个基于卷积神经网络进行高质量深度估计的框架，该框架包括立体视觉编码器-解码器主干网络和判别器网络，并于编码器-解码器主干网络中引入双重注意力机制有效获取特征。构建深度感知损失函数训练框架，以获得高质量的深度信息。本专利技术采用卷积神经网络对深度估计任务进行建模，在不需要任何真实深度数据作为监督的情况下，利用立体视觉图像作为输入，采用无监督的形式即可得到高质量深度图，本专利技术的具体技术方...

【技术保护点】
1.一种基于卷积神经网络的立体视觉无监督深度估计方法，其特征在于，所述方法包括下列步骤；/n1)准备初始数据：初始数据包括用来训练的校正双视点图片对，以及用来测试的左视点图片；/n2)编码器-解码器主干网络的搭建：/n对编码器-解码器主干网络进行训练，对空间尺寸相同的编码器层和解码器层之间加入跳跃连接，加强特征表示；将双重注意力机制加入到编码器-解码器主干网络；此双重注意力机制包括空间注意力模块和通道注意力模块，其中空间注意力模块用于捕获深度图局部特征的非局部相关性，通道注意力模块用于考虑通道维度上的特征相关性，两个注意力模块合并称为双重注意力机制；按通道注意力机制、空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端；编码器-解码器主干网络的输入为左视点图片，输出为左右双视点图片的深度图，利用扭转函数通过深度图和原彩色图得到合成的左右双视点彩色图，构建深度感知损失函数；/n3)判别器网络的搭建：/n将步骤2)搭建的编码器-解码器主干网络视作生成器网络，则在生成器末端加入一个判别器网络，判别器网络具有5个3×3的卷积层，下采样率为2，每次卷积后都进行批标准化操作；判别器网络的输入...

【技术特征摘要】
1.一种基于卷积神经网络的立体视觉无监督深度估计方法，其特征在于，所述方法包括下列步骤；
1)准备初始数据：初始数据包括用来训练的校正双视点图片对，以及用来测试的左视点图片；
2)编码器-解码器主干网络的搭建：
对编码器-解码器主干网络进行训练，对空间尺寸相同的编码器层和解码器层之间加入跳跃连接，加强特征表示；将双重注意力机制加入到编码器-解码器主干网络；此双重注意力机制包括空间注意力模块和通道注意力模块，其中空间注意力模块用于捕获深度图局部特征的非局部相关性，通道注意力模块用于考虑通道维度上的特征相关性，两个注意力模块合并称为双重注意力机制；按通道注意力机制、空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端；编码器-解码器主干网络的输入为左视点图片，输出为左右双视点图片的深度图，利用扭转函数通过深度图和原彩色图得到合成的左右双视点彩色图，构建深度感知损失函数；
3)判别器网络的搭建：
将步骤2)搭建的编码器-解码器主干网络视作生成器网络，则在生成器末端加入一个判别器网络，判别器网络具有5个3×3的卷积层，下采样率为2，每次卷积后都进行批标准化操作；判别器网络的输入为步骤2)中得到的合成左右双视点彩色图，利用对抗损失函数区分它们和真实的原彩色图，生成器网络学习合成图和真视图之间的特征映射；
4)基于步骤(2)、步骤(3)得到的卷积神经网络进行联合训练，监督方式采用构建的损失函数逐步迭代优化网络参数；当训练完毕，利用训练好的模型在测试集上进行测试，得到相应输入图片的输出结果。

2.如权利要求1所述的基于卷积神经网络的立体视觉无监督深度估计方法，其特征在于，双重注意力机制的构建，具体包括以下步骤：
2-1)编码器网络得到的特征图作为双重注意力机制的输入，其中H、W、C分别代表高度、宽度、通道数，双重注意力机制将A变形为其中N＝H×W，然后对B和B的转置矩阵做乘法运算，结果经过softmax激活函数得到通道注意力图即S1＝softmax(BTB)；对S1和B做矩阵乘法并变形为最后将原特征图A与U逐像素地加和得到经过通道注意力机制的输出Aa；
将Aa作为空...

【专利技术属性】
技术研发人员：叶昕辰，吕佳龙，徐睿，樊鑫，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人