一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法技术

技术编号:19482213 阅读:49 留言:0更新日期:2018-11-17 10:47
本发明专利技术提供了一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法,所述方法包括:将场景的图像和图像中的若干个像素之深度输入到经训练得到的生成式神经网络,得到所述场景的深度图像;所述像素之深度是指该图像中的像素所对应的场景中的点到观测者之间的距离,所述深度图像指一副图像中每个像素之深度的总体。本发明专利技术利用场景中的图像和该图像中对应的少量的像素之深度作为输入,通过双一致性约束的生成式对抗网络来预测或估计场景的深度图像,简单有效、成本低。

【技术实现步骤摘要】
一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法
本专利技术属于计算机图像处理领域,涉及一种从单幅图像中估计场景几何信息的方法,特别涉及一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法。
技术介绍
深度信息预测和估计,在工程应用领域中非常重要,例如,机器人、自动驾驶、增强现实(AR)和3D建模等。目前深度图像的获取方法主要有两种,分别为直接测距和间接测距。直接测距是指利用各种硬件设备直接获取深度信息。例如,TOF相机通过发射连续的近红外脉冲获取目标场景中的物体到发射器之间的距离;激光雷达通过发射激光扫描被测场景中的物体,进而获得物体表面到激光雷达之间的距离;Kinect利用光编码技术通过红外线发射机投射场景获得三维深度信息。但是,它们都有各自的局限:TOF相机通常价格高昂,易受噪声干扰;激光雷达所捕获的三维信息体现在彩色图像坐标系下是不均匀并且稀疏的,成本比较高;Kinect测量距离短,易受光线影响而产生大量噪声。间接测距是指利用同一场景的单幅或者多幅可见光图像间接进行深度估计。根据场景视点数量的不同,可分为:基于多视图的深度估计方法、基于双目图像的深度估计算法和基于单目图像的深度估计方法。基于多视图的深度估计通常对同一场景采用摄像机阵列进行图像采集,并利用多个视点图像之间的冗余信息进行深度图像的计算。基于多视图的深度估计方法能够获得与此场景对应的较为准确的深度图像,但是摄像机阵列成本高,配置麻烦,拍摄要求高,因此在实践过程中较少使用。基于双目图像的深度估计利用类似于人类双眼的两个摄像头之间的视差,通过立体匹配技术计算深度信息。基于单目图像的深度估计只利用一个视点的视频序列和图像进行深度估计。由于这些限制,利用单摄像机进行深度估计的方法一直得到强烈关注,这种相机体积小,成本低,节能,在消费电子产品中广泛存在。近年来,随着深度学习的发展,学者们开始大量地尝试运用卷积神经网络(ConvolutionalNeuralNetwork,CNN)来研究单目图像的深度估计问题.Eigen等人提出的多尺度CNN模型在处理深度估计任务时,通过粗尺度(coarse-scale)与精尺度(fine-scale)两部分网络分别考虑了图像的全局结构及局部信息。Saxena等人采用监督学习的方法,利用包含多尺度的局部和全局图像特征的马尔可夫随机场(MRF)对各个点的深度以及不同点的深度之间的关系进行了建模。CN107578436A公开了一种基于全卷积神经网络FCN的单目图像深度估计方法,包括步骤:获取训练图像数据;将训练图像数据输入全卷积神经网络FCN,池化层依次输出得到特征图像;及从最后一个池化层开始将其输出特征图像进行放大处理,获得与其前一池化层输出特征图像尺寸一致的特征图像并将二者的特征图像融合;从后向前依次对每个池化层的输出特征图像融合以获得最终预测深度图像;且训练中利用随机梯度下降法SGD对全卷积神经网络FCN中的参数训练;获取需要预测深度的RGB图像输入训练后的全卷积神经网络FCN,获得对应的预测深度图像。该专利技术采用全卷积网络的结构,去除了全连接层,有效减少了网络的参数量,虽然可以改善卷积过程中输出图像分辨率较低的问题,但是该方法需要的训练样本特别大,训练时间长。
技术实现思路
为解决上述问题,本专利技术提供了一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法,所述方法包括:将场景的图像和图像中的若干个像素之深度输入到经训练得到的生成式神经网络,得到所述场景的深度图像;所述像素之深度是指该图像中的像素所对应的场景中的点到观测者之间的距离,所述深度图像指一副图像中每个像素之深度的总体;所述生成式神经网络的训练步骤包括:步骤A:收集训练数据集:所述训练数据集包括若干样本,每个样本为一副图像和对应的深度图像;步骤B:构建生成式对抗网络架构,包括两个生成式神经网络(F和G),两个判别式神经网络(DX和DY);步骤C:将样本中的图像及其深度图像中的若干个像素之深度输入到G,得到对应的伪深度图像;将样本中的深度图像输入到F,得到对应的伪图像;所述伪图像或伪深度图像指以计算机模型生成的数据而非实际拍摄或者测量所得;步骤D:所述判别式神经网络DY对步骤C中的样本中的图像和/或伪图像进行判别,所述判别式神经网络DY对步骤C中样本中的深度图像和/或伪深度图像进行判别;步骤E:调整DX和DY以减少步骤D中的判别损失;步骤F:计算步骤C中的样本中的深度图像和G生成的伪深度图像之间的差异损失,计算样本中的图像和F生成的伪图像之间的差异损失;步骤G:调整G和F以减少步骤F中的差异损失,以增加步骤D中对伪图像和伪深度图像的判别损失;步骤H:返回步骤C进行迭代,直至满足预设的迭代条件,保存此时的生成式神经网络G为最终生成式神经网络。在专利技术的一个实施例中,所述步骤C具体为:将样本中的图像及其深度图像的若干个像素之深度输入到G,得到对应的伪深度图像,然后将所述伪深度图像输入到F,得到伪还原图像;将样本中的深度图像输入到F,得到对应的伪图像,然后再将所述伪图像和样本中的深度图像中的若干个像素之深度输入到G,得到伪还原深度图像;所述伪还原图像或伪还原深度图像指计算机模型生成的数据,且该计算机模型的输入数据为另一计算机模型生成的数据。在专利技术的一个实施例中,所述步骤F还包括:计算样本中的深度图像和伪还原深度图像之间的差异损失,和计算样本中的图像和伪还原图像之间的差异损失。在专利技术的一个实施例中,述生成式对抗网络基于如下贝叶斯概率模型利用数据进行推理:其中,X为样本中的图像,Y为样本中的深度图像,为样本中深度图像的若干个像素之深度,Ys为所述若干个像素的伪像素之深度,G为从图像生成深度图像的生成式神经网络,F为从深度图像生成图像的生成式神经网络,DX为用于判别图像的真伪的判别式神经网络,DY为用于判别深度图像真伪的判别式神经网络,输出深度图像为真的概率,为由生成式神经网络G生成的伪深度图像,为由生成式神经网络F生成的伪还原图像。在本专利技术的一个实施例中,所述生成式神经网络G和F损失函数为:LG=LGAN+λ1LREC+λ2LSSC:LGAN=EY[logD(Y)]+EX[log(1-Dy(G(X)))],LREC(X,G,F)=EX[||X-F(G(X))||1]+EY[||Y-G(F(Y))||1],其中E为期望,X为样本中的图像,Y为样本中的深度图像,为样本中深度图像的若干个像素之深度,为所述若干个像素的伪像素之深度,LG为生成式神经网络G和F的损失函数,LGAN为对抗网络的损失函数,LREC为还原的损失函数,LSSC为样本中深度图像的若干个像素之深度与生成式神经网络G生成的伪深度图像中对应像素之间的损失函数,λ1为LREC的权重系数,λ2为LSSC的权重系数。优选的,所述λ1、λ2的取值为0-10。进一步的,所述判别式神经网络DX和DY的损失函数为其中E为期望,X为样本中的图像,Y为样本中的深度图像,为样本中深度图像的若干个像素之深度,为判别式神经网络DX的判别损失函数,为判别式神经网络DY的判别损失函数。进一步的,所述生成式神经网络G和F为全卷积神经网络,所述全卷积神经网络包括卷积层、残差网络层、反卷积层。优选的,所述残差网络层的层数本文档来自技高网
...

【技术保护点】
1.一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法,其特征在于,所述方法包括:将场景的图像和图像中的若干个像素之深度输入到经训练得到的生成式神经网络,得到所述场景的深度图像;所述像素之深度是指该图像中的像素所对应的场景中的点到观测者之间的距离,所述深度图像指一副图像中每个像素之深度的总体。

【技术特征摘要】
1.一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法,其特征在于,所述方法包括:将场景的图像和图像中的若干个像素之深度输入到经训练得到的生成式神经网络,得到所述场景的深度图像;所述像素之深度是指该图像中的像素所对应的场景中的点到观测者之间的距离,所述深度图像指一副图像中每个像素之深度的总体。2.根据权利要求1所述的使用生成式对抗网络从单幅图像中估计场景几何信息的方法,其特征在于,所述生成式神经网络的训练步骤包括:步骤A:收集训练数据集:所述训练数据集包括若干样本,每个样本为一副图像和对应的深度图像;步骤B:构建生成式对抗网络架构,包括两个生成式神经网络:F和G,两个判别式神经网络:DX和DY;步骤C:将样本中的图像及其深度图像中的若干个像素之深度输入到G,得到对应的伪深度图像;将样本中的深度图像输入到F,得到对应的伪图像;所述伪图像或伪深度图像指以计算机模型生成的数据而非实际拍摄或者测量所得;步骤D:所述判别式神经网络DX对步骤C中的样本中的图像和/或伪图像进行判别,所述判别式神经网络DY对步骤C中样本中的深度图像和/或伪深度图像进行判别;步骤E:调整DX和DY以减少步骤D中的判别损失;步骤F:计算步骤C中的样本中的深度图像和G生成的伪深度图像之间的差异损失,计算样本中的图像和F生成的伪图像之间的差异损失;步骤G:调整G和F以减少步骤F中的差异损失,以增加步骤D中对伪图像和伪深度图像的判别损失;步骤H:返回步骤C进行迭代,直至满足预设的迭代条件,保存此时的生成式神经网络G为最终生成式神经网络。3.根据权利要求2所述的使用生成式对抗网络从单幅图像中估计场景几何信息的方法,其特征在于,所述步骤C具体为:将样本中的图像及其深度图像的若干个像素之深度输入到G,得到对应的伪深度图像,然后将所述伪深度图像输入到F,得到伪还原图像;将样本中的深度图像输入到F,得到对应的伪图像,然后再将所述伪图像和样本中的深度图像中的若干个像素之深度输入到G,得到伪还...

【专利技术属性】
技术研发人员:李俊黄韬张露娟马震远
申请(专利权)人:广州启辰电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1