一种由单张图像生成立体视觉图像的方法技术

技术编号：20120075 阅读：148 留言：0更新日期：2019-01-16 12:28

本发明专利技术公开了一种由单张图像生成立体视觉图像的方法，属于立体视觉领域，包括以下步骤：(1)深度估计模型训练；(2)对单张彩色图像，估计其深度信息；(3)通过交互和模型参数微调修正估计深度中错误的部分；(4)对估计的深度图进行前景保护，对齐深度边缘和彩色图像边缘；(5)根据图像和深度信息，计算视差，得到新视角下图像；(6)根据数据集中的深度图，生成与新视角下图像相似的空洞区域；(7)用新生成的数据训练用于图像修补的生成对抗网络模型；(8)针对测试图片，对修补模型进行参数微调；(9)修补新视角下图像的空洞部分，得到立体视觉图像。本发明专利技术具有输入图像易获取、操作灵活、方便调节、生成图像立体感明显等特点。

A Method of Generating Stereo Vision Image from Single Image

The invention discloses a method for generating stereo vision images from a single image, which belongs to the field of stereovision, including the following steps: (1) depth estimation model training; (2) estimating the depth information of a single color image; (3) correcting the wrong part of estimation depth through interaction and fine-tuning of model parameters; (4) foreground protection of the estimated depth map, alignment of depth edges and colors. Color image edge; (5) Calculate parallax according to image and depth information, and get new view image; (6) Generate void areas similar to new view image according to depth map in data set; (7) Generate confrontation network model for image patching with newly generated data training; (8) Fine tune parameters of patching model for test picture; (9) Patch image under new view. Hollow part, get stereo vision image. The invention has the advantages of easy acquisition of input image, flexible operation, convenient adjustment, and obvious stereoscopic image generation.

全部详细技术资料下载

【技术实现步骤摘要】
一种由单张图像生成立体视觉图像的方法
本专利技术涉及立体视觉领域，尤其是一种由单张图像生成立体视觉图像的方法。
技术介绍
立体视觉是一种模拟人类眼睛双目视觉效果的技术。该技术通过展示两张具有视差的图像来模拟深度立体感，且广泛应用于三维显示系统，如虚拟现实眼镜和裸眼3D展示等。由单张图像生成双目立体视觉图像的方法主要分为两类，一类是根据图像的深度信息计算另一视角下的图像，另一类则是直接根据当前视角图像生成另一视角下的图像。第一类方法中深度图像的获取是其中至关重要的一部分。直接获取深度图像需要专业仪器，深度估计则泛用性更高。早期的深度估计方法常常假设场景是平面或圆柱，或通过数据驱动的方法处理部分特定的物体和场景，这类方法在应用场景上具有非常大的局限性。近几年的研究集中在使用卷积神经网络估计单张图像的深度信息，通过模型结构的调整，损失函数的改进或与条件随机场的结合等方法来改善深度估计的准确率，该类方法也只能处理与训练数据相似的图像。根据深度图可以计算视差得到另一视角下的图像，而图像中的空洞需要进行填补。这类方法通常有沿等照度线的方向进行空洞的插值，通过patch-based方法填补空洞，直接通过卷积神经网络预测缺失的部分，使用生成对抗网络进行修补等。目前尚未看到针对立体视觉图像的修补方法。第二类方法目前主要给出一个视角的图像，通过训练卷积神经网络直接生成新视角下的图像。这一方法需要大量双目图像数据来进行训练，也同样存在应用场景的局限。
技术实现思路
针对上述不足，本专利技术提供一种由单张图像生成立体视觉图像的方法，该方法只需要输入一张彩色图像，即可以生成不同视角下的...

【技术保护点】
1.一种由单张图像生成立体视觉图像的方法，其特征是：主要包括以下步骤：(1)使用RGBD图像数据集进行深度估计模型的训练；(2)对于输入的单张彩色图像，估计其深度信息；(3)通过交互和模型参数微调修正估计深度中错误的部分；(4)对估计的深度图进行前景保护操作，从而更好地对齐深度边缘和彩色图像边缘；(5)根据图像和深度信息，计算视差，得到新视角下的图像；(6)根据数据集中的深度图，生成与新视角下图像相似的空洞区域；(7)用新生成的数据训练用于图像修补的生成对抗网络模型；(8)针对测试图片，对修补模型进行参数微调；(9)修补新视角下图像的空洞部分，得到生成的立体视觉图像。

【技术特征摘要】
1.一种由单张图像生成立体视觉图像的方法，其特征是：主要包括以下步骤：(1)使用RGBD图像数据集进行深度估计模型的训练；(2)对于输入的单张彩色图像，估计其深度信息；(3)通过交互和模型参数微调修正估计深度中错误的部分；(4)对估计的深度图进行前景保护操作，从而更好地对齐深度边缘和彩色图像边缘；(5)根据图像和深度信息，计算视差，得到新视角下的图像；(6)根据数据集中的深度图，生成与新视角下图像相似的空洞区域；(7)用新生成的数据训练用于图像修补的生成对抗网络模型；(8)针对测试图片，对修补模型进行参数微调；(9)修补新视角下图像的空洞部分，得到生成的立体视觉图像。2.根据权利要求1所述的由单张图像生成立体视觉图像的方法，其特征是：所述步骤(1)包含以下步骤：(1.1)进行数据处理，对数据集进行等间隔采样，并进行随机裁剪，水平翻转，颜色抖动的数据增强，并根据深度图采样点来衡量相对深度；(1.2)模型结构为encoder-decoder结构，通过三个卷积层从彩色图像获得三种不同尺度的特征作为模型的sideinput，用以恢复细节信息；(1.3)模型损失函数由L1loss，L2loss和rankloss组成；(1.4)使用随机梯度下降法进行优化，并调节学习率、batchsize、weightdecay的超参数，参数设置完毕后开始训练。3.根据权利要求2所述的由单张图像生成立体视觉图像的方法，其特征是：所述步骤(3)包含以下步骤：(3.1)对于估计深度图中的错...

【专利技术属性】
技术研发人员：许威威，张荣，于金辉，黄翔，鲍虎军，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人