当前位置: 首页 > 专利查询>浙江大学专利>正文

一种由单张图像生成立体视觉图像的方法技术

技术编号:20120075 阅读:148 留言:0更新日期:2019-01-16 12:28
本发明专利技术公开了一种由单张图像生成立体视觉图像的方法,属于立体视觉领域,包括以下步骤:(1)深度估计模型训练;(2)对单张彩色图像,估计其深度信息;(3)通过交互和模型参数微调修正估计深度中错误的部分;(4)对估计的深度图进行前景保护,对齐深度边缘和彩色图像边缘;(5)根据图像和深度信息,计算视差,得到新视角下图像;(6)根据数据集中的深度图,生成与新视角下图像相似的空洞区域;(7)用新生成的数据训练用于图像修补的生成对抗网络模型;(8)针对测试图片,对修补模型进行参数微调;(9)修补新视角下图像的空洞部分,得到立体视觉图像。本发明专利技术具有输入图像易获取、操作灵活、方便调节、生成图像立体感明显等特点。

A Method of Generating Stereo Vision Image from Single Image

The invention discloses a method for generating stereo vision images from a single image, which belongs to the field of stereovision, including the following steps: (1) depth estimation model training; (2) estimating the depth information of a single color image; (3) correcting the wrong part of estimation depth through interaction and fine-tuning of model parameters; (4) foreground protection of the estimated depth map, alignment of depth edges and colors. Color image edge; (5) Calculate parallax according to image and depth information, and get new view image; (6) Generate void areas similar to new view image according to depth map in data set; (7) Generate confrontation network model for image patching with newly generated data training; (8) Fine tune parameters of patching model for test picture; (9) Patch image under new view. Hollow part, get stereo vision image. The invention has the advantages of easy acquisition of input image, flexible operation, convenient adjustment, and obvious stereoscopic image generation.

【技术实现步骤摘要】
一种由单张图像生成立体视觉图像的方法
本专利技术涉及立体视觉领域,尤其是一种由单张图像生成立体视觉图像的方法。
技术介绍
立体视觉是一种模拟人类眼睛双目视觉效果的技术。该技术通过展示两张具有视差的图像来模拟深度立体感,且广泛应用于三维显示系统,如虚拟现实眼镜和裸眼3D展示等。由单张图像生成双目立体视觉图像的方法主要分为两类,一类是根据图像的深度信息计算另一视角下的图像,另一类则是直接根据当前视角图像生成另一视角下的图像。第一类方法中深度图像的获取是其中至关重要的一部分。直接获取深度图像需要专业仪器,深度估计则泛用性更高。早期的深度估计方法常常假设场景是平面或圆柱,或通过数据驱动的方法处理部分特定的物体和场景,这类方法在应用场景上具有非常大的局限性。近几年的研究集中在使用卷积神经网络估计单张图像的深度信息,通过模型结构的调整,损失函数的改进或与条件随机场的结合等方法来改善深度估计的准确率,该类方法也只能处理与训练数据相似的图像。根据深度图可以计算视差得到另一视角下的图像,而图像中的空洞需要进行填补。这类方法通常有沿等照度线的方向进行空洞的插值,通过patch-based方法填补空洞,直接通过卷积神经网络预测缺失的部分,使用生成对抗网络进行修补等。目前尚未看到针对立体视觉图像的修补方法。第二类方法目前主要给出一个视角的图像,通过训练卷积神经网络直接生成新视角下的图像。这一方法需要大量双目图像数据来进行训练,也同样存在应用场景的局限。
技术实现思路
针对上述不足,本专利技术提供一种由单张图像生成立体视觉图像的方法,该方法只需要输入一张彩色图像,即可以生成不同视角下的新的图像,从而用于虚拟现实眼镜、裸眼3D展示等,帮助用户理解三维场景,解决了从单张图像难以构建立体视觉的问题。为了实现上述目的,本专利技术的技术方案是:一种由单张图像生成立体视觉图像的方法,主要包括以下步骤:(1)使用RGBD图像数据集进行深度估计模型的训练;(2)对于输入的单张彩色图像,估计其深度信息;(3)通过交互和模型参数微调修正估计深度中错误的部分;(4)对估计的深度图进行前景保护操作,从而更好地对齐深度边缘和彩色图像边缘;(5)根据图像和深度信息,计算视差,得到新视角下的图像;(6)根据数据集中的深度图,生成与新视角下图像相似的空洞区域;(7)用新生成的数据训练用于图像修补的生成对抗网络模型;(8)针对测试图片,对修补模型进行参数微调;(9)修补新视角下图像的空洞部分,得到生成的立体视觉图像。进一步的,所述步骤(1)包含以下步骤:(1.1)进行数据处理,对数据集进行等间隔采样,并进行随机裁剪,水平翻转,颜色抖动的数据增强,并根据深度图采样点来衡量相对深度;(1.2)模型结构为encoder-decoder结构,通过三个卷积层从彩色图像获得三种不同尺度的特征作为模型的sideinput,用以恢复细节信息;(1.3)模型损失函数由L1loss,L2loss和rankloss组成;(1.4)使用随机梯度下降法进行优化,并调节学习率、batchsize、weightdecay的超参数,参数设置完毕后开始训练。进一步的,所述步骤(3)包含以下步骤:(3.1)对于估计深度图中的错误区域,在图像上拾取与待修正区域目标颜色灰度值最相近的颜色,并在错误区域上进行涂抹,得到交互图像;(3.2)对输入图像进行随机裁剪,随机翻转和颜色抖动的数据增强;(3.3)步骤(3.1)中的数据作为真实深度,步骤(3.2)中的数据作为输入图像,对步骤(1)的模型进行进一步的微调训练;(3.4)用步骤(3.3)中微调后的模型重新预测输入图像的深度,生成修正之后的深度预测结果。进一步的,所述步骤(6)包含以下步骤:(6.1)初始化一张与图像同样大小且全部值为0的掩码矩阵,按行对图像中的像素进行扫描,如某个像素与相邻像素之差大于设定阈值,则将掩码矩阵中对应位置设为1;(6.2)对于掩码矩阵中值为1的像素,计算其与相邻像素的视差之差,并将图像中从像素点到像素点之前的所有像素点设为0,掩码矩阵对应位置设为1;(6.3)掩码矩阵中值为0的像素即为空洞区域。进一步的,所述步骤(7)使用Adadelta算法训练图像填补模型。进一步的,所述步骤(8)包含以下步骤:(8.1)对于数据集外图像,使用步骤(6)的方法生成空洞区域和掩码矩阵;(8.2)对输入图像进行随机裁剪,随机翻转和颜色抖动的数据增强;(8.3)用步骤(8.2)中的数据作为输入图像,无空洞数据作为真实图像,对步骤(7)的模型进行进一步微调训练。本专利技术的有益效果是:只需要单张彩色图像即能生成一定范围内视角下的图像;通过对估计的深度图进行编辑,可以修正预测错误的区域;通过模型参数微调,对于数据集外的图像也能够有较好的表现,生成的立体图像能够感受到较为明显的立体效果,从而帮助用户更好地理解三维场景。附图说明图1是本专利技术的流程图;图2是深度估计模型的结构示意图;图3是深度预测结果示例图;图4a是输入彩色图像,图4b是真实深度图,图4c是模型微调前的预测结果,图4d是交互得到的结果,图4e是模型参数微调修正错误之后的预测结果;图5a-图5f是模拟生成的空洞图像示例图;图6是微调前后的结果示意图;图7是立体图像生成结果示意图。具体实施方式下面结合附图对本专利技术作进一步说明:如图1所示,一种由单张图像生成立体视觉图像的方法,主要包括以下步骤:使用RGBD图像数据集进行深度估计模型的训练;对于输入的单张彩色图像,估计其深度信息;通过交互和模型参数微调修正估计深度中错误的部分;对估计的深度图进行前景保护操作,从而更好地对齐深度边缘和彩色图像边缘;根据图像和深度信息,计算视差,得到新视角下的图像;根据数据集中的深度图,生成与新视角下图像相似的空洞区域;用新生成的数据训练用于图像修补的生成对抗网络模型;针对测试图片,对修补模型进行参数微调;修补新视角下图像的空洞部分,从而生成最终的立体视觉图像。下面对每个步骤做详细的说明:(1)使用RGBD图像数据集进行深度估计模型的训练:该步骤提出了一种深度估计模型,以ResNet50为基础,构建了一种encoder-decoder结构,模型的输入为彩色图像,输出为单通道深度图。为了补充预测深度图中的细节信息,该模型构建了side-input结构,从输入的彩色图像中分三次加入三种不同尺度的特征。另外,还结合了side-output结构来帮助优化。模型的损失函数结合了L1Loss,L2Loss和rankloss,其中rankloss可帮助获得非局部的信息。具体步骤如下:模型结构设计:本专利技术以(KaimingHe,XiangyuZhang,ShaoqingRen,andJianSun.2016.DeepResidualLearningforImageRecognition.InCVPR.IEEEComputerSociety,770–778.)中提出的ResNet50模型为基础,构建了一种encoder-decoder结构,如图2所示。为了恢复预测深度图中的细节信息,本专利技术构建了side-input结构,即从输入的彩色图像中通过一个新的卷积层提取特征,并与decoder部分的特征图连接到一起,作为下一个卷积层的输入。整个模型本文档来自技高网...

【技术保护点】
1.一种由单张图像生成立体视觉图像的方法,其特征是:主要包括以下步骤:(1)使用RGBD图像数据集进行深度估计模型的训练;(2)对于输入的单张彩色图像,估计其深度信息;(3)通过交互和模型参数微调修正估计深度中错误的部分;(4)对估计的深度图进行前景保护操作,从而更好地对齐深度边缘和彩色图像边缘;(5)根据图像和深度信息,计算视差,得到新视角下的图像;(6)根据数据集中的深度图,生成与新视角下图像相似的空洞区域;(7)用新生成的数据训练用于图像修补的生成对抗网络模型;(8)针对测试图片,对修补模型进行参数微调;(9)修补新视角下图像的空洞部分,得到生成的立体视觉图像。

【技术特征摘要】
1.一种由单张图像生成立体视觉图像的方法,其特征是:主要包括以下步骤:(1)使用RGBD图像数据集进行深度估计模型的训练;(2)对于输入的单张彩色图像,估计其深度信息;(3)通过交互和模型参数微调修正估计深度中错误的部分;(4)对估计的深度图进行前景保护操作,从而更好地对齐深度边缘和彩色图像边缘;(5)根据图像和深度信息,计算视差,得到新视角下的图像;(6)根据数据集中的深度图,生成与新视角下图像相似的空洞区域;(7)用新生成的数据训练用于图像修补的生成对抗网络模型;(8)针对测试图片,对修补模型进行参数微调;(9)修补新视角下图像的空洞部分,得到生成的立体视觉图像。2.根据权利要求1所述的由单张图像生成立体视觉图像的方法,其特征是:所述步骤(1)包含以下步骤:(1.1)进行数据处理,对数据集进行等间隔采样,并进行随机裁剪,水平翻转,颜色抖动的数据增强,并根据深度图采样点来衡量相对深度;(1.2)模型结构为encoder-decoder结构,通过三个卷积层从彩色图像获得三种不同尺度的特征作为模型的sideinput,用以恢复细节信息;(1.3)模型损失函数由L1loss,L2loss和rankloss组成;(1.4)使用随机梯度下降法进行优化,并调节学习率、batchsize、weightdecay的超参数,参数设置完毕后开始训练。3.根据权利要求2所述的由单张图像生成立体视觉图像的方法,其特征是:所述步骤(3)包含以下步骤:(3.1)对于估计深度图中的错...

【专利技术属性】
技术研发人员:许威威张荣于金辉黄翔鲍虎军
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1