基于深度学习的2D全景图像转3D全景图像的方法技术

技术编号:19102606 阅读:37 留言:0更新日期:2018-10-03 04:03
一种基于深度学习的2D全景图像转3D全景图像的方法,包括如下步骤:从2D全景图中提取2D子图片;训练深度学习网络;将2D子图片输入所述网络并分别预测得到左视角图、右视角图的3D子图片;合成为左视角图、右视角图的全景图;合成3D的双目全景图片。本发明专利技术可以快速简便地将2D全景内容转化为3D全景内容,大幅度降低了运算量,节约了大量的人力成本。

【技术实现步骤摘要】
基于深度学习的2D全景图像转3D全景图像的方法
本专利技术涉及计算机图形学和计算机视觉领域,具体指一种基于深度学习的2D全景图像转3D全景图像的方法,进而可以用来将现有的2D全景视频转化为3D全景视频。
技术介绍
目前随着虚拟现实技术的发展,人们对于高质量的全景内容的需求越来越强烈,包括全景漫游,全景视频等;以提供真实而又身临其境般的虚拟现实体验。这些内容也可以应用到很多领域,像广告、电影、赛事直播,还有娱乐行业音乐剧的全景拍摄录制等。但是到现在为止,市场上大部分的全景内容都是单目的,也就是2D的;而单目全景视频的拍摄技术可以追溯到1995年时候苹果的QuicktimeVR视频格式。直到现在,制作单目全景视频的过程还是大同小异的,它们由一圈相机拍摄拼接得到。市场上仅有的一些3D的全景内容则需要非常笨重且昂贵的设备来拍摄制作,像HypeVR和NextVR公司用多对立体相机来拍摄制作3D全景内容,其中HypeVR公司还额外使用了激光扫描仪来获得深度信息。最近Facebook公司使用一组特定的相机面向外围成一圈来获得光场,然后利用光场信息做处理合成3D全景内容,这些系统都十分昂贵。现有普遍的透视图像2D-3D转换大致可以分为两类,基于深度变形和基于学习的方法。其中基于深度变形方法着重于通过探索各种特性,如散焦、散射和室内几何场景,并以此来恢复单一图像的深度。而基于学习的方法试图使用机器学习来推断从一个单一2D图像映射到其相应的深度图。然而,基于学习的合成新视图往往由于高频特征的丢失而变得过于模糊,而基于深度的技术由于不精确的几何近似会产生强烈的噪声。从上可以看出,制作2D全景内容的技术比较成熟,而且制作过程简便,制作成本不高,而制作3D全景内容则相反。因此一种能把2D全景内容简便地转化为3D全景内容,且维持内容高质量的技术显得格外重要。作为相关技术方案,CN201610377597.0号中国专利申请提供了一种基于深度学习的2D图像转3D图像的方法及系统:获取2D单视差图像的像素单元信息;根据所述像素单元信息获取所述2D单视差图像的一元信息;获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系;训练多尺度深度全卷积神经网络;预测所述2D单视差图像的单元像素块深度图;输入着色器获取所述2D单视差图像对应的3D图像。该方案同样利用了深度学习,避免了现有的人工由2D单视差图像生成深度图像结果不准确、成本高的缺陷,实现了自动将2D图像转换为3D图像。
技术实现思路
本专利技术为解决能将2D全景内容转化为3D全景内容的问题,旨在提供一种基于深度学习的2D全景图像转3D全景图像的方法,基于深度学习网络,并结合全景内容特有的几何信息,来完成2D全景内容到3D全景内容的转化。为了达到上述目的,本专利技术采用的技术方案包括如下步骤:步骤一,从2D全景图中提取2D子图片;步骤二,训练深度学习网络,即分别训练一个左边的子图片到右边的子图片和一个右边的子图片到左边的子图片的网络;步骤三,将2D子图片输入所述网络并分别预测得到左视角图、右视角图的3D子图片;步骤四,分别将左视角图、右视角图的3D子图片合成为左视角图、右视角图的全景图;最终合成两者得到3D的双目全景图片。其步骤一中,将2D全景图片投影到球体上,设有视场角的虚拟相机置于球体球心,然后依次在纵向、横向上以固定角度旋转,得到一系列2D子图片。其步骤二中,所述深度学习网络由视图流、深度流组成,其中视图流基于输入的左视角图或右视角图来推断视差的显著低水平特征,深度流则以深度作为输入从而直接估计视差;最终融合所述两个流。其所述视图流中,网络图像预先训练的VGG16模型作为主要分支层,用VGG16权重来初始化这些分支层,并用其余具有正态分布且标准偏差为0.01的权重来集成来自显著低水平特征的信息;并用卷积层获得的视差预测。其中,采用反褶积层采集预测视差图,而反褶积层的输出尺寸与最终预测尺寸相匹配。其中,顶部VGG16卷积层的特征和两个全连接层相连,然后将线性层的输出馈送到一个反褶积层。其中,所述深度流中估计视差,先从深度z计算视差图d:基线b为两个水平摄像机之间的距离,f是焦距;基于输入视图I,计算新视图N:N=wodo+wtdt|+I(2),do为(1)中从输出的深度z计算得到的视差图,dt为深度学习网络的中间输出,wo、wt为两个视差图的权重;由于(2)不可微,则有微分方程:N=(WoDo+WtDt)*I(3),Do、Dt分别是视差do、dt的概率分布,Wt分别表示两个分布的权重;最后,用训练目标函数来将Ol,r和r输出值和地面真值数据G之间的L1损耗最小化:E=|O(l,r)-G|(4)。其中,用三个卷积层来进行(1)的近似计算。其中,每个卷积层的卷积核大小为3*3,填充大小(1,1)和步长(1,1)。其中,融合两个流的过程中,使用一个卷积层来加权这些预测的视差图,然后用反褶积层对加权后视差图向上采样来匹配其尺寸大小,得到最终的特征显示;最后将特征显示的内容馈送至选择层,来恢复新的右视角图和/或左视角图。其中,合成3D的全景图片中,将子图片作为中心视图,并用训练好的网络合成左视角图、右视角图的子图片,然后分别将其合成到左视角图、右视角图的全景图中。其中,通过在全景图上密集、等距地采样中心视图,进而得到一个合成的左子视图和右子视图序列,然后收集所有左、右子视图的中心列来形成左视角图、右视角图的全景图。和现有技术相比,本专利技术可以快速简便地将2D全景内容转化为3D全景内容,大幅度降低了运算量,节约了大量的人力成本;对于设备的要求较低,可以降低同等条件下的设备成本;并且相对于Deep3D,具有更高的质量,可以恢复更多的细节和真实度。附图说明图1为本专利技术实施例的流程说明图;图2a为本专利技术实施例选用的2D全景图;图2b为将2D全景图投影到球形坐标的示意图;图2c为提取2D子图片的示意图;图3为深度学习网络的结构示意图;图4a为立体全景合成的原理说明图;图4b为立体全景合成的原理说明图;图4c为左、右全景图以条显示的示意图。具体实施方式现结合附图对本专利技术作进一步地说明。参见图1,图1展示的是本专利技术的流程说明图,本实施例中基于深度学习技术来实现高质量的三维全景合成,一般全景图像包含丰富的几何线索,适合用于立体视图合成。本实施例中首先将输入的二维全景图片划分成若干个2D子视图,并获得这些2D子视图的透视图;深度学习网络由两个流组成:视图流用来估计立体对的差异,并且深度流用来约束来自视图流的中间视差。参见图2a,图2a中为一副2D全景图,其覆盖了水平方向360°和垂直方向180°的二维全景。为了提取2D子图片,参见图2b,将原始的2D全景图投影为球形坐标;所述“投影”的含义为把全景图上的每个像素点投射到球体上所对应的点,其效果是在这个操作中,如果从球心向外看,全景图中的曲线则变成了直线,扭曲的物体也变成了正常符合人体视觉效果物体。然后,合成一个虚拟相机,其位置在上述球体的中心;且虚拟相机设置有视场角(本实施例中横向和纵向所选取的视场角都是90度,而该角度可以根据需要设置,并非对本专利的限定);参见图2c,最后依次在纵向和横向上逆时针方向每60度旋转一次(角度亦可灵活选取)旋转本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的2D全景图像转3D全景图像的方法,其特征在于包括如下步骤:步骤一,从2D全景图中提取2D子图片;步骤二,训练深度学习网络,即分别训练一个左边的子图片到右边的子图片和一个右边的子图片到左边的子图片的网络;步骤三,将2D子图片输入所述网络并分别预测得到左视角图、右视角图的3D子图片;步骤四,分别将左视角图、右视角图的3D子图片合成为左视角图、右视角图的全景图;最终合成两者得到3D的双目全景图片。

【技术特征摘要】
1.一种基于深度学习的2D全景图像转3D全景图像的方法,其特征在于包括如下步骤:步骤一,从2D全景图中提取2D子图片;步骤二,训练深度学习网络,即分别训练一个左边的子图片到右边的子图片和一个右边的子图片到左边的子图片的网络;步骤三,将2D子图片输入所述网络并分别预测得到左视角图、右视角图的3D子图片;步骤四,分别将左视角图、右视角图的3D子图片合成为左视角图、右视角图的全景图;最终合成两者得到3D的双目全景图片。2.根据权利要求1所述的一种基于深度学习的2D全景图像转3D全景图像的方法,其特征在于:步骤一中,将2D全景图片投影到球体上,设有视场角的虚拟相机置于球体球心,然后依次在纵向、横向上以固定角度旋转,得到一系列2D子图片。3.根据权利要求1所述的一种基于深度学习的2D全景图像转3D全景图像的方法,其特征在于:步骤二中,所述深度学习网络由视图流、深度流组成,其中视图流基于输入的左视角图或右视角图来推断视差的显著低水平特征,深度流则以深度作为输入从而直接估计视差;最终融合所述两个流。4.根据权利要求3所述的一种基于深度学习的2D全景图像转3D全景图像的方法,其特征在于:所述视图流中,网络图像预先训练的VGG16模型作为主要分支层,用VGG16权重来初始化这些分支层,并用其余具有正态分布且标准偏差为0.01的权重来集成来自显著低水平特征的信息;并用卷积层获得的视差预测。5.根据权利要求4所述的一种基于深度学习的2D全景图像转3D全景图像的方法,其特征在于:采用反褶积层采集预测视差图,而反褶积层的输出尺寸与最终预测尺寸相匹配。6.根据权利要求5所述的一种基于深度学习的2D全景图像转3D全景图像的方法,其特征在于:顶部VGG16卷积层的特征和两个全连接层相连,然后将线性层的输出馈送到一个反褶积层。7.根据权利要求3所述的一种基于深度学习的2D全景图像转3D全...

【专利技术属性】
技术研发人员:虞晶怡杨洋
申请(专利权)人:叠境数字科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1