当前位置: 首页 > 专利查询>谷歌公司专利>正文

深度立体:学习从现实世界形象预测新视图制造技术

技术编号:16721935 阅读:43 留言:0更新日期:2017-12-05 18:46
使用深度网络的深度学习以从现有图像预测新视图的系统和方法可以从大规模数据生成和改进模型和表示。该深度学习的系统和方法可以采用从大量提出图像集合训练的,直接从像素执行新视图合成的深度架构。采用该类型的深度网络的系统可以基于相邻视图的像素产生未看见的视图的像素,有助于应用于图形生成。

Depth stereoscopic: learning a new view from the real world image

Deep learning using depth networks to predict new views from existing images can generate and improve models and representations from large-scale data. The deep learning system and method can be trained from a large number of image sets to perform a deep architecture synthesized directly from a new view from a pixel. The system that uses this type of depth network can generate unseen pixels based on the pixels of adjacent views, and is helpful to the application of graphics generation.

【技术实现步骤摘要】
【国外来华专利技术】深度立体:学习从现实世界形象预测新视图本申请要求于2015年5月13日提交的美国临时申请序号No.62/161,159的优先权,将其通过引用并入如同完全在此阐述的那样。
本文档总的来说关于与图像相关联的深度网络和深度学习。
技术介绍
深度网络和深度学习可以应用于根据大规模数据生成和改进模型和表示。可以考虑深度学习是机器学习的更广泛应用的一部分。深度学习可以基于例如从多级处理/计算装置积蓄的计算机视觉中的特征表示的无监督学习,这多级处理/计算装置形成从低级到高级特征的分级。这多层的组成和布置可以例如基于要解决的特定问题来开发。
技术实现思路
在一个方面中,一种方法可以包括:访问来自数据库的多个提出图像集合,该多个姿势提出图像集合分别对应于多个场景,该多个提出图像集合中的每一个包括多个场景中的相应的场景的多个视图;根据自动视图生成算法,基于从与该场景对应的提出图像集合中包括的场景的多个视图中选出的视图生成所请求的场景视图,其中,所请求的场景视图不包括在相应的提出图像集合中包括的场景的多个视图中;比较由自动视图生成算法生成的场景的视图与已知的场景视图;和基于比较更新视图生成算法。在另一方面中,一种方法可以包括:接收要呈现的场景的视图的请求;从数据库访问分别表示多个场景视图的多个存储的提出图像;从多个存储的提出图像选择多个图像,所选的多个图像表示与所请求的场景视图相邻的场景视图;在多个深度重投影所选的多个图像中的每一个的深度片段;基于在重投影的深度片段的像素,确定所请求的场景视图的深度和确定在所确定的深度的所请求的场景视图的每个像素的颜色;和生成所请求的场景视图。在另一方面中,一种方法可以包括:接收场景的视图的请求;从存储多个提出图像集合的数据库检索包括多个相应的场景的视图的多个提出图像集合中的每一个,该提出图像集合对应于所请求的场景视图;和基于从相应的提出图像集合中包括的多个场景视图选出的视图生成所请求的场景视图,所请求的视图不包括在相应的提出图像集合的多个场景视图中。在另一方面中,用于生成场景视图的系统可以包括网络。该网络可以包括包含处理器的计算装置,该计算装置与数据库通信,该数据库存储分别对应于多个场景的多个提出图像集合,该多个提出图像集合中的每一个包括多个场景中的相应的场景的多个视图,该网络包括选择塔,配置为确定所请求的输出图像中的每个输出像素的深度,所请求的输出图像对应于所请求的场景视图,和颜色塔,配置为生成所请求的输出图像的每个输出像素的颜色。该选择塔和颜色塔可以配置为从与所请求的场景视图对应的提出图像集合中包括的多个场景视图选择的视图,所请求的场景视图不包括在相应的提出图像集合的多个场景视图中。选择塔和颜色塔可以配置为生成用于由计算装置的处理器处理以生成所请求的场景视图的所请求的输出图像。在以下的附图和描述中阐述一个或多个实施方式的细节。其他特征从说明书和附图,以及从权利要求中显现。附图说明图1A和图1B图示根据在这里描述的实施方式从现有图像呈现的新视图。图2图示根据在这里描述的实施方式,从各种视图到在深度范围的新目标相机视场的各种图像的平面扫过立体重投影。图3和图4图示根据在这里描述的实施方式的包括选择塔和颜色塔的网络。图5图示根据在这里描述的实施方式,配置为学习产生每个深度平面中每个像素的选择概率的选择塔。图6图示根据在这里描述的实施方式,配置为学习跨源地组合和弯曲像素以产生在多个深度平面的特定像素的颜色的颜色塔。图7图示根据在这里描述的实施方式,由系统和方法产生的重投影图像的两个不同实例。图8图示可以用于实现在这里描述的技术的计算装置和移动计算装置的实例。具体实施方式深度网络可以应用于各种不同类型的识别和分类问题。在系统和方法中,根据在这里描述的实施方式,深度网络可以应用于例如使用深度架构的计算机视觉和图形中的识别和分类问题,该深度架构直接从大量的,比如几百万的提出图像集合学习执行新视图合成,该提出图像集合例如是具有已知特性的图像的集合,且该已知特性例如是透视和/或颜色和/或深度。例如,在根据在这里描述的实施方式的系统和方法中,可以从该相对大数目的提出图像集合训练深度网络,且然后,在操作中,该深度网络可以基于以大数目的提出图像集合进行的训练,依赖相对小数目的相关图像以生成新的预先未看见的视图。相比依赖多个复杂的处理阶段,根据在这里描述的实施方式的系统和方法可以例如通过向网络呈现场景的相邻视图的图像,例如图像的像素来训练端到端,以直接产生未看见的任意/所请求的场景视图的图像。所请求的视图例如可以是从特定透视和/或视角和/或深度的被摄体或者被摄体区域的视图。相邻图像例如可以是可从与所请求的视图相邻的提出图像集合获得的图像。例如,在某些实施方式中,可以通过呈现场景的各种视图中的输入图像的集合,请求该输入图像的集合中未包括的视图,且然后向网络呈现应该响应于请求产生的图像来训练该系统。在某些实施方式中,对于视图合成,通过移去一个图像并且将其放一边,且然后从剩余图像中再现移去的图像,提出图像的一个或多个集合可以用作一个或多个训练集。根据在这里描述的实施方式,从相对昂贵的数据库采集的相对大量的数据可以用于训练模型。该类型的数据库的实例是街道视图地图数据库,其包括跨全球大部分的提出图像的巨大汇集。虽然为了便于说明和图示在适当时在下文中可以涉及该实例,在这里讨论的原理可以应用于利用其他这种昂贵的数据汇集的其他实施方式。通过重复,充分利用大规模数据库(例如,街景地图数据库)中可用的图像/视图,系统可以连续地学习和改善其处理以产生所请求的图像。依赖提出图像集合和应用于不同领域,和基于从先前数据学习的比如颜色、深度和纹理的各种特征填充未看见的像素,该端到端方法可以允许某个级别的通用性。当生成视图插值和视图合成全向立体形象时,该方法可以减少例如由于封闭和含糊导致的人为因素的发生,且可以对于要合成的相对困难的场景产生相对高质量的结果。从多个提出图像估计三维(3D)形状可能是在生成可以呈现和编辑的场景的3D表示时的基本任务。在某些实施方式中,可以通过基于呈现的图像(IBR)的形式执行新颖的视图合成以合成场景的新视图,在该基于呈现的图像中,通过弯曲和组合来自场景的附近提出图像的图像来合成场景的新视图。该方法例如可以应用于增强现实和/或虚拟现实系统、电话会议系统、3D单眼电影系统、电影摄影术、图像稳定化及其他这类实现。除了涉及可以对每个目标像素的立体、颜色和封闭分量建模的多视图立体或者图像弯曲方法的技术之外,根据在这里描述的实施方式的系统和方法可以平衡深度网络以从提出图像中直接学习合成新视图。在该类型的新视图合成的方法中,深度网络可以用于直接回归以输出给定提出输入图像的像素颜色。该系统可以在由导致的宽的基线分开的视图之间插值,该宽的基线例如由训练的端到端性质,和深度网络学习与输入有关的极端复杂的非线性函数的能力导致。在根据在这里描述的实施方式的系统和方法中,关于正在呈现的场景的最小假定例如可以包括有限深度范围内场景的相对静止性质。即使在这些参数之外,产生的图像也可能相对常态地恶化且可能保持视觉上貌似真实。除了到新视图的合成的应用之外,利用在这里描述的深度架构的系统和方法也可以应用于给定适当的训练数据的其他立体和图本文档来自技高网...
深度立体:学习从现实世界形象预测新视图

【技术保护点】
一种方法,包括:从数据库访问多个提出图像集合,所述多个提出图像集合分别与多个场景对应,所述多个提出图像集合中的每一个包括所述多个场景的相应场景的多个视图;根据自动视图生成算法,基于从与所述场景对应的提出图像集合中包括的多个场景视图中选出的视图生成所请求的场景视图,其中,所请求的场景视图不包括在相应的提出图像集合中包括的多个场景视图中;比较由自动视图生成算法生成的场景视图与已知的场景视图;和基于所述比较更新视图生成算法。

【技术特征摘要】
【国外来华专利技术】2015.05.13 US 62/161,1591.一种方法,包括:从数据库访问多个提出图像集合,所述多个提出图像集合分别与多个场景对应,所述多个提出图像集合中的每一个包括所述多个场景的相应场景的多个视图;根据自动视图生成算法,基于从与所述场景对应的提出图像集合中包括的多个场景视图中选出的视图生成所请求的场景视图,其中,所请求的场景视图不包括在相应的提出图像集合中包括的多个场景视图中;比较由自动视图生成算法生成的场景视图与已知的场景视图;和基于所述比较更新视图生成算法。2.如权利要求1所述的方法,其中,生成所请求的场景视图包括:在多个深度重投影每一个所选的视图的深度片段;将更新的视图生成算法应用于重投影的深度片段,并匹配在相应深度的所选视图的重投影的深度片段的像素;和确定所请求视图的所请求像素的深度和在所确定的深度处所请求视图的每个像素的颜色。3.如权利要求2所述的方法,其中,在多个深度重投影每一个所选的视图的深度片段包括:确定多个深度中的每一个的相邻深度片段之间的间隔,在最小重投影距离和最大重投影距离之间延伸;和将所确定的间隔应用于所选视图中的每一个的深度片段的重投影。4.如权利要求2或3所述的方法,其中,生成所请求视图还包括:对于每个像素,确定像素位于特定深度的概率;将所确定的概率乘以计算的像素颜色;和将产生的相乘的积求和以生成所请求视图。5.如权利要求4所述的方法,其中,对于每个像素确定像素位于特定深度片段的概率包括:由选择塔生成关于多个深度中的每一个的概率地图;由选择塔生成关于多个深度中的每一个的颜色输出图像;和基于对于多个深度中的每一个生成的颜色输出图像和对于多个深度中的每一个生成的概率地图,确定表示像素处于特定深度的概率的每个像素的选择概率。6.如先前权利要求之一所述的方法,进一步包括:迭代地执行生成和比较步骤,直到图像的所请求视图在预定阈值内匹配图像的所请求视图的已知视图。7.一种方法,包括:接收要呈现的场景的视图的请求;从数据库访问分别表示多个场景的视图的多个存储的提出图像;从多个存储的提出图像选择多个图像,所选的多个图像表示与所请求的场景的视图相邻的场景的视图;在多个深度重投影所选的多...

【专利技术属性】
技术研发人员:J弗林K斯内夫利I纽兰德J菲尔宾
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1