使用神经网络的场景理解和生成制造技术

技术编号:21959000 阅读:23 留言:0更新日期:2019-08-24 22:18
用于图像渲染的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括接收表征特定场景的多个观察,每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据。在另一方面,该方法包括接收表征特定视频的多个观察,每个观察包括来自特定视频的视频帧和识别特定视频中的视频帧的时间戳的数据。在又一方面,该方法包括接收表征特定图像的多个观察,每个观察包括特定图像的裁剪和表征特定图像的裁剪的数据。该方法使用观察神经网络处理多个观察中的每个观察以确定数字表示作为输出。

Scene Understanding and Generation Using Neural Networks

【技术实现步骤摘要】
【国外来华专利技术】使用神经网络的场景理解和生成
技术介绍
本说明书涉及使用神经网络处理图像。神经网络是采用一层或多层非线性单元来预测对于接收的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中下一层(即下一个隐藏层或输出层)的输入。网络的每个层依照相应参数集合的当前值从接收的输入生成输出。
技术实现思路
本说明书描述了实现为在一个或多个位置中的一个或多个计算机上的计算机程序的场景理解系统,其生成环境的语义表示。系统接收表征环境的观察,每个观察包括环境的图像和对应视点数据。例如,环境可以是场景,例如,包含对象的3D房间,图像可以是场景的图像,并且视点数据可以为每个图像识别捕获图像的相机的位置。该系统通过用观察神经网络处理观察来生成环境的语义表示,即,从观察图像的特定像素值抽象出的环境的基础内容的描述。系统不对语义表示施加任何明确的约束或结构,但是系统被训练以生成足够表达以渲染从任意视点数据的环境的新图像的语义表示。根据第一方面,提供了一种场景理解系统,其被配置用于:接收表征特定场景的多个观察,每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据;使用观察神经网络处理多个观察中的每一个,其中,观察神经网络被配置为对于观察中的每一个:处理观察以生成观察的低维表示;通过组合观察的低维表示来确定特定场景的数字表示;以及提供特定场景的数字表示,用于表征特定场景的内容。这种方法的一些优点将在后面描述。由方法/系统的实现方式产生的表示具有许多应用,例如作为一般图像分析/预测系统或作为强化学习系统的前端。在一些实现方式中,数字表示是表示特定场景的基础内容的数值的集合。在一些实现方式中,数字表示是特定场景的语义描述,如先前所描述的。在一些实现方式中,组合观察的低维表示包括:对低维表示求和以生成数字表示。在一些实现方式中,该系统还被配置为:接收识别新相机位置的数据;以及使用生成器神经网络处理识别新相机位置的数据和特定场景的数字表示,以生成从新相机位置处的相机拍摄的特定场景的新图像。如本文所用,对相机位置的指代应被解释为包括定位和/或观看方向。因此,新相机位置可以包括新相机定位和新相机观看方向或光轴方向中的一个或两个。例如,生成器神经网络可以确定潜在变量集合上的先验分布,以确定新图像(或者如稍后所述,视频帧或裁剪)的像素值。潜在变量可以包括由生成器神经网络推断的变量,并且可以以识别新相机位置的数据和特定场景的数字表示为条件。因此,在一些实现方式中,生成器神经网络被配置为:在多个时间步长中的每一个处:采样时间步长的一个或多个潜在变量,并通过使用深度卷积神经网络处理隐藏状态、采样的潜在变量、数字表示和识别新相机位置的数据来更新时间步长为止的隐藏状态,以生成更新的隐藏状态;并且在多个时间步长中的最后的时间步长之后:在最后的时间步长之后,从更新的隐藏状态生成特定场景的新图像。在一些实现方式中,在最后的时间步长之后从更新的隐藏状态生成特定场景的新图像包括:在最后的时间步长之后,从更新的隐藏状态生成像素足够的统计;使用像素足够的统计对新图像中诸如像素的颜色值的像素值进行采样。稍后将更详细地描述示例像素足够的统计。在一些实现方式中,生成器神经网络和观察神经网络已经与后验神经网络联合训练,所述后验神经网络被配置为在训练期间接收多个训练观察和目标观察,并且生成定义一个或多个潜在变量上的分布的后验输出。使用后验模型是可选的。然而,当前梯度可以反向传播到后验神经网络以及观察和生成神经网络中,以便它学习潜在变量上的后验分布。当用于推断新图像时,后验输出可用于例如通过从后验分布中采样生成像素值。使用后验神经网络可以帮助提供更准确的图像重建。这种后验模型可以具有下面描述的第二和第三方面。在一些实现方式中,已经训练观察神经网络以生成数字表示,该数字表示与特定相机位置结合,可以由生成器神经网络使用以生成从特定的相机位置所拍摄的特定场景的特定图像的准确重建。根据第二方面,提供了一种场景理解系统,其被配置用于:接收表征特定视频的多个观察,每个观察包括来自特定视频的视频帧和识别特定的视频中的视频帧的时间戳的数据;使用观察神经网络处理多个观察中的每一个,其中,观察神经网络被配置为对于观察中的每一个:处理观察以生成观察的低维表示;通过组合观察的低维表示来确定特定视频的数字表示;以及提供特定视频的数字表示,用于表征特定视频的内容。在一些实现方式中,数字表示是表示特定视频的基础内容的数值的集合。在一些实现方式中,数字表示是特定视频的语义描述。在一些实现方式中,组合观察的低维表示包括:对低维表示求和以生成数字表示。在一些实现方式中,该系统还被配置用于接收识别新时间戳的数据;以及使用生成器神经网络处理识别新时间戳的数据和特定视频的数字表示,以生成在特定视频中的新时间戳处的新视频帧。在一些实现方式中,生成器神经网络被配置为:在多个时间步长中的每一个处:采样时间步长的一个或多个潜在变量,并且通过使用深度卷积神经网络处理隐藏状态、采样的潜在变量、数字表示和识别新时间戳的数据来更新时间步长为止的隐藏状态,以生成更新的隐藏状态;并且在多个时间步长中的最后的时间步长之后:在最后的时间步长之后,从更新的隐藏状态生成新视频帧。在一些实现方式中,生成新视频帧包括:在最后时间步长之后从更新的隐藏状态生成像素足够的统计;使用像素足够的统计对新视频帧中诸如像素的颜色值的像素值进行采样。在一些实现方式中,生成器神经网络和观察神经网络已经与后验神经网络联合训练,所述后验神经网络被配置为在训练期间接收多个训练观察和目标观察,并且生成定义一个或多个潜在变量上的分布的后验输出。在一些实现方式中,已经训练观察神经网络以生成数字表示,该数字表示与特定时间戳结合,可以由生成器神经网络使用以生成来自特定的时间戳处的特定视频的特定视频帧的准确重建。根据第三方面,提供了一种场景理解系统,其被配置用于接收表征特定图像的多个观察,每个观察包括特定图像的裁剪和识别特定图像中的裁剪的位置和大小的数据;使用观察神经网络处理多个观察中的每一个,其中,观察神经网络被配置为对于观察中的每一个:处理观察以生成观察的低维表示;通过组合观察的低维表示来确定特定图像的数字表示;以及提供特定图像的数字表示,用于表征特定图像的内容。在一些实现方式中,数字表示是表示特定图像的基础内容的数值的集合。在一些实现方式中,数字表示是特定图像的语义描述。在一些实现方式中,组合观察的低维表示包括:对低维表示求和以生成数字表示。在一些实现方式中,该系统还被配置用于接收识别新裁剪位置和新裁剪大小的数据;以及使用生成器神经网络处理识别新裁剪位置和新裁剪大小的数据以及特定图像的数字表示,以生成在新裁剪位置处且具有新裁剪大小的特定图像的新裁剪。在一些实现方式中,生成器神经网络被配置为:在多个时间步长中的每一个处:采样时间步长的一个或多个潜在变量,并且通过使用深度卷积神经网络处理隐藏状态、采样的潜在变量、数字表示、以及识别新裁剪位置和新裁剪大小的数据,更新时间步长为止的隐藏状态,以生成更新的隐藏状态;并且在多个时间步长中的最后的时间步长之后:在最后的时间步长之后,从更新的隐藏状态生成特定图像的新裁剪。在一些实现方式中,在最后本文档来自技高网...

【技术保护点】
1.一种方法,包括:接收表征特定场景的多个观察,每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据;使用观察神经网络处理所述多个观察中的每一个,其中,观察神经网络被配置为对于观察中的每一个:处理观察以生成观察的低维表示;通过组合观察的低维表示来确定特定场景的数字表示;以及提供所述特定场景的数字表示,用于表征所述特定场景的内容。

【技术特征摘要】
【国外来华专利技术】2016.11.04 US 62/418,144;2017.08.03 US 62/540,8171.一种方法,包括:接收表征特定场景的多个观察,每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据;使用观察神经网络处理所述多个观察中的每一个,其中,观察神经网络被配置为对于观察中的每一个:处理观察以生成观察的低维表示;通过组合观察的低维表示来确定特定场景的数字表示;以及提供所述特定场景的数字表示,用于表征所述特定场景的内容。2.如权利要求1所述的方法,其中,所述数字表示是表示所述特定场景的基础内容的数值的集合。3.如权利要求1或2中任一项所述的方法,其中,所述数字表示是所述特定场景的语义描述。4.如权利要求1至3中任一项所述的方法,其中,组合所述观察的低维表示包括:对低维表示求和以生成数字表示。5.如权利要求1-4中任一项所述的方法,还包括:接收识别新相机位置的数据;以及使用生成器神经网络处理识别新相机位置的数据和所述特定场景的数字表示,以生成从新相机位置处的相机拍摄的所述特定场景的新图像。6.如权利要求5所述的方法,其中,所述生成器神经网络被配置为:在多个时间步长中的每一个处:采样时间步长的一个或多个潜在变量,以及通过使用深度卷积神经网络处理隐藏状态、采样的潜在变量、数字表示和识别新相机位置的数据,更新时间步长为止的隐藏状态,以生成更新的隐藏状态;以及在所述多个时间步长中的最后的时间步长之后:在最后的时间步长之后,从更新的隐藏状态生成所述特定场景的新图像。7.如权利要求6所述的方法,其中,在最后的时间步长之后,从更新的隐藏状态生成特定场景的新图像包括:在最后的时间步长之后,从更新的隐藏状态生成像素足够的统计;以及使用像素足够的统计对新图像中的像素的颜色值进行采样。8.如权利要求6或7中任一项所述的方法,其中,所述生成器神经网络和所述观察神经网络已经与后验神经网络联合训练,所述后验神经网络被配置为在训练期间接收多个训练观察和目标观察,并且生成定义所述一个或多个潜在变量上的分布的后验输出。9.如权利要求1-8中任一项所述的方法,其中,所述观察神经网络已被训练以生成数字表示,所述数字表示与特定相机位置结合,可由生成器神经网络使用以生成从特定相机位置拍摄的特定场景的特定图像的重建。10.一种方法,包括:接收表征特定视频的多个观察,每个观察包括来自特定视频的视频帧和识别特定视频中视频帧的时间戳的数据;使用观察神经网络处理所述多个观察中的每一个,其中,观察神经网络被配置为对于观察中的每一个:处理观察以生成观察的低维表示;通过组合观察的低维表示来确定特定视频的数字表示;提供所述特定视频的数字表示,用于表征所述特定视频的内容。11.如权利要求10所述的方法,其中,所述数字表示是表示所述特定视频的基础内容的数值的集合。12.如权利要求10或11中任一项所述的方法,其中,所述数字表示是所述特定视频的语义描述。13.如权利要求10-12中任一项所述的方法,其中,组合所述观察的低维表示包括:对低维表示求和以生成数字表示。14.如权利要求10-13中任一项所述的方法,还包括:接收识别新时间戳的数据;以及使用生成器神经网络处理识别新时间戳的数据和特定视频的数字表示,以生成在特定视频中的新时间戳处的新视频帧。15.如权利要求14所述的方法,其中,所述生成器神经网络被配置为:在多个时间步长中的每一个处:采样时间步长的一个或多个潜在变量,以及通过使用深度卷积神经网络处理隐藏状态、采样的潜在变量、数字表...

【专利技术属性】
技术研发人员:DJ雷赞德SM埃斯拉米K格雷戈尔FO贝塞
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1