使用神经网络的场景理解和生成制造技术

技术编号：21959000 阅读：23 留言：0更新日期：2019-08-24 22:18

用于图像渲染的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一个方面，一种方法包括接收表征特定场景的多个观察，每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据。在另一方面，该方法包括接收表征特定视频的多个观察，每个观察包括来自特定视频的视频帧和识别特定视频中的视频帧的时间戳的数据。在又一方面，该方法包括接收表征特定图像的多个观察，每个观察包括特定图像的裁剪和表征特定图像的裁剪的数据。该方法使用观察神经网络处理多个观察中的每个观察以确定数字表示作为输出。

Scene Understanding and Generation Using Neural Networks

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用神经网络的场景理解和生成
技术介绍
本说明书涉及使用神经网络处理图像。神经网络是采用一层或多层非线性单元来预测对于接收的输入的输出的机器学习模型。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中下一层(即下一个隐藏层或输出层)的输入。网络的每个层依照相应参数集合的当前值从接收的输入生成输出。
技术实现思路
本说明书描述了实现为在一个或多个位置中的一个或多个计算机上的计算机程序的场景理解系统，其生成环境的语义表示。系统接收表征环境的观察，每个观察包括环境的图像和对应视点数据。例如，环境可以是场景，例如，包含对象的3D房间，图像可以是场景的图像，并且视点数据可以为每个图像识别捕获图像的相机的位置。该系统通过用观察神经网络处理观察来生成环境的语义表示，即，从观察图像的特定像素值抽象出的环境的基础内容的描述。系统不对语义表示施加任何明确的约束或结构，但是系统被训练以生成足够表达以渲染从任意视点数据的环境的新图像的语义表示。根据第一方面，提供了一种场景理解系统，其被配置用于：接收表征特定场景的多个观察，每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据；使用观察神经网络处理多个观察中的每一个，其中，观察神经网络被配置为对于观察中的每一个：处理观察以生成观察的低维表示；通过组合观察的低维表示来确定特定场景的数字表示；以及提供特定场景的数字表示，用于表征特定场景的内容。这种方法的一些优点将在后面描述。由方法/系统的实现方式产生的表示具有许多应用，例如作为一般图像分析/预测系统或作为强化学习系统的前端。在一些实现方式中，数字表示是表示特定...

【技术保护点】
1.一种方法，包括：接收表征特定场景的多个观察，每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据；使用观察神经网络处理所述多个观察中的每一个，其中，观察神经网络被配置为对于观察中的每一个：处理观察以生成观察的低维表示；通过组合观察的低维表示来确定特定场景的数字表示；以及提供所述特定场景的数字表示，用于表征所述特定场景的内容。

【技术特征摘要】
【国外来华专利技术】2016.11.04 US 62/418,144;2017.08.03 US 62/540,8171.一种方法，包括：接收表征特定场景的多个观察，每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据；使用观察神经网络处理所述多个观察中的每一个，其中，观察神经网络被配置为对于观察中的每一个：处理观察以生成观察的低维表示；通过组合观察的低维表示来确定特定场景的数字表示；以及提供所述特定场景的数字表示，用于表征所述特定场景的内容。2.如权利要求1所述的方法，其中，所述数字表示是表示所述特定场景的基础内容的数值的集合。3.如权利要求1或2中任一项所述的方法，其中，所述数字表示是所述特定场景的语义描述。4.如权利要求1至3中任一项所述的方法，其中，组合所述观察的低维表示包括：对低维表示求和以生成数字表示。5.如权利要求1-4中任一项所述的方法，还包括：接收识别新相机位置的数据；以及使用生成器神经网络处理识别新相机位置的数据和所述特定场景的数字表示，以生成从新相机位置处的相机拍摄的所述特定场景的新图像。6.如权利要求5所述的方法，其中，所述生成器神经网络被配置为：在多个时间步长中的每一个处：采样时间步长的一个或多个潜在变量，以及通过使用深度卷积神经网络处理隐藏状态、采样的潜在变量、数字表示和识别新相机位置的数据，更新时间步长为止的隐藏状态，以生成更新的隐藏状态；以及在所述多个时间步长中的最后的时间步长之后：在最后的时间步长之后，从更新的隐藏状态生成所述特定场景的新图像。7.如权利要求6所述的方法，其中，在最后的时间步长之后，从更新的隐藏状态生成特定场景的新图像包括：在最后的时间步长之后，从更新的隐藏状态生成像素足够的统计；以及使用像素足够的统计对新图像中的像素的颜色值进行采样。8.如权利要求6或7中任一项所述的方法，其中，所述生成器神经网络和所述观察神经网络已经与后验神经网络联合训练，所述后验神经网络被配置为在训练期间接收多个训练观察和目标观察，并且生成定义所述一个或多个潜在变量上的分布的后验输出。9.如权利要求1-8中任一项所述的方法，其中，所述观察神经网络已被训练以生成数字表示，所述数字表示与特定相机位置结合，可由生成器神经网络使用以生成从特定相机位置拍摄的特定场景的特定图像的重建。10.一种方法，包括：接收表征特定视频的多个观察，每个观察包括来自特定视频的视频帧和识别特定视频中视频帧的时间戳的数据；使用观察神经网络处理所述多个观察中的每一个，其中，观察神经网络被配置为对于观察中的每一个：处理观察以生成观察的低维表示；通过组合观察的低维表示来确定特定视频的数字表示；提供所述特定视频的数字表示，用于表征所述特定视频的内容。11.如权利要求10所述的方法，其中，所述数字表示是表示所述特定视频的基础内容的数值的集合。12.如权利要求10或11中任一项所述的方法，其中，所述数字表示是所述特定视频的语义描述。13.如权利要求10-12中任一项所述的方法，其中，组合所述观察的低维表示包括：对低维表示求和以生成数字表示。14.如权利要求10-13中任一项所述的方法，还包括：接收识别新时间戳的数据；以及使用生成器神经网络处理识别新时间戳的数据和特定视频的数字表示，以生成在特定视频中的新时间戳处的新视频帧。15.如权利要求14所述的方法，其中，所述生成器神经网络被配置为：在多个时间步长中的每一个处：采样时间步长的一个或多个潜在变量，以及通过使用深度卷积神经网络处理隐藏状态、采样的潜在变量、数字表...

【专利技术属性】
技术研发人员：DJ雷赞德，SM埃斯拉米，K格雷戈尔，FO贝塞，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：英国,GB

全部详细技术资料下载我是这个专利的主人