高分辨率神经渲染制造技术

技术编号:39312143 阅读:7 留言:0更新日期:2023-11-12 15:57
提供了用于训练机器学习模型,以基于位置数据以及基于方向数据的与特定视图方向相关联的加权方案来生成密度值和辐射分量,从而计算沿着多个相机光线的每个点的最终

【技术实现步骤摘要】
【国外来华专利技术】高分辨率神经渲染

技术介绍

[0001]存在许多正在研究的用于渲染包括不同材料和具有复杂几何形状的对象的三维(3D)场景的连续3D视点的方法。此类研究的目标是能够从有限数量的(二维)2D训练图像中渲染场景的新颖视角。此类静态场景能够由连续的5D或6D函数表示,该函数将位置和方向作为输入并输出在该位置处在该方向上的辐射率。替代地,此类函数的余域是空间中每个方向和点的辐射率。一些研究涉及将对象和场景编码到如多层感知器(MLP)的神经网络中。
[0002]神经辐射场(NeRF)是最近发现的一种方法,其训练神经网络以基于该场景的多个图像来捕获该场景。一旦网络经过训练,它就可以用于从任何视点以及利用任何相机参数生成场景的图像。然而,虽然NeRF方法能够准确地渲染场景的精细细节,但渲染新颖视点的过程非常缓慢,并且在计算上非常昂贵。NeRF低效率的主要原因是对于渲染的每个像素都必须调用神经网络多达200次。对于1MPix图像,这会导致对神经网络进行2亿次调用来渲染单个图像。因此,为了渲染单个图像,计算系统需要延长的时间段来处理数据才能获得这些详细的结果。
[0003]鉴于前述,存在对用于生成训练数据和训练模型的改进的系统和方法的持续需要,其包括部署这样的模型,以用于改进的图像渲染。
[0004]本文要求保护的主题不限于解决任何缺点或仅在诸如上述那些环境中操作的实施例。相反,该背景仅被提供来说明可以实践本文描述的一些实施例的一个示例性


技术实现思路

[0005]所公开的实施例涉及用于训练机器学习模型以生成静态场景的颜色输出的实施例。识别三维(3D)静态场景。在获得包括3D静态场景的多个视点的一组训练图像之后,识别与该组训练图像相对应的多个相机光线。对沿着多个相机光线的一组点进行采样以获得该组点中包括的每个点的位置数据和方向数据。然后,根据位置数据训练第一神经网络,并且由第一神经网络处理位置数据以生成密度值和多个辐射分量。多个辐射分量和密度值被缓存。
[0006]还根据方向数据训练第二神经网络。方向数据由第二神经网络处理以生成用于多个视图方向的加权方案。加权方案包括要应用于多个辐射分量的多个权重值。针对多个视图方向中包括的每个视图方向缓存加权方案,并且通过根据与特定视图方向相关联的缓存的加权方案来组合缓存的多个辐射分量,生成最终颜色值。
[0007]一些实施例还涉及用于基于针对静态场景获得的缓存的方向数据和位置数据来生成静态场景的新颖视点的系统和方法。在这样的实施例中,计算系统识别三维静态场景和从其渲染三维静态场景的二维图像的新颖视点。访问包括在三维静态场景的体积表示中的多个点的辐射分量的缓存的数据库,以及多个视图方向的加权方案的缓存的数据库。对于在多个点中包括的每个点,通过根据与多个视图方向中的一个或多个新颖视图方向相对应的加权方案的缓存的数据库中包括的加权方案来组合每个点的一组辐射分量,从而生成
最终颜色值。
[0008]提供本
技术实现思路
是为了以简化的形式介绍概念的选择,这些概念将在下面的具体实施方式中进一步描述。本
技术实现思路
无意于识别所要求保护的主题的关键特征或基本特征,也无意于用作确定所要求保护的主题的范围的帮助。
[0009]附加的特征和优点将在下面的描述中阐述,并且部分地从描述中将是显而易见的,或者可以通过本文的教导的实践而了解到。本专利技术的特征和优点可以通过所附权利要求中特别指出的手段和组合来实现和获得。本专利技术的特征将从下面的描述和所附权利要求中变得更加明显,或者可以通过如下文阐述的本专利技术的实践来了解。
附图说明
[0010]为了描述获得上述和其他优点和特征的方式,将参考附图中示出的具体实施例对上面简要描述的主题进行更具体的描述。要理解的是,这些附图仅描绘了典型的实施例并且因此不应被认为是对范围的限制,将通过使用附图以额外的特性和细节来描述和解释实施例,其中:
[0011]图1示出了其中计算系统并入和/或用于执行所公开的实施例的所公开的方面的计算环境。
[0012]图2A和图2B示出了用于基于训练图像生成静态场景的新颖视点的示例实施例。
[0013]图3示出了用于训练机器学习模型以生成静态场景的体积表示中所包括的点的颜色值的过程流程图的传统实施例。
[0014]图4示出了用于训练机器学习模型以基于解纠缠的位置和方向数据生成静态场景的体积表示中所包括的点的颜色值的过程流程图的新颖实施例。
[0015]图5示出了用于通过访问缓存的辐射分量和缓存的加权方案来生成静态场景的新颖视点的过程流程图的一个实施例。
[0016]图6示出了流程图的一个实施例,该流程图具有用于训练机器学习模型以生成静态场景的体积表示中所包括的点的颜色值的多个动作。
[0017]图7示出了流程图的一个实施例,该流程图具有用于生成静态场景的体积表示中所包括的点的颜色值以生成静态场景的新颖视点图像的多个动作。
具体实施方式
[0018]所公开的实施例涉及用于生成三维场景的新颖视点以及用于训练和缓存被配置为生成三维场景的新颖视点的神经网络的实施例。
[0019]现在将注意力转向图1,其示出了可以包括和/或用于实现所公开的专利技术的各方面的计算系统110的组件。如图所示,计算系统包括多个机器学习(ML)引擎、模型、神经网络以及与机器学习引擎和模型的输入和输出相关联的数据类型。
[0020]首先将注意力转向图1,其示出了作为计算环境100的一部分的计算系统110,计算环境100还包括与计算系统110通信(经由网络130)的远程/第三方系统120。计算系统110被配置为训练用于体积渲染、图像渲染、图像数据处理的多个机器学习模型,并且更具体地,训练机器学习模型以基于缓存的基于位置和基于方向的神经网络生成静态三维场景的体积表示中的每个点的光值。计算系统110还被配置为生成被配置用于训练机器学习模型的
训练数据。
[0021]计算系统110例如包括一个或多个处理器112(诸如一个或多个硬件处理器)和存储计算机可执行指令118的存储装置(即,硬件存储设备140),其中硬件存储设备140中的一个或多个能够容纳任意数量的数据类型和任意数量的计算机可执行指令118,计算系统110被配置为,当计算机可执行指令118由一个或多个处理器112执行时,通过指令118实现所公开实施例的一个或多个方面。还示出计算系统110包括用户接口114和输入/输出(I/O)设备116。
[0022]如图1所示,硬件存储设备140被示为单个存储单元。然而,应当理解,硬件存储设备140可配置为分布式存储装置,其分布到若干单独的并且有时是远程的和/或第三方系统120。计算系统110还可以包括分布式系统,其中计算系统110的一个或多个组件由彼此远离且各自执行不同任务的不同离散系统维护/运行。在一些情况下,多个分布式系统执行类似和/或共享的任务以实现所公开的功能,例如在分布式云环境中。
[0023]硬件存储设备140被配置为存储不同的数据类型,包括本文描述的图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由计算系统实现的用于训练机器学习模型以生成静态场景的颜色输出的方法,所述方法包括:识别三维静态场景;获取包括所述三维静态场景的多个视点的一组训练图像;识别对应于所述一组训练图像的多个相机光线;对沿所述多个相机光线的一组点进行采样以获得在所述一组点中包括的每个点的位置数据和方向数据;根据获得的每个点的位置数据训练第一神经网络;利用所述第一神经网络处理所述位置数据以生成密度值和多个辐射分量;将所述多个辐射分量存储为缓存的辐射分量;根据所述方向数据训练第二神经网络;利用所述第二神经网络处理所述方向数据以生成针对多个视图方向的加权方案,所述加权方案包括要应用于所述多个辐射分量的多个权重值;将针对所述多个视图方向中包括的每个视图方向的加权方案存储为缓存的加权方案数据;以及通过根据与特定视图方向相关联的缓存的加权方案数据来组合所述缓存的辐射分量,以生成最终颜色值。2.根据权利要求1所述的方法,还包括:基于在缓存的数据库中包括的密度值和最终颜色值,沿着在所述多个相机光线中包括的相机光线对在点的子集中包括的每个点执行体积渲染;以及将沿所述相机光线的所述点的子集折叠为渲染的像素,以包括在所述静态场景的二维图像中。3.根据权利要求2所述的方法,还包括:将所述渲染的像素与在所述一组训练图像中包括的训练图像中的对应像素进行比较;以及最小化所述渲染的像素与所述训练图像中的对应像素之间的误差。4.根据权利要求1所述的方法,还包括:通过基于沿相机光线采样的多个点的体积密度计算符号

距离函数,从所述三维静态场景的体积表示导出碰撞网格;识别在所述多个点中包括的与由所述碰撞网格计算的第一命中相对应的第一点;以及通过整合在所述多个点中包括的点的子集来执行体积渲染,所述点的子集对应于在所述第一命中之后由所述碰撞网格识别的非空空间。5.根据权利要求1所述的方法,还包括:在通过基于沿相机光线采样的多个点的体积密...

【专利技术属性】
技术研发人员:S
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1