当前位置: 首页 > 专利查询>辉达公司专利>正文

使用数据驱动先验的网格重建制造技术

技术编号:24998671 阅读:29 留言:0更新日期:2020-07-24 18:00
本发明专利技术公开了一种使用数据驱动先验的网格重建。方法的一个实施例包括基于多个数字图像预测一个或更多个三维(3D)网格表示,其中所述一个或更多个3D网格表示是通过最小化所述一个或更多个3D网格表示与所述多个数字图像之间的至少一个差异来细化的。

【技术实现步骤摘要】
使用数据驱动先验的网格重建
技术介绍
多视图立体视觉(MVS)技术涉及根据对象的多个重叠的二维(2D)图像构建三维(3D)表面。该技术可以基于与纹理、视点、采光和/或拍摄图像的其他条件相关的假设,从2D图像估计最可能的3D形状。给定对象的一组图像和相应的假设,MVS使用图像之间的立体对应性来重建由图像所捕获的场景的3D几何体。附图说明因此,可以更详细地理解各个实施例的上述特征的方式,上面简要概述的专利技术构思的更具体的描述,均可以参照各个实施例来获得,其中一些实施例在附图中示出。然而,需要指出的是,附图只示出了专利技术构思的典型实施例,因此不应当认为以任何方式限制其范围,并且还存在其他等效的实施例。图1是示出被配置为实现各个实施例的一个或更多个方面的系统的框图。图2是根据各个实施例的图1的训练引擎和执行引擎的更详细的说明。图3是根据各个实施例的用于使用数据驱动先验执行网格重建的方法步骤的流程图。图4是根据各个实施例的用于训练机器学习模型以学习数据驱动网格先验的方法步骤的流程图。图5是被配置为实现各个实施例的一个或更多个方面的计算机系统的框图。图6是根据各个实施例的图5的并行处理子系统中包括的并行处理单元(PPU)的框图。图7是根据各个实施例的图6的并行处理单元(PPU)中包括的通用处理集群(GPC)的框图;图8是根据各个实施例的示例性片上系统(SoC)的框图。具体实施方式在下面的描述中,阐述了许多具体细节,以便提供对各个实施例的更透彻的理解。然而,对本领域技术人员来讲显而易见的是,可以在没有一个或更多个这些具体细节的情况下实践本专利技术构思。系统综述图1描述了被配置为实现各个实施例的一个或更多个方面的计算装置100。在一个实施例中,计算装置100可以是台式计算机、笔记本电脑、智能手机、个人数字助理(PDA)、平板电脑或配置为接收输入、处理数据和选择性地显示图像的任何其他类型的计算装置,并适于实践一个或更多个实施例。计算装置100被配置为运行驻留在内存116中的训练引擎122和执行引擎124。需要注意的是,本文所描述的计算装置是说明性的,任何其他技术上可行的配置都落入属于本公开的范围。一个实施例中,计算装置100包括但不限于:连接一个或更多个处理单元102的互连(总线)112、与一个或更多个输入/输出(I/O)设备108耦合的输入/输出(I/O)设备接口104、内存116、存储器114和网络接口106。一个或更多个处理单元102可以是被实现为以下项的任何合适的处理器:中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、人工智能(AI)加速器、任何其他类型的处理单元、或不同处理单元的组合(如被配置为与GPU结合操作的CPU)。总的来说,一个或更多个处理单元102可以是能够处理数据和/或执行软件应用程序的任何技术上可行的硬件单元。此外,在本公开的上下文中,计算装置100中示出的计算元件可以对应于物理计算系统(例如,数据中心中的系统),或者可以是在计算云中执行的虚拟计算实例。在一个实施例中,I/O设备108包括能够提供输入的设备,如键盘、鼠标、触敏屏等,以及能够提供输出的设备,如显示设备。此外,I/O设备108可以包括能够接收输入和提供输出的设备,例如触摸屏、通用串行总线(USB)端口等等。I/O设备108可配置为从计算装置100的终端用户(例如设计人员)接收各种类型的输入,并向计算装置100的终端用户提供各种类型的输出,如显示的数字图像或数字视频或文本。在一些实施例中,I/O设备108中的一个或更多个被配置为将计算装置100耦合到网络110。在一个实施例中,网络110是任何技术上可行的通信网络类型,它允许在计算装置100和外部实体或设备(如Web服务器或其他联网计算装置)之间交换数据。例如,网络110可包括广域网(WAN)、局域网(LAN)、无线(WiFi)网络和/或因特网等。在一个实施例中,存储器114包括用于应用程序和数据的非易失性存储器,可以包括固定的或可移除的磁盘驱动器、闪存设备以及CD-ROM、DVD-ROM、蓝光、HD-DVD或其他磁、光或固态存储设备。训练引擎122和执行引擎124可以存储在存储器114中,并在执行时加载到内存116中。在一个实施例中,内存116包括随机存取存储器(RAM)模块、闪存单元或任何其他类型的存储单元或其组合。一个或更多个处理单元102、I/O设备接口104和网络接口106配置为从内存116读取数据以及将数据写入内存116。内存116包括可以由一个或更多个处理器102执行的各种软件程序以及与该软件程序相关联的应用程序数据,包括训练引擎122和执行引擎124。在一个实施例中,训练引擎122生成一个或更多个机器学习模型,用于使用数据驱动先验(data-drivenpriors)执行网格重建。每个机器学习模型可以学习与顶点、边、角、面、多边形、表面、形状和/或二维(2D)和/或三维(3D)网格的其他属性相关的先验。例如,每个机器学习模型可以包括变分自编码器(VAE),其学习将输入网格转换为潜在向量并从潜在向量(latentvector)重建网格。在一个实施例中,执行引擎124使用由机器学习模型学习的网格先验执行机器学习模型以执行网格重建。继续以上示例,执行引擎124可将潜在向量的初始值输入到VAE的解码器中,以产生网格的初始估计。执行引擎124可以基于与对象的一组图像观测(imageobservation)相关联的几何约束,通过选择潜在向量的后续值来细化(refine)网格。在各种实施例中,选择潜在向量的后续值以最小化网格和图像观测之间的误差,因此允许网格近似于对象的形状。训练引擎122和执行引擎124在下文参照图2进一步详细描述。使用数据驱动先验的网格重建图2是根据各个实施例的图1的训练引擎122和执行引擎124的更详细说明。在示出的实施例中,训练引擎122创建机器学习模型,其通过学习和/或编码与训练网格208相关联的先验来学习重建一组训练网格208。例如,机器学习模型可以从训练网格208学习与顶点、边、角、面、三角形、多边形、表面、形状和/或2D和/或3D网格的其他属性相关的多个“基本类型”。在一个实施例中,执行引擎124使用机器学习模型执行将在一组图像258中捕获的对象260逆渲染到相应的网格216中。例如,执行引擎124可以使用机器学习模型从捕获对象260的多个视图和/或多个照明的2D图像258估计对象的3D网格216。因此,图像258可以表示对象260的地面实况(groundtruth)图像观测。由训练引擎122创建的机器学习模型可以包括任何技术上可行形式的机器学习模型。例如,机器学习模型可以包括循环神经网络(RNN)、卷积神经网络(CNN)、深度神经网络(DNN)、深度卷积网络(DCN)、深度信念网络(DBN),受限玻尔兹曼机器(RBM)、长短期记忆(LSTM)单元、门控递归单元(G本文档来自技高网...

【技术保护点】
1.一种处理器,包括:/n逻辑,用于基于多个数字图像预测一个或更多个三维(3D)网格表示,其中所述一个或更多个3D网格表示是通过最小化所述一个或更多个3D网格表示与所述多个数字图像之间的差异来细化的。/n

【技术特征摘要】
20181219 US 16/226,3291.一种处理器,包括:
逻辑,用于基于多个数字图像预测一个或更多个三维(3D)网格表示,其中所述一个或更多个3D网格表示是通过最小化所述一个或更多个3D网格表示与所述多个数字图像之间的差异来细化的。


2.如权利要求1所述的处理器,其中基于所述多个数字图像预测所述一个或更多个3D网格表示包括:
执行机器学习模型以从潜在空间中的第一值产生对象的网格;以及
基于与所述对象的所述多个数字图像相关联的一个或更多个几何约束,通过选择所述潜在空间中的第二值来细化所述对象的所述网格。


3.如权利要求2所述的处理器,其中细化所述对象的所述网格包括:
选择所述第一值;
计算所述对象的所述网格与所述多个数字图像之间的误差;以及
利用所述机器学习模型的参数对所述第一值执行梯度下降以减小所述误差。


4.如权利要求3所述的处理器,其中选择所述第一值包括:随机化所述第一值、基于一组图像观测选择所述第一值、以及基于从所述一组图像观测提取的稀疏特征初始化所述第一值中的至少一个。


5.如权利要求2所述的处理器,其中细化所述对象的所述网格包括:
将所述网格划分为一组小网格;
针对所述一组小网格中的每个小网格,选择所述潜在空间中的所述第二值,以学习由所述小网格表示的所述网格的一部分的先验;以及
从所述一组小网格重建所述网格。


6.如权利要求5所述的处理器,其中细化所述对象的所述网格进一步包括:针对所述一组小网格中的每个小网格,学习所述小网格的自定义位姿,所述自定义位姿将所述图像的全局位姿与所述小网格的规范位姿对齐。


7.如权利要求5所述的处理器,其中细化所述对象的所述网格进一步包括:迭代地增加所述一组小网格的分辨率,以满足所述一个或更多个几何约束。


8.如权利要求2所述的处理器,其中所述逻辑进一步生成所述机器学习模型作为变分自编码器,以重建输入到所述变分自编码器的一组训练网格。


9.如权利要求8所述的处理器,其中生成所述机器学习模型包括:
针对所述一组训练网格中的每个训练网格,将所述训练网格中的多个点排序聚合为所述潜在空间中的标准化值;以及
在所述变分自编码器中训练解码器,以从所述标准化值重建所述训练网格。


10.如权利要求9所述的处理器,其中将所述训练网格中的所述多个点排序聚合为所述标准化值包括:
将编码器应用于所述多个点排序,以生成所述多个点排序的中间表示;以及
将所述中间表示平均为所述标准化值。

【专利技术属性】
技术研发人员:O·加洛A·巴德基
申请(专利权)人:辉达公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1