用于对象类别建模的生成潜在纹理代理制造技术

技术编号:32610274 阅读:25 留言:0更新日期:2022-03-12 17:35
描述了系统和方法,用于生成对象的多个三维(3D)代理几何结构;基于多个3D代理几何结构生成对象的多个神经纹理,该神经纹理定义了表示该对象的多个不同形状和外观;将多个神经纹理提供给神经渲染器;从神经渲染器并基于多个神经纹理接收彩色图像和表示对象的至少一部分的不透明度的α蒙版,并且基于姿势、彩色图像和α蒙版生成合成图像。像和α蒙版生成合成图像。像和α蒙版生成合成图像。

【技术实现步骤摘要】
【国外来华专利技术】用于对象类别建模的生成潜在纹理代理


[0001]本申请要求于2020年6月30日提交的、名为“GENERATIVE LATENT TEXTURED PROXIES FOR OBJECT CATEGORY MODELING”的美国临时申请No.62/705,500的权益,其公开内容通过引用整体并入本文。
[0002]

[0003]本说明书通常涉及用于生成用于在显示器上呈现的内容的方法、设备和算法。

技术介绍

[0004]生成模型是被用来生成与训练数据一致的数据的一种机器学习模型。生成模型可以学习数据集的模型,以便生成与数据集中包括的训练数据类似的数据。例如,可以训练生成模型来确定数据集的特征X和标签Y的概率分布p(X,Y)。可以向被编程来执行生成模型的计算机系统提供标签Y。作为响应,计算机系统可以生成与标签Y一致的特征或特征集X。

技术实现思路

[0005]一个或多个计算机的系统可以被配置为通过在系统上安装软件、固件、硬件或它们的组合来执行特定操作或动作,这些软件、固件、硬件或它们的组合在操作中使得系统执行动作。一个或多个计算机程序可以被配置为通过包括在由数据处理装置执行时使得装置执行动作的指令来执行特定操作或动作。
[0006]在一个一般方面中,描述了利用至少一个处理设备来执行操作的系统和方法,操作至少包括:接收与图像内容中的对象相关联的姿势;生成对象的多个三维(3D)代理(proxy)几何结构;基于多个3D代理几何结构生成对象的多个神经纹理,其中,神经纹理定义了表示对象的多个不同形状和外观;将多个神经纹理提供给神经渲染器,其中,多个神经纹理以堆叠形成提供;从神经渲染器并基于多个神经纹理,接收彩色图像和表示对象的至少一部分的不透明度的α蒙版(alpha mask);以及基于姿势、彩色图像和α蒙版生成合成图像。
[0007]这些和其他方面可以单独或组合地包括以下中的一个或多个。例如,该方法还可以包括:至少部分地基于与对象相关联的姿势,将潜在纹理渲染到目标视点上,其中,多个3D代理几何结构中的每个包括对象的至少一部分的粗略几何结构近似和映射到粗略几何结构近似的对象的潜在纹理。在一些实施方式中,多个神经纹理被配置为重构在图像内容中捕获的对象的隐藏部分,其中,基于神经纹理的堆叠形成来重构隐藏部分使得神经渲染器能够生成对象的透明层和对象的透明层后面的表面。
[0008]在一些实施方式中,多个3D代理几何结构中的每个对与图像内容中的对象相关联的表面光场进行编码,表面光场包括与对象相关联的镜面反射。在一些实施方式中,多个神经纹理至少部分地基于姿势,神经纹理通过下述操作生成:识别对象的类别;基于所识别的对象的类别生成特征图;将特征图提供给神经网络;以及基于与所识别的类别的每个实例相关联的潜在代码和与姿势相关联的视图生成神经纹理。在一些实施方式中,对象的至少
一部分是透明材料。在一些实施方式中,对象的至少一部分是反射材料。
[0009]在一些实施方式中,图像内容包括远程呈现图像数据,远程呈现图像数据至少包括用户;以及对象包括一副眼镜。在一些实施方式中,神经渲染器使用生成模型来重构所识别的类别内的未见对象实例,重构基于对象的少于四个捕获的视图。在一些实施方式中,使用生成潜在优化(GLO)框架和感知重构损失来生成合成图像。
[0010]所描述的技术的实施方式可以包括硬件、方法或过程、或者计算机可访问介质上的计算机软件。在附图和以下描述中阐述一种或多种实施方式的细节。根据说明书和附图以及根据权利要求书,其他特征将显而易见。
附图说明
[0011]图1是图示根据贯穿本公开描述的实施方式,用于在显示设备上显示内容的示例性3D内容系统的框图。
[0012]图2是根据贯穿本公开描述的实施方式的用于对显示设备中的渲染的内容进行建模的示例性系统的框图。
[0013]图3是描绘根据贯穿本公开描述的实施方式的具有界限清楚的几何结构变化的对象类别的示例性平面代理的图。
[0014]图4是根据贯穿本公开描述的实施方式的由生成潜在优化框架训练的示例性网络架构的框图。
[0015]图5A

5C图示了根据贯穿本公开描述的实施方式的模拟、捕获和提取图像内容的示例。
[0016]图6图示了根据贯穿本公开描述的实施方式的基于本文描述的模型适合的位置的示例性图像。
[0017]图7A

7C图示了根据贯穿本公开描述的实施方式的使用本文描述的模型的示例性虚拟试穿应用。
[0018]图8是图示根据贯穿本公开描述的实施方式的基于3D代理几何结构模型生成合成图像的过程的一个示例的流程图。
[0019]图9示出了可以与本文描述的技术一起使用的计算机设备和移动计算机设备的示例。
[0020]各种附图中相同的参考符号指示相同的元件。
具体实施方式
[0021]当对象表现出诸如透明表面、反射表面和/或薄结构的特征时,3D对象的准确建模和表示可能具有挑战性。本文描述的系统和技术可以提供一种使用3D代理几何结构(例如,纹理代理)来对具有这些特征的3D对象进行建模的方式,以实现3D对象在2D或自动立体显示器(例如,3D显示器)的屏幕上的准确渲染。在一些实施方式中,3D代理几何结构是基于在图像内容内构建对象的形状的几何插值。
[0022]一般而言,本文档描述了与建模对象的类别的形状和外观以便渲染描绘3D对象的准确图像相关的示例。在一些实施方式中,例如,本文描述的模型可以被用来例如在多路视频会议中使用的3D显示器的屏幕上以逼真且3D方式模拟相机捕获的对象。在一些实施方式
中,对象可以是综合生成的对象以在3D生成的场景内提供虚拟或增强的内容。在一些实施方式中,可以综合修改对象以创建用于2D或3D场景的随机性和/或真实感。例如,本文描述的模型可以被用来生成和显示由复杂形状和外观组成的对象,其中一些对象可能包括透明特性、反射特性、复杂几何结构和/或其他结构特性,这些特性通常可以难以以3D方式描绘。
[0023]作为示例,由于透明和/或反射材料难以以3D方式重构和渲染,因此传统显示系统可能无法准确地将复杂对象(例如,眼镜、珠宝、反光衣服等)渲染到为以3D显示而捕获的用户上。本文描述的系统和技术可以生成对象(例如,眼镜、珠宝、反光衣服和/或非用户相关对象)的特定物理、照明和阴影方面的一个或多个模型以便以在3D显示器上提供逼真的对象描绘的准确3D表示来描绘对象。在操作中,本文描述的系统可以在为在3D显示器中渲染而捕获对象时,实时地执行这种建模。在一些实施方式中,在使用3D显示器期间,当用户随着对象移动和/或靠近对象(即,穿戴对象或与对象交互)时,本文描述的系统可以执行这种建模和渲染。在一些实施方式中,本文描述的系统可以对其他类别的对象执行这种建模,包括但不限于车辆零件、涂漆表面、透明对象、装有液体的对象等。可以使用本文描述的建模和技术来渲染这些对象使得在3D中看起来逼真。
[0024]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种利用至少一个处理设备来执行操作的计算机实现的方法,包括:接收与图像内容中的对象相关联的姿势;生成所述对象的多个三维3D代理几何结构;基于所述多个3D代理几何结构生成所述对象的多个神经纹理,所述神经纹理定义了表示所述对象的多个不同形状和外观;将所述多个神经纹理提供给神经渲染器,所述多个神经纹理以堆叠形成提供;从所述神经渲染器并基于所述多个神经纹理,接收彩色图像和表示所述对象的至少一部分的不透明度的α蒙版;以及基于所述姿势、所述彩色图像和所述α蒙版生成合成图像。2.根据权利要求1所述的方法,进一步包括:至少部分地基于与所述对象相关联的所述姿势,将潜在纹理渲染到目标视点上,其中,所述多个3D代理几何结构中的每个包括所述对象的至少一部分的粗略几何结构近似和被映射到所述粗略几何结构近似的所述对象的所述潜在纹理。3.根据权利要求1所述的方法,其中,所述多个神经纹理被配置为重构在所述图像内容中捕获的所述对象的隐藏部分,所述隐藏部分基于所述神经纹理的所述堆叠形成来重构使得所述神经渲染器能够生成所述对象的透明层和所述对象的所述透明层后面的表面。4.根据权利要求1所述的方法,其中,所述多个3D代理几何结构中的每个对与所述图像内容中的所述对象相关联的表面光场进行编码,所述表面光场包括与所述对象相关联的镜面反射。5.根据权利要求1所述的方法,其中,所述多个神经纹理至少部分地基于所述姿势,所述神经纹理通过以下来生成:识别所述对象的类别;基于所识别的所述对象的类别生成特征图;将所述特征图提供给神经网络;以及基于与所识别的类别的每个实例相关联的潜在代码和与所述姿势相关联的视图生成所述神经纹理。6.根据权利要求1所述的方法,其中,所述对象的至少一部分是透明材料。7.根据权利要求1所述的方法,其中,所述对象的至少一部分是反射材料。8.根据权利要求1所述的方法,其中:所述图像内容包括远程呈现图像数据,所述远程呈现图像数据至少包括用户;以及所述对象包括一副眼镜。9.一种系统,包括:至少一个处理设备;以及存储指令的存储器,所述指令在被执行时,使所述系统执行包括以下的操作:接收与图像内容中的对象相关联的姿势;生成所述对象的多个三维3D代理几何结构;基于所述多个3D代理几何结构生成所述对象的多个神经纹理,所述神经纹理定义了表示所述对象的多个不同形状和外观;将所述多个神经纹理提供给神经渲染器,所述多个神经纹理以堆叠形成提供;
从所述神经渲染器并基于所述多个神经纹理,接收彩色图像和表示所述对象的至少一部分的不透明度的α蒙版;以及基于所述彩色图像和所述α蒙版生成合成图像。10.根据权利要求9所述的系统,进一步包括:至少部分地基于与所述对象相关联的所述姿势,将潜在纹理渲染到目标视点上,其中,所述多个3D代理几何结构中的每个包括所述对象的至少一部分的粗略几何结构近似和被映射到所述粗略几何结构近似的所述对象的所述潜在纹理...

【专利技术属性】
技术研发人员:里卡多
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1