说话头的小样本合成制造技术

技术编号:33802909 阅读:23 留言:0更新日期:2022-06-16 10:08
描述了利用具有至少一个处理装置的图像处理系统来进行以下操作的系统和方法,操作包括:接收用户的多个输入图像,基于从多个输入图像提取的第一组特征以及从多个输入图像提取的第二组特征来生成三维网格代理。方法还可以包括:基于三维网格代理和多个输入图像生成神经纹理,生成至少包括神经纹理的用户的表示,以及从三维网格代理中对神经纹理的至少一部分进行采样。响应于向神经渲染器提供被采样的至少一部分,所述方法可以包括从神经渲染器接收图像处理系统先前未捕捉的用户的合成图像。像。像。

【技术实现步骤摘要】
【国外来华专利技术】说话头的小样本合成
[0001]相关申请的交叉引用
[0002]本申请要求于2020年10月8日提交的名为“说话头的小样本合成(FEW

SHOT SYNTHESIS OF TALKING HEADS)”的美国临时专利申请No.63/198,287的优先权,通过引用将其全部公开内容合并本文。


[0003]本说明书一般涉及用于合成内容以供呈现的方法、装置和算法。

技术介绍

[0004]深度逆渲染一般包括对于具有空间变化外观的潜在嵌入空间中的外观参数进行优化。深度逆渲染可以包括使用神经网络来模拟对象的外观。可以使用这种神经网络来学习潜在嵌入空间。潜在空间可以表示从中获得低维对象表示的空间。嵌入这种空间表示其中将低维数据映射到原始较高维图像空间的方式。

技术实现思路

[0005]通过在系统上安装软件、固件、硬件或它们的组合,可将一个或多个计算机的系统配置为进行特定操作或动作,所述软件、固件、硬件或它们的组合在操作中单独或共同导致系统进行所述动作。通过包括在由数据处理设备执行时使得所述设备进行所述动作的指令,可以将一个或多个计算机程序配置为进行特定操作或动作。
[0006]在一个一般方面,描述了利用具有至少一个处理装置的图像处理系统来进行以下操作的系统和方法,所述操作包括:接收用户的多个输入图像,基于从多个输入图像提取的第一组特征和从多个输入图像提取的第二组特征来生成三维网格代理。三维网格代理可以包括面部网格代理和平面代理。所述方法还可包括基于三维网格代理和多个输入图像来生成神经纹理。可选地,所述方法包括至少部分地基于三维网格代理和神经纹理来生成用户的表示。所述方法还可以包括从三维网格代理中对神经纹理的至少一部分进行采样。响应于向神经渲染器提供被采样的至少一部分,所述方法可以包括从神经渲染器接收图像处理系统先前未捕捉(例如,未见)的用户的合成图像。
[0007]这些和其他方面可以单独或组合包括以下一个或多个方面。根据一些方面,本文要求保护的方法、系统和计算机可读介质可以包括以下特征(或其任何组合)中的一个或多个(例如,全部)。
[0008]在一些实施方式中,提取的所述第一组特征包括表示用户面部的特征,并且提取的所述第二组特征包括表示用户头发和一部分躯干的特征。在一些实施方式中,神经纹理是使用多个输入图像生成的学习神经纹理,其中多个输入图像包括用户的少于四个捕捉图像帧。
[0009]在一些实施方式中,生成所述神经纹理包括:为每个输入图像生成潜在表示;将为每个输入图像生成的表示聚合到向量中;将所述向量提供给纹理生成器网络;以及从所述
纹理生成器网络接收表示所述用户的神经纹理。在一些实施方式中,生成神经纹理包括:基于与输入图像相关联的深度图像和UV映射,将提取的第一组特征和第二组特征投影到几何感知特征空间中,其中投影包括生成一组图像,所述一组图像具有多个输入图像的匹配分辨率。生成神经纹理还包括:将一组图像扭曲到UV空间中,从而为每个输入图像生成纹理;为每个纹理生成纹理空间中每个点的得分映射,该得分映射指示相对应的输入图像中的可见性度量;对每个得分映射应用soft

max操作,从而为每个输入图像生成注意力权重;以及根据注意力权重确定加权平均值,根据加权平均值聚合纹理。
[0010]在一些实施方式中,生成的用户的表示代表神经纹理中表示的每个表面点的外观,并且其中,所述方法还包括存储每个表面点的外观描述符,以表示关于用户的外观的高频细节。在一些实施方式中,生成合成图像以通过用于视频会议的经过校正的视角来描绘用户,所述经过校正的视角模拟注视与提供视频会议的系统相关联的相机装置的用户的视图。
[0011]所述技术的实施方式可以包括计算机可访问介质上的硬件、方法或过程或计算机软件。在以下的说明书和附图中给出一个或多个实施方式的细节。根据说明书和附图以及权利要求,其他特征将显而易见。
附图说明
[0012]图1是示出根据本公开所述实施方式,用于在显示装置上显示合成内容的示例性3D内容系统的框图。
[0013]图2是根据本公开所述实施方式,用于合成内容以供在显示器上渲染的示例性系统的框图。
[0014]图3A和图3B示出根据本公开所述实施方式,通过组合面部网格代理和平面代理生成的增强网格代理的示例。
[0015]图4是根据本公开所述实施方式,用于生成合成内容以供在显示器上渲染的示例性架构的框图。
[0016]图5是根据本公开所述实施方式,用于根据聚合的潜在纹理技术生成神经纹理的示例性架构的框图。
[0017]图6是根据本公开所述实施方式,使用逆渲染技术生成神经纹理的示例性架构的框图。
[0018]图7是示出根据本公开所述实施方式,使用基于3D代理几何模型的神经纹理生成合成内容的过程的一个示例的流程图。
[0019]图8示出可与本文所述技术一起使用的计算机装置和移动计算机装置的示例。
[0020]不同附图中相同的附图标记表示相同的元件。
具体实施方式
[0021]一般而言,本文描述与对图像内容的新颖(例如未见的)视图进行模拟相关的示例。例如,本文档包括关于使用相对较少的输入图像对说话头(例如用户的头部和/或躯干)的新颖视图进行模拟的示例。说话头通常可包括具有头部、颈部和/或躯干的一个或多个部分的视图。如本文所使用的,新颖(例如未见的)视图可以包括已经基于相机捕捉的图像内
容和/或视频内容的一个或多个帧被解释(例如,合成、内插、模拟等)的图像内容和/或视频内容。对相机捕捉的图像内容和/或视频内容的解释可以与本文所述技术结合使用,以创建捕捉的图像内容和/或视频内容的未见版本和视图(例如,姿势、表情、角度等)。
[0022]在用户的高质量三维(3D)视图不可得时,进行小样本(few

shot)新颖视图合成来生成用户头部和/或身体(例如躯干)的视图可能具有挑战性。本文所述系统和技术可以提供一种使用少量图像作为输入来生成新颖躯干视图的高质量图像内容(例如图像和/或视频)的方式。在一些实施方式中,可以将少量图像与一个或多个3D代理平面以及一个或多个神经纹理结合使用以模拟3D特征,从而能够在二维(2D)或3D显示器的屏幕上准确渲染3D头部和/或躯干的未见视图。在一些实施方式中,神经纹理基于聚合潜在纹理技术。在一些实施方式中,神经纹理基于逆渲染技术。如本文所使用的,术语“小样本”表示小样本机器学习技术的使用,其中进行机器学习以从少量示例来理解新概念。
[0023]在一些实施方式中,为了合成由神经纹理表示的用户的语音和/或表情的视频序列,可以将本文所述的神经纹理用于生成未见视图。例如,可以将神经纹理用于基于一个或多个图像(例如(多个)帧、视频等)来生成逼真的头部(和/或躯干)图像。在一些实施方式中,可以使用延迟神经渲染技术(例如深度神经网络)来生成神经纹理,该技术可以通过将图形与学习组件相结合来合成图像。
[0024]如本文所使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,所述方法利用具有至少一个处理装置的图像处理系统来进行操作,包括:接收用户的多个输入图像;基于从所述多个输入图像提取的第一组特征和从所述多个输入图像提取的第二组特征来生成三维网格代理,所述三维网格代理包括面部网格代理和平面代理;基于所述三维网格代理和所述多个输入图像来生成神经纹理;至少部分地基于所述三维网格代理和所述神经纹理来生成所述用户的表示;使用所述用户的所述表示,从所述三维网格代理中对所述神经纹理的至少一部分进行采样;以及响应于向神经渲染器提供被采样的所述至少一部分,从所述神经渲染器接收所述图像处理系统先前未见的所述用户的合成图像。2.根据权利要求1所述的方法,其中:提取的所述第一组特征包括表示所述用户面部的特征;以及提取的所述第二组特征包括表示所述用户头发和一部分躯干的特征。3.根据权利要求1或2所述的方法,其中,所述神经纹理是使用所述多个输入图像生成的学习神经纹理,所述多个输入图像包括所述用户的少于四个的捕捉图像帧。4.根据权利要求1至3中的任一项所述的方法,其中,生成所述神经纹理包括:为每个输入图像生成潜在表示;将为每个输入图像生成的所述表示聚合到向量中;将所述向量提供给纹理生成器网络;以及从所述纹理生成器网络接收表示所述用户的所述神经纹理。5.根据权利要求1至4中的任一项所述的方法,其中,生成所述神经纹理包括:基于与所述输入图像相关联的深度图像和UV映射,将提取的所述第一组特征和所述第二组特征投影到几何感知特征空间中,所述投影包括生成具有所述多个输入图像的匹配分辨率的一组图像;将所述一组图像扭曲到UV空间中以生成每个输入图像的纹理;为每个纹理生成纹理空间中每个点的得分映射,所述得分映射指示相对应的输入图像中的可见性度量;对每个得分映射应用soft

max操作以生成每个输入图像的注意力权重;以及根据加权平均值聚合所述纹理,所述加权平均值是根据所述注意力权重确定的。6.根据权利要求1至5中的任一项所述的方法,其中,生成的所述用户的所述表示代表在所述神经纹理中表示的每个表面点的外观,并且其中,所述方法还包括,存储每个表面点的外观描述符以表示关于所述用户的所述外观的高频细节。7.根据权利要求1至6中的任一项所述的方法,其中,所述合成图像被生成以使用视频会议的经过校正的眼睛注视方向来描绘所述用户,所述经过校正的眼睛注视方向模拟注视与提供所述视频会议的系统相关联的相机装置的所述用户的视图。8.一种图像处理系统,包括:至少一个处理装置;以及存储器,所述存储器存储指令,所述指令在被执行时使所述系统进行以下操作,包括:
接收用户的多个输入图像;基于从所述多个输入图像提取的第一组特征和从所述多个输入图像提取的第二组特征来生成三维网格代理,所述三维网格代理包括面部网格代理和平面代理;基于所述三维网格代理和所述多个输入图像来生成神经纹理;至少部分地基于所述三维网格代理和所述神经纹理来生成所述用户的表示;使用所述用户的所述表示,从所述三维网格代理中对所述神经纹理的至少一部分进行采样;以及响应于向神经渲染器提供被采样的所述至少一部分,从所述神经渲染器接收所述图像处理系统先前未见的所述用户的合成图像。9.根据权利要求8所述的系统,其中:提取的所述第一组特征包括表示所述用户面部的特征;以及提取的所述第二组特征包括表示所述用户头发和一部分躯干的特征。10.根据权利要求8或9所述的系统,其中,所述神经纹理是使用所述多个输入图像生成的学习神经纹理,所述多个输入图像包括所述用户的少于四个的捕捉图像帧。11.根据权利要求8至10中的任一项所述的系统,其中,生成所述神经纹理包括:为每个输入图像生成潜在表示;将为每个输入图...

【专利技术属性】
技术研发人员:里卡多
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1