说话头的小样本合成制造技术

技术编号：33802909 阅读：23 留言：0更新日期：2022-06-16 10:08

描述了利用具有至少一个处理装置的图像处理系统来进行以下操作的系统和方法，操作包括：接收用户的多个输入图像，基于从多个输入图像提取的第一组特征以及从多个输入图像提取的第二组特征来生成三维网格代理。方法还可以包括：基于三维网格代理和多个输入图像生成神经纹理，生成至少包括神经纹理的用户的表示，以及从三维网格代理中对神经纹理的至少一部分进行采样。响应于向神经渲染器提供被采样的至少一部分，所述方法可以包括从神经渲染器接收图像处理系统先前未捕捉的用户的合成图像。像。像。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】说话头的小样本合成
[0001]相关申请的交叉引用
[0002]本申请要求于2020年10月8日提交的名为“说话头的小样本合成(FEW
‑
SHOT SYNTHESIS OF TALKING HEADS)”的美国临时专利申请No.63/198,287的优先权，通过引用将其全部公开内容合并本文。

[0003]本说明书一般涉及用于合成内容以供呈现的方法、装置和算法。

技术介绍

[0004]深度逆渲染一般包括对于具有空间变化外观的潜在嵌入空间中的外观参数进行优化。深度逆渲染可以包括使用神经网络来模拟对象的外观。可以使用这种神经网络来学习潜在嵌入空间。潜在空间可以表示从中获得低维对象表示的空间。嵌入这种空间表示其中将低维数据映射到原始较高维图像空间的方式。

技术实现思路

[0005]通过在系统上安装软件、固件、硬件或它们的组合，可将一个或多个计算机的系统配置为进行特定操作或动作，所述软件、固件、硬件或它们的组合在操作中单独或共同导致系统进行所述动作。通过包括在由数据处理设备执行时使得所述设备进行所述动作的指令，可以将一个或多个计算机程序配置为进行特定操作或动作。
[0006]在一个一般方面，描述了利用具有至少一个处理装置的图像处理系统来进行以下操作的系统和方法，所述操作包括：接收用户的多个输入图像，基于从多个输入图像提取的第一组特征和从多个输入图像提取的第二组特征来生成三维网格代理。三维网格代理可以包括面部网格代理和平面代理。所述方法还可包括基于三维网格代理和多个输入图...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法，所述方法利用具有至少一个处理装置的图像处理系统来进行操作，包括：接收用户的多个输入图像；基于从所述多个输入图像提取的第一组特征和从所述多个输入图像提取的第二组特征来生成三维网格代理，所述三维网格代理包括面部网格代理和平面代理；基于所述三维网格代理和所述多个输入图像来生成神经纹理；至少部分地基于所述三维网格代理和所述神经纹理来生成所述用户的表示；使用所述用户的所述表示，从所述三维网格代理中对所述神经纹理的至少一部分进行采样；以及响应于向神经渲染器提供被采样的所述至少一部分，从所述神经渲染器接收所述图像处理系统先前未见的所述用户的合成图像。2.根据权利要求1所述的方法，其中：提取的所述第一组特征包括表示所述用户面部的特征；以及提取的所述第二组特征包括表示所述用户头发和一部分躯干的特征。3.根据权利要求1或2所述的方法，其中，所述神经纹理是使用所述多个输入图像生成的学习神经纹理，所述多个输入图像包括所述用户的少于四个的捕捉图像帧。4.根据权利要求1至3中的任一项所述的方法，其中，生成所述神经纹理包括：为每个输入图像生成潜在表示；将为每个输入图像生成的所述表示聚合到向量中；将所述向量提供给纹理生成器网络；以及从所述纹理生成器网络接收表示所述用户的所述神经纹理。5.根据权利要求1至4中的任一项所述的方法，其中，生成所述神经纹理包括：基于与所述输入图像相关联的深度图像和UV映射，将提取的所述第一组特征和所述第二组特征投影到几何感知特征空间中，所述投影包括生成具有所述多个输入图像的匹配分辨率的一组图像；将所述一组图像扭曲到UV空间中以生成每个输入图像的纹理；为每个纹理生成纹理空间中每个点的得分映射，所述得分映射指示相对应的输入图像中的可见性度量；对每个得分映射应用soft
‑
max操作以生成每个输入图像的注意力权重；以及根据加权平均值聚合所述纹理，所述加权平均值是根据所述注意力权重确定的。6.根据权利要求1至5中的任一项所述的方法，其中，生成的所述用户的所述表示代表在所述神经纹理中表示的每个表面点的外观，并且其中，所述方法还包括，存储每个表面点的外观描述符以表示关于所述用户的所述外观的高频细节。7.根据权利要求1至6中的任一项所述的方法，其中，所述合成图像被生成以使用视频会议的经过校正的眼睛注视方向来描绘所述用户，所述经过校正的眼睛注视方向模拟注视与提供所述视频会议的系统相关联的相机装置的所述用户的视图。8.一种图像处理系统，包括：至少一个处理装置；以及存储器，所述存储器存储指令，所述指令在被执行时使所述系统进行以下操作，包括：
接收用户的多个输入图像；基于从所述多个输入图像提取的第一组特征和从所述多个输入图像提取的第二组特征来生成三维网格代理，所述三维网格代理包括面部网格代理和平面代理；基于所述三维网格代理和所述多个输入图像来生成神经纹理；至少部分地基于所述三维网格代理和所述神经纹理来生成所述用户的表示；使用所述用户的所述表示，从所述三维网格代理中对所述神经纹理的至少一部分进行采样；以及响应于向神经渲染器提供被采样的所述至少一部分，从所述神经渲染器接收所述图像处理系统先前未见的所述用户的合成图像。9.根据权利要求8所述的系统，其中：提取的所述第一组特征包括表示所述用户面部的特征；以及提取的所述第二组特征包括表示所述用户头发和一部分躯干的特征。10.根据权利要求8或9所述的系统，其中，所述神经纹理是使用所述多个输入图像生成的学习神经纹理，所述多个输入图像包括所述用户的少于四个的捕捉图像帧。11.根据权利要求8至10中的任一项所述的系统，其中，生成所述神经纹理包括：为每个输入图像生成潜在表示；将为每个输入图...

【专利技术属性】
技术研发人员：里卡多，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人