用于利用头戴式摄像头的简化的面部捕获的系统和方法技术方案

技术编号：41287988 阅读：5 留言：0更新日期：2024-05-11 09:36

提供用于生成呈多帧面部动画的形式的训练数据的方法，所述多帧中的每一帧被表示为包括多个顶点的三维(3D)网格。所述训练数据可用于训练特定于演员的演员到网格转换模型，所述演员到网格转换模型在被训练时，接收由头戴式摄像头(HMC)机构捕获的演员的表演，并推断该演员的表演的对应的特定于演员的3D网格。所述方法可以涉及进行混合形状优化以获得混合形状优化的3D网格，以及对混合形状优化的3D网格进行网格变形细化以获得网格变形优化的3D网格。所述训练数据可以基于网格变形优化的3D网格来生成。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本申请涉及用于面部的计算机动画的系统和方法。更具体地，本申请涉及用于使用从头戴式摄像头捕获的图像数据来生成特定于演员的3d网格的计算机表示的系统和方法。

技术介绍

1、在各种计算机生成(cg)动画应用中都存在生成特定演员的面部特征的计算机表示的期望。通常，这些计算机表示采用互连顶点的3d网格的形式，其中顶点具有随帧而变化以创建动画的属性(例如，3d几何形状或3d位置)。

2、图1a示出了用于将演员的面部特征赋予这种计算机表示的典型方法10。方法10涉及通常利用头戴式摄像头(hmc)捕获演员的表演，以获得捕获的演员表演12。如本领域所知，hmc机构(setup)通常使用可以用于立体地捕获3d信息的至少2个摄像头。通常，当演员为hmc表演时(顶部捕获演员表演12)，演员的面部用放置在演员面部周围的战略位置的标记来标记，并且跟踪这些标记，作为捕获的演员表演12的一部分。

3、然后在框16中，经过训练的ai模型(演员到网格转换模型)14使用捕获的演员表演12将演员的捕获的表演12转换为演员的表演的3dcg网格18。当演员到网格转换模型14得到适当训练时，输出的3dcg表演网格18逐帧地与捕获演员表演12的面部特征紧密匹配。演员到网格转换模型14的非限制性例子是在lucio moser、darren hendler和dougroble.2017.masquerade:fine-scaledetails for head-mounted camera motioncapture data.in acm siggrap

4、在框16中使用经过训练的演员到网格转换模型14之前，演员到网格转换模型14必须得到训练(参见图1a的框20)。训练演员到网格转换模型14需要训练数据22。该训练数据22通常采用一系列帧(视频)的形式，其中每个帧采用特定于演员的3d网格的形式(通常具有与期望输出的3d cg表演网格18相同的网格拓扑)，其中演员将他们的面部布置在所谓的运动范围(rom)上。rom可以具有多个姿势，其中一些姿势可以是逼真的姿势(例如，演员微笑、演员皱眉、演员张嘴、演员闭嘴和/或演员中性表情等)，而其中一些姿势可能是人为的姿势。图1a的方法10示出了在步骤24中获得的训练数据22。

5、图1c示出了用于获得训练数据22的现有技术方法40。方法40(图1c)可在步骤24(图1a)中进行。方法40从框42开始，例如，框42涉及在灯光舞台中捕获关于演员的尽可能多的面部细节。灯光舞台是一种环境和支持结构，通常包括许多摄像头和灯光，用于捕获演员面部的细节，比如可用于创建演员的数字替身的表面面部几何形状和多种纹理。虽然灯光舞台捕获的图像具有关于演员的绝佳细节，但是灯光舞台捕获的图像通常具有过于密集和非结构化的拓扑，因此不适用于方法10的其他方面。因此，典型的下一个步骤(未明确示出)涉及处理灯光舞台捕获的数据，以生成可用于方法40和方法10的后续步骤的公共中性模型拓扑44。然后，还有涉及捕获演员的rom表演的第二步骤(如图1c中的框46所示)。通常，该rom捕获步骤46是在演员就座(seated)时使用大约6-10个摄像头进行的。该rom捕获步骤46采用中性网格拓扑44以及若干rom姿势的演员表演(作为输入)，以生成高分辨率网格的特定于演员的rom 22，该rom可以用作训练数据22，以训练图1a的方法10中的演员到网格转换模型14。在典型情况下，在步骤46的就座捕获中捕获的数据具有与中性网格44的拓扑不同的拓扑。因此，在作为高分辨率网格的特定于演员的rom 22被输出之前，在步骤46的就座捕获中捕获的数据被进一步处理(未明确示出)以符合中性网格44的拓扑。rom捕获步骤46通常使用诸如南加州大学(usc)的创意技术研究所(ict)、dimensional imaging有限公司的di4d之类的组织的就座捕获机构和专有软件来进行。

6、用于生成可以在图1a的方法10中、用作训练数据22来训练演员到网格转换模型14的高分辨率3d cg网格的特定于演员的rom 22的方法40(图1c)的过程繁琐、昂贵(在计算资源和时间两方面)，需要顺序的处理步骤，并且需要演员参与多个不同的捕获会话。

7、普遍期望一种用于生成训练数据(呈高分辨率3d cg网格的特定于演员的rom的形式)的改进方法以及能够进行这种方法的系统，所述训练数据可用于训练诸如图1的模型14之类的演员到网格转换模型。

8、相关技术的前述例子和与其相关的限制旨在是说明性的而非排他性的。在阅读说明书和研究附图后，相关技术的其他限制对于本领域技术人员来说将变得显而易见。

技术实现思路

1、结合旨在是示例性和说明性而非限制范围的系统、工具和方法来描述和说明以下实施例及其各个方面。在各个实施例中，已经减少或消除了上述问题中的一个或多个，而其他实施例涉及其他改进。

2、本专利技术的一个方面提供一种用于生成呈多帧面部动画的形式的训练数据的方法，所述多帧中的每一帧被表示为包括多个顶点的三维(3d)网格，所述训练数据可用于训练特定于演员的演员到网格转换模型，所述演员到网格转换模型在被训练后，接收由头戴式摄像头(hmc)机构捕获的演员的表演，并推断该演员的表演的对应的特定于演员的3d网格。所述方法包括：接收由hmc机构捕获的演员运动范围(rom)表演作为输入，hmc捕获的rom表演包括若干帧的高分辨率图像数据，每一帧由多个摄像头捕获以提供每一帧的对应的多个图像；接收或生成包括多个顶点的3d网格拓扑的近似的特定于演员的rom，所述近似的特定于演员的rom包括所述3d网格拓扑的若干帧，每一帧指定所述多个顶点的3d位置；进行所述近似的特定于演员的rom的混合形状分解，以产生混合形状基础或多个混合形状；进行混合形状优化以获得混合形状优化的3d网格，所述混合形状优化包括针对每一帧hmc捕获的rom表演，确定混合形状权重的向量和多个变换参数，所述混合形状权重的向量和所述多个变换参数在应用于所述混合形状基础以重构所述3d网格拓扑时，使将损失归因于重构的3d网格拓扑和该帧hmc捕获的rom表演之间的差异的混合形状优化损失函数最小化；对所述混合形状优化的3d网格进行网格变形细化，以获得网格变形优化的3d网格，所述网格变形细化包括针对每一帧hmc捕获的rom表演，确定多个handle顶点的3d位置，所述多个handle顶点的3d位置在使用网格变形技术应用于所述混合形状优化的3d网格时，使将损失归因于变形的3d网格拓扑和hmc捕获的rom表演之间的本文档来自技高网...

【技术保护点】

1.一种用于生成呈多帧面部动画的形式的训练数据的方法，所述多帧中的每一帧被表示为包括多个顶点的三维(3D)网格，所述训练数据能用于训练特定于演员的演员到网格转换模型，所述演员到网格转换模型在被训练时，接收由头戴式摄像头(HMC)机构捕获的演员的表演，并推断该演员的表演的对应的特定于演员的3D网格，所述方法包括：

2.按照权利要求1或本文中的任何其他权利要求所述的方法，其中所述混合形状优化损失函数包括似然项，所述似然项：将相对高的损失归因于如下混合形状权重的向量，该混合形状权重的向量在应用于混合形状基础以重构3D网格拓扑时，导致基于所述近似的特定于演员的ROM相对不太可行的重构3D网格；将相对低的损失归因于如下混合形状权重的向量，该混合形状权重的向量在应用于混合形状基础以重构3D网格拓扑时，导致基于所述近似的特定于演员的ROM相对更可行的重构3D网格。

3.按照权利要求2或本文中的任何其他权利要求所述的方法，其中对于混合形状权重的每个向量，所述似然项基于使用混合形状权重的向量而重构的顶点的子集的位置相对于所述近似的特定于演员的ROM的顶点的位置的负对数似然。

4.按照权利要求1～3任意之一或本文中的任何其他权利要求所述的方法，其中混合形状优化包括：对于多帧HMC捕获的ROM表演中的每一帧，使用先前针对前一帧HMC捕获的ROM表演而优化的混合形状权重的向量和多个变换参数来开始混合形状优化过程。

5.按照权利要求1～4任意之一或本文中的任何其他权利要求所述的方法，其中进行网格变形细化包括：对于每一帧HMC捕获的ROM表演，确定多个handle顶点的3D位置，当针对连续多个N帧HMC捕获的ROM表演，使用网格变形技术将所述多个handle顶点的3D位置应用于混合形状优化的3D网格时，所述多个handle顶点的3D位置使网格变形细化损失函数最小化。

6.按照权利要求5或本文中的任何其他权利要求所述的方法，其中所述网格变形细化损失函数将损失归因于在每批连续多个N帧上，变形的3D网格拓扑和HMC捕获的ROM表演之间的差异。

7.按照权利要求5和6任意之一或本文中的任何其他权利要求所述的方法，其中对于每一帧HMC捕获的ROM表演，确定所述多个handle顶点的3D位置包括：对于每批连续多个N帧HMC捕获的ROM表演，使用来自在当前多个N帧HMC捕获的ROM表演之前的一帧HMC捕获的ROM表演的所述多个handle顶点的3D位置的估计，以确定所述网格变形细化损失函数的至少一部分。

8.按照权利要求1～7任意之一或本文中的任何其他权利要求所述的方法，其中进行所述网格变形细化包括：对于每一帧HMC捕获的ROM表演，从来自混合形状优化的3D网格的所述多个handle顶点的3D位置开始。

9.按照权利要求1～8任意之一或本文中的任何其他权利要求所述的方法，其中所述网格变形技术包括拉普拉斯网格变形、双拉普拉斯网格变形以及拉普拉斯网格变形和双拉普拉斯网格变形的组合中的至少一个。

10.按照权利要求9或本文中的任何其他权利要求所述的方法，其中所述网格变形技术包括拉普拉斯网格变形和双拉普拉斯网格变形的线性组合。

11.按照权利要求10或本文中的任何其他权利要求所述的方法，其中拉普拉斯网格变形和双拉普拉斯网格变形的线性组合的权重是用户可配置的参数。

12.按照权利要求1～11任意之一或本文中的任何其他权利要求所述的方法，其中基于所述网格变形优化的3D网格生成所述训练数据包括进行以下步骤的至少一个附加迭代：

13.按照权利要求1～11任意之一或本文中的任何其他权利要求所述的方法，其中基于所述网格变形优化的3D网格生成所述训练数据包括：

14.按照权利要求13或本文中的任何其他权利要求所述的方法，其中所述用户输入指示对所述网格变形优化的3D网格的一个或多个初始帧的修改，并且其中基于所述用户输入修改所述网格变形优化的3D网络的所述一帧或多帧包括：

15.按照权利要求14或本文中的任何其他权利要求所述的方法，其中将所述修改从所述一个或多个初始帧传播到所述一或多个其他帧包括实现加权姿势空间变形(WPSD)过程。

16.按照权利要求13～15任意之一或本文中的任何其他权利要求所述的方法，其中基于迭代输出的3D网格生成所述训练数据包括进行以下步骤的至少一个附加迭代：

17.按照权利要求1～16任意之一或本文中的任何其他权利要求所述的方法，其中所述混合形状优化损失函数包括深度项，对于每一帧HMC捕获的ROM表演，所述深度项将损失归因于基于重构的3D网格拓扑确定的深度与基于所述HMC捕...

【技术特征摘要】
【国外来华专利技术】

1.一种用于生成呈多帧面部动画的形式的训练数据的方法，所述多帧中的每一帧被表示为包括多个顶点的三维(3d)网格，所述训练数据能用于训练特定于演员的演员到网格转换模型，所述演员到网格转换模型在被训练时，接收由头戴式摄像头(hmc)机构捕获的演员的表演，并推断该演员的表演的对应的特定于演员的3d网格，所述方法包括：

2.按照权利要求1或本文中的任何其他权利要求所述的方法，其中所述混合形状优化损失函数包括似然项，所述似然项：将相对高的损失归因于如下混合形状权重的向量，该混合形状权重的向量在应用于混合形状基础以重构3d网格拓扑时，导致基于所述近似的特定于演员的rom相对不太可行的重构3d网格；将相对低的损失归因于如下混合形状权重的向量，该混合形状权重的向量在应用于混合形状基础以重构3d网格拓扑时，导致基于所述近似的特定于演员的rom相对更可行的重构3d网格。

3.按照权利要求2或本文中的任何其他权利要求所述的方法，其中对于混合形状权重的每个向量，所述似然项基于使用混合形状权重的向量而重构的顶点的子集的位置相对于所述近似的特定于演员的rom的顶点的位置的负对数似然。

4.按照权利要求1～3任意之一或本文中的任何其他权利要求所述的方法，其中混合形状优化包括：对于多帧hmc捕获的rom表演中的每一帧，使用先前针对前一帧hmc捕获的rom表演而优化的混合形状权重的向量和多个变换参数来开始混合形状优化过程。

5.按照权利要求1～4任意之一或本文中的任何其他权利要求所述的方法，其中进行网格变形细化包括：对于每一帧hmc捕获的rom表演，确定多个handle顶点的3d位置，当针对连续多个n帧hmc捕获的rom表演，使用网格变形技术将所述多个handle顶点的3d位置应用于混合形状优化的3d网格时，所述多个handle顶点的3d位置使网格变形细化损失函数最小化。

6.按照权利要求5或本文中的任何其他权利要求所述的方法，其中所述网格变形细化损失函数将损失归因于在每批连续多个n帧上，变形的3d网格拓扑和hmc捕获的rom表演之间的差异。

7.按照权利要求5和6任意之一或本文中的任何其他权利要求所述的方法，其中对于每一帧hmc捕获的rom表演，确定所述多个handle顶点的3d位置包括：对于每批连续多个n帧hmc捕获的rom表演，使用来自在当前多个n帧hmc捕获的rom表演之前的一帧hmc捕获的rom表演的所述多个handle顶点的3d位置的估计，以确定所述网格变形细化损失函数的至少一部分。

8.按照权利要求1～7任意之一或本文中的任何其他权利要求所述的方法，其中进行所述网格变形细化包括：对于每一帧hmc捕获的rom表演，从来自混合形状优化的3d网格的所述多个handle顶点的3d位置开始。

10.按照权利要求9或本文中的任何其他权利要求所述的方法，其中所述网格变形技术包括拉普拉斯网格变形和双拉普拉斯网格变形的线性组合。

11.按照权利要求10或本文中的任何其他权利要求所述的方法，其中拉普拉斯网格变形和双拉普拉斯网格变形的线性组合的权重是用户可配置的参数。

12.按照权利要求1～11任意之一或本文中的任何其他权利要求所述的方法，其中基于所述网格变形优化的3d网格生成所述训练数据包括进行以下步骤的至少一个附加迭代：

13.按照权利要求1～11任意之一或本文中的任何其他权利要求所述的方法，其中基于所述网格变形优化的3d网格生成所述训练数据包括：

14.按照权利要求13或本文中的任何其他权利要求所述的方法，其中所述用户输入指示对所述网格变形优化的3d网格的一个或多个初始帧的修改，并且其中基于所述用户输入修改所述网格变形优化的3d网络的所述一帧或多帧包括：

15.按照权利要求14或本文中的...

【专利技术属性】
技术研发人员：L·D·莫泽，D·A·麦克林，J·M·F·塞拉，
申请(专利权)人：数字王国虚拟人美国股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人