基于照片视频的时空体积捕捉系统技术方案

技术编号:30253275 阅读:23 留言:0更新日期:2021-10-09 20:45
通过将一组高帧率机器视觉摄像机与一组高分辨率摄影相机结合,基于照片视频的时空体积捕获系统更高效地产生高帧率和高分辨率4D动态人类视频,而无需2个单独的3D和4D扫描仪系统。其通过对从时域稀疏的一组较高分辨率3D扫描关键帧对4D扫描视频数据的形状和纹理分辨率时域上采样减少了对于手动CG工作的需求,所述较高分辨率3D扫描帧通过使用机器视觉相机和摄影相机两者重构。与在初始化时使用单个静态模板模型(例如A或T姿势)的典型表现捕获系统不同,基于照片视频的时空体积捕获系统存储高分辨率3D模板模型的多个关键帧,用于4D扫描视频序列进行鲁棒和动态的形状和纹理细化。对于形状上采样,系统可以应用基于网格跟踪的时域形状超分辨率。对于纹理上采样,系统可以应用基于机器学习的时域纹理超分辨率。应用基于机器学习的时域纹理超分辨率。应用基于机器学习的时域纹理超分辨率。

【技术实现步骤摘要】
【国外来华专利技术】基于照片视频的时空体积捕捉系统
[0001]相关申请的交叉引用
[0002]本申请依据35U.S.C.
§
119(e)要求2018年12月20日提交的题为“TIME EFFICIENT VIDEO

BASED FACE AND BODY CAPTURE SYSTEM FOR ALBEDO

READY VIRTUAL HUMAN DIGITIZATION,3D CG MODELING AND NATURAL REENACTMENT”的序列号为62/782,862的美国临时专利申请的优先权,将其整个内容通过引用结合在本文中。


[0003]本专利技术涉及用于娱乐产业的三维计算机视觉和图形。更具体地,本专利技术涉及获取和处理用于电影、电视、音乐和游戏内容创建的三维计算机视觉和图形。

技术介绍

[0004]在电影/电视产业中,真人演员是生产成本的主要部分。此外,当使用实物演员时,由于伤害/事故有生产延迟的风险,并且有用于旅行的复杂的后勤和协调的需求。最近的趋势示出,用于虚拟制作的数字化的人类演员的使用越来越多。数字演员可以使人类不可能的超级英雄动作成为可能,而无需将真实的演员置于危险的特技动作中。然而,这种视觉特效(VFX)是高成本且费时的,其只有高预算的续集电影或电视节目才能负担得起。
[0005]在游戏产业中,对逼真的玩游戏的用户体验的追求在继续。在过去的10年中,游戏制作成本已经增加了10倍。在2020年,平均的AAA游戏的制作成本估计将达到2.5亿美元,与电影预算相似。逼真的玩游戏的用户体验的最大挑战是去在合理的时间/成本预算内创建逼真的游戏角色。虚拟人类创建是高度手动的,并且费时且昂贵。例如,每个角色的成本为8

15万美元,并且对于多个角色,成本加起来容易达到数百万美元。
[0006]最近的趋势是通过多视点相机3D/4D扫描仪高效地创建逼真的数字人类模型,而不是从头开始手工制作CG艺术品。世界各地都有各种3D扫描仪工作室(3Lateral、Avatta、TEN24、Pixel Light Effect、Eisko)和4D扫描仪工作室(4DViews、Microsoft、8i、DGene)用于基于相机捕获的人类数字化。
[0007]基于照片的3D扫描仪工作室由高分辨率摄影相机(photography camera)的多阵列组成。通常需要手动CG用于动画,因为其无法捕获自然表面动力学。基于视频的4D扫描仪(4D=3D+时间)工作室由高帧率机器视觉相机的多阵列组成。它捕捉自然表面动力学,但是由于摄像机(video camera)的分辨率,其保真度有限。

技术实现思路

[0008]基于照片视频的时空体积捕获系统通过从时域稀疏的一组高分辨率3D扫描关键帧对4D扫描视频数据的分辨率时域上采样而不是在初始化时的单个静态模板模型(例如,A或T姿势),更高效地产生高帧率和高分辨率4D动态人类视频,而无需2个单独的3D和4D扫描仪系统,并且减少对于手动CG工作的需求,所述3D扫描关键帧以较低的帧率来捕获人类动力学。另外,通过利用触发,视频获取被优化以致通常以高帧率捕获低分辨率多视点视频,
但是以较低的帧率同时捕获高分辨率多视点摄影相机与视频。关键帧定义为使用以较低的帧率同时触发的摄影相机和摄像机两者重构的高分辨率3D扫描模型。
[0009]在一方面,方法包含使用一个或多个摄影相机和一个或多个摄像机捕获内容,用设备触发一个或多个摄影相机和一个或多个摄像机以获取一个或多个关键帧,并使用该设备基于捕获的内容和一个或多个关键帧生成一个或多个模型。捕获内容包括捕获脸部表情和/或身体动作。触发包括利用触发定时以同时生成针对一个或多个摄影相机和一个或多个摄像机的触发。一个或多个摄影相机的触发定时包括周期性触发。一个或多个摄影相机的触发定时包括利用人类观察者来检测特定的脸部和/或身体表情。一个或多个摄影相机的触发定时包括由设备、一个或多个摄影相机和/或一个或多个摄像机自动检测特定的脸部或身体表情。使用一个或多个模型来实现:在基于低分辨率但高帧率的视频的4D扫描体积序列上的基于网格跟踪的时域形状超分辨率,以用于恢复在长动作序列内的高分辨率表面动力学,4D扫描体积序列通过在多个关键帧处使用高分辨率3D扫描模板来细化,高分辨率3D扫描模板通过一个或多个摄影相机和一个或多个摄像机两者来捕获。使用一个或多个模型来实现:在基于低分辨率但高帧率的视频的4D扫描体积序列上的基于机器学习的时域纹理超分辨率,4D扫描体积序列通过训练在多个关键帧处的高分辨率和低分辨率UV纹理对来细化,在每个关键帧处,使用摄影相机的图像数据来生成高分辨率UV纹理映射图,而使用摄像机的图像数据来生成低分辨率UV纹理映射图,并且为了更高的训练效率使用相同的网格拓扑以致纹理并置(collocated)在高和低分辨率UV纹理对之间。方法还包含使用包括脸部表情和身体动作的内容和一个或多个模型来生成计算机图形,其中生成计算机图形包括利用内容的关键帧和用于在关键帧之间过渡的内容的非关键帧。
[0010]在另一方面,设备包含用于存储应用的非暂时性存储器,该应用用于:实现触发以获取一个或多个关键帧,其中触发信号被发送到一个或多个摄影相机和一个或多个摄像机,以及基于一个或多个关键帧和从一个或多个摄影相机和一个或多个摄像机捕获的内容生成一个或多个模型,以及耦合到存储器的处理器,该处理器被配置用于处理应用。触发包括利用触发定时来同时生成针对一个或多个摄影相机和一个或多个摄像机的触发。一个或多个摄影相机的触发定时包括周期性触发。一个或多个摄影相机的触发定时包括利用人类观察者来检测特定的脸部和/或身体表情。一个或多个摄影相机的触发定时包括由设备、一个或多个摄影相机和/或一个或多个摄像机自动检测特定的脸部或身体表情。使用一个或多个模型来实现:在基于低分辨率但高帧率的视频的4D扫描体积序列上的基于网格跟踪的时域形状超分辨率,以用于恢复在长动作序列内的高分辨率表面动力学,4D扫描体积序列通过在多个关键帧处使用高分辨率3D扫描模板来细化,高分辨率3D扫描模板通过一个或多个摄影相机和一个或多个摄像机两者来捕获。使用一个或多个模型来实现:在基于低分辨率但高帧率的视频的3D体积序列上的基于机器学习的时域纹理超分辨率,基于视频的3D体积序列通过训练在多个关键帧处的高分辨率和低分辨率UV纹理对来细化,在每个关键帧处,使用摄影相机的图像数据来生成高分辨率UV纹理映射图,而使用摄像机的图像数据来生成低分辨率UV纹理映射图,并且为了更高的训练效率使用相同的网格拓扑以致纹理并置在高分辨率和低分辨率UV纹理对之间。应用还被配置为使用包括脸部表情和身体动作的内容和一个或多个模型来生成计算机图形,其中生成计算机图形包括利用内容的关键帧和用于在关键帧之间过渡的内容的非关键帧。
[0011]在另一方面,系统包含:第一组设备,其被配置为捕获对象的图像内容;第二组设备,其被配置为捕获对象的视频内容;以及计算设备,被配置为:实现触发以获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:使用一个或多个摄影相机和一个或多个摄像机捕获内容;用设备触发所述一个或多个摄影相机和所述一个或多个摄像机以获取一个或多个关键帧;和用所述设备基于所捕获的内容和所述一个或多个关键帧生成一个或多个模型。2.根据权利要求1所述的方法,其中捕获内容包括捕获动态脸部表情和/或动态身体动作。3.根据权利要求1所述的方法,其中触发包括利用触发定时来同时生成针对所述一个或多个摄影相机和所述一个或多个摄像机的触发。4.根据权利要求3所述的方法,其中所述一个或多个摄影相机的触发定时包括周期性触发。5.根据权利要求3所述的方法,其中所述一个或多个摄影相机的触发定时包括利用人类观察者来检测特定的脸部表情和/或身体表情。6.根据权利要求3所述的方法,其中所述一个或多个摄影相机的触发定时包括由所述设备、所述一个或多个摄影相机和/或所述一个或多个摄像机自动地检测特定脸部表情或身体表情。7.根据权利要求1所述的方法,其中所述一个或多个模型用于实现:在基于低分辨率但高帧率的视频的4D扫描体积序列上的基于网格跟踪的时域形状超分辨率,以用于恢复在长动作序列内的高分辨率表面动力学,4D扫描体积序列通过在多个关键帧处使用3D扫描高分辨率模板来细化,3D扫描高分辨率模板通过所述一个或多个摄影相机和所述一个或多个摄像机两者来捕获。8.根据权利要求1所述的方法,其中所述一个或多个模型用于实现:在基于低分辨率但高帧率的视频的4D扫描体积序列上的基于机器学习的时域纹理超分辨率,4D扫描体积序列通过训练在多个关键帧处的高分辨率和低分辨率UV纹理对来细化,在每个关键帧处,使用摄影相机的图像数据来生成高分辨率UV纹理映射图,而使用摄像机的图像数据来生成低分辨率UV纹理映射图,并且为了更高的训练效率使用相同的网格拓扑以致纹理并置在高分辨率和低分辨率UV纹理对之间。9.根据权利要求1所述的方法,还包括:使用包括所述脸部表情和身体动作的所述内容和所述一个或多个模型来生成计算机图形,其中生成所述计算机图形包括利用所述内容的关键帧和用于在所述关键帧之间过渡的所述内容的非关键帧。10.一种装置,包含:非暂时性存储器,用于存储应用,所述应用用于:实现获取一个或多个关键帧的触发,其中触发信号被发送到一个或多个摄影相机和一个或多个摄像机;和基于所述一个或多个关键帧和从所述一个或多个摄影相机和所述一个或多个摄像机捕获的内容来生成一个或多个模型;和耦合到所述存储器的处理器,所述处理器被配置用于处理所述应用。11.根据权利要求10所述的装置,其中触发包括利用触发定时来同时生成针对所述一个或多个摄影相机和所述一个或多个摄像机的触发。
12.根据权利要求11所述的装置,其中所述一个或多个摄影相机的触发定时包括周期性触发。13.根据权利要求11所述的装置,其中所述一个或多个摄影相机的触发定时包括利用人类观察者来检测特定的脸部表情和/或身体表情。14.根据权利要求11所述的装置,其中所述一个或多个摄影相机的触发定时包括由所述设备、所述一个或多个摄影相机和/或所述一个或多个摄像机自动检测特定的脸部表情或身体表情。15.根据权利要求10所述的装置,其中所述一个或多个模型用于实现:在基于低分辨率但高帧率的视频的4D扫描体积序列上的基于网格跟踪的时域形状超分辨率,以...

【专利技术属性】
技术研发人员:田代健治李俊杰张庆
申请(专利权)人:索尼集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1