当前位置: 首页 > 专利查询>英特尔公司专利>正文

化身视频装置和方法制造方法及图纸

技术编号:15919623 阅读:25 留言:0更新日期:2017-08-02 04:47
本文公开了与创建化身视频相关联的装置,方法和存储介质。在实施例中,装置可以包括一个或多个面部表情引擎,动画化渲染引擎和视频生成器。一个或多个面部表情引擎可以被配置为接收视频,语音和/或文本输入,并且作为响应,至少部分地基于所接收的视频,语音和/或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情。动画化渲染引擎可以被配置为接收一个或多个动画化消息,并且驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器可以被配置为捕获多个化身的动画化和渲染,以生成视频。可以描述和/或要求保护其他实施例。

【技术实现步骤摘要】
【国外来华专利技术】化身视频装置和方法
本公开涉及数据处理领域。更具体地,本公开涉及化身(avatar)视频的创建,包括吐舌头检测。
技术介绍
在本文中提供的
技术介绍
描述用于一般地呈现本公开的环境的目的。除非在本文中另外指出,否则在这个部分中描述的材料不是本申请中的权利要求的现有技术,并且不因包括在这个部分中而被承认为现有技术。业余爱好者制作的微电影和卡通片视频已经变得越来越受欢迎,尤其是在社交网络中。一个例子是分享在上的美国连续喜剧“烦人的橘子(AnnoyingOrange)”,其中一种拟人橘子骚扰其他水果,蔬菜和各种其他对象,并开玩笑。这些视频中的每一个通常由简单的角色组成,但是讲述一个有趣的故事。尽管这些视频通常不需要大量预算或主流制片厂支持来生产它们,但是对于业余爱好者而言经由当今的图形编辑软件和/或电影制作套件来创建它们仍然不容易。通常仍然需要一个小型工作室,以及具有在如下领域积累了数年艺术技能的经验丰富的艺术家,例如人体动作捕获和重新定位目标,角色动画化和渲染。附图说明通过下面结合附图进行的详细描述将会容易地理解实施例。为了方便这种描述,相同的附图标记指定相同的结构元件。在附图中的各图中,作为示例而非作为限制示出实施例。图1图示根据所公开的实施例的化身视频生成系统的框图。图2图示根据所公开的实施例的用于生成化身视频的过程。图3图示根据所公开的实施例的图1中吐舌头检测器的更详细的框图。图4图示根据所公开的实施例的所提取的嘴部区域的子窗口。图5图示根据所公开的实施例的所生成视频的两个图像帧。图6图示根据所公开的实施例的适合用于实施本公开的各种方面的示例计算机系统。图7图示根据所公开的实施例的具有用于实施参考图1-5描述的方法的指令的存储介质。具体实施方式本文公开了与创建化身视频相关联的装置,方法和存储介质。在实施例中,装置可以包括彼此耦合的一个或多个面部表情引擎,动画化渲染引擎和视频生成器。一个或多个面部表情引擎可以被配置为接收视频,语音和/或文本输入,并且作为响应,至少部分地基于所接收的视频,语音和/或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情。动画化渲染引擎可以与一个或多个面部表情引擎耦合,并且被配置为接收一个或多个动画化消息,并且驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器可以与动画化渲染引擎耦合,并且被配置为捕获多个化身的动画化和渲染,以生成视频。在实施例中,视频驱动面部表情引擎可以包括吐舌头检测器。吐舌头检测器可以包括彼此耦合的嘴部区域检测器,嘴部区域提取器和舌头分类器。嘴部区域检测器可以被配置为识别多个面部界标(landmarks)的位置,该面部界标与在图像帧中识别嘴部相关联。嘴部区域提取器可以与嘴部区域检测器耦合,并且被配置为至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域。舌头分类器可以与嘴部区域提取器耦合,用于分析所提取的嘴部区域中的多个子窗口以检测吐舌头。在实施例中,吐舌头检测器可以进一步包括与舌头分类器耦合的时间滤波器,并被配置为接收舌头分类器针对多个图像帧的多个结果,并且在从舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。在下面的详细描述中,参考形成其一部分的附图,其中相同的数字始终指代相同的部分并且其中作为说明示出可实施的实施例。应该理解,在不脱离本公开的范围的情况下可利用其他实施例并且可做出结构或逻辑改变。因此,不应该在限制性意义上理解下面的详细描述,并且由所附权利要求及其等同物限定实施例的范围。在所附描述中公开本公开的各方面。可在不脱离本公开的精神或范围的情况下设计本公开的替代实施例及其等同物。应该注意的是,以下公开的相同的元件由附图中的相同的附图标记指示。各种操作可被以最有助于理解要求保护的主题的方式依次描述为多个离散的动作或操作。然而,描述的次序不应该被解释为暗示这些操作必须是次序相关的。特别地,这些操作可不按照呈现的次序执行。可按照与描述的实施例不同的次序执行描述的操作。在另外的实施例中,可执行各种另外的操作和/或可省略描述的操作。就本公开而言,短语“A和/或B”意指(A)、(B)或(A和B)。就本公开而言,短语“A、B和/或C”意指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。描述可使用短语“在一个实施例中”或“在实施例中”,它们中的每一个可指代相同或不同实施例中的一个或多个。另外,如针对本公开的实施例所使用的术语“包括”、“包含”、“具有”等是同义的。如在本文中所使用,术语“模块”可指代专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供描述的功能的其他合适组件的一部分,或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供描述的功能的其他合适组件。现在参考图1,其中示出了根据所公开的实施例的化身视频生成系统。如所图示的,化身视频生成系统100可以包括所示的彼此耦合的一个或多个面部表情引擎102,化身动画化渲染引擎104和视频生成器106。如前所述,且如下更详细地,一个或多个面部表情引擎102可以被配置为接收视频,语音和/或文本输入,并且作为响应,至少部分地基于所接收的视频,语音和/或文本输入来生成具有面部表情参数的多个动画化消息108,该面部表情参数描绘多个化身的面部表情。面部表情可以包括,但不限于,眼部和/或嘴部运动,头部姿势,诸如头部旋转、运动和/或靠近或远离相机等等。动画化渲染引擎104可以与一个或多个面部表情引擎102耦合,并且被配置为接收一个或多个动画化消息108,并且驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器106可以与动画化渲染引擎104耦合,并且被配置为捕获多个化身的动画化和渲染,以生成视频。在实施例中,面部表情引擎102可以包括与化身动画化渲染引擎104并行耦合的视频驱动面部表情引擎(VDFEE)112,视频识别面部表情引擎(VRFEE)114和基于文本的面部表情引擎(TBFEE)116。VDFEE112可以被配置为接收具有多个图像帧(例如来自图像源,诸如相机(未示出))的视频输入,并且分析图像帧中的面部运动,诸如但不限于眼部和/或嘴部运动,头部姿势等。头部姿势可以包括头部旋转,运动和/或靠近或远离相机。此外,VDFEE112可以被配置为生成具有面部表情参数的多个动画化消息108,该面部表情参数描绘多个化身的面部表情。动画化消息108的生成可以至少部分地基于图像帧的分析结果来执行。例如,VDFEE112可以被配置为分析图像帧中的面部界标或头部姿势,并且生成具有面部表情参数的多个动画化消息108的至少一个子集,该面部表情参数描绘多个化身的面部表情。至少部分地基于图像帧中面部界标或头部姿势,面部表情可以包括化身的眼部和嘴部运动或头部姿势。在实施例中,VDFEE112可以配置有(或可供访问)关于混合形状(和可选地,对应的权重)的数据,该混合形状将被应用于化身的中性版本以使本文档来自技高网...
化身视频装置和方法

【技术保护点】
一种用于动画化渲染化身的装置,包括:一个或多个处理器;以及吐舌头检测器,将由所述一个或多个处理器操作该吐舌头检测器以检测图像帧中的吐舌头状态,包括嘴部区域检测器,用于识别多个面部界标的位置,该面部界标与在所述图像帧中识别嘴部相关联,嘴部区域提取器,用于至少部分地基于所识别的多个面部界标的位置,从所述图像帧中提取嘴部区域,以及舌头分类器,用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头。

【技术特征摘要】
【国外来华专利技术】1.一种用于动画化渲染化身的装置,包括:一个或多个处理器;以及吐舌头检测器,将由所述一个或多个处理器操作该吐舌头检测器以检测图像帧中的吐舌头状态,包括嘴部区域检测器,用于识别多个面部界标的位置,该面部界标与在所述图像帧中识别嘴部相关联,嘴部区域提取器,用于至少部分地基于所识别的多个面部界标的位置,从所述图像帧中提取嘴部区域,以及舌头分类器,用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头。2.根据权利要求1所述的装置,其中,所述嘴部区域检测器用于识别所述图像帧中的下巴点,嘴部左角和嘴部右角的位置,并且其中,所述嘴部区域提取器用于至少部分地基于经识别的所述下巴点,嘴部左角和嘴部右角的位置,来从所述图像帧中提取所述嘴部区域。3.根据权利要求2所述的装置,其中,所述嘴部区域提取器用于进一步对所提取的嘴部区域进行逐尺寸标准化。4.根据权利要求1所述的装置,其中,所述舌头分类器用于分析多个子窗口的多个吐舌头特征,所述多个吐舌头特征包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。5.根据权利要求1-4中任意一项所述的装置,其中,所述吐舌头检测器进一步包括时间滤波器,所述时间滤波器用于接收所述舌头分类器针对多个图像帧的多个结果,并且在从所述舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。6.一种用于动画化和渲染多个化身的装置,包括:一个或多个面部表情引擎,用于接收视频,语音或文本输入,并且至少部分地基于所接收的视频,语音或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情;动画化渲染引擎,与所述一个或多个面部表情引擎耦合,以接收所述一个或多个动画化消息,以及根据所述多个动画化消息来驱动多个化身模型,以使用所描绘的所述面部表情来动画化和渲染所述多个化身;以及视频生成器,与所述动画化渲染引擎耦合,以捕获所述多个化身的动画化和渲染,并且至少部分地基于所捕获的动画化和渲染来生成视频。7.根据权利要求6所述的装置,其中,所述一个或多个面部表情引擎包括视频驱动面部表情引擎,用于接收具有多个图像帧的视频输入,分析所述图像帧,以及至少部分地基于所述图像帧的分析结果,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情。8.根据权利要求7所述的装置,其中,所述视频驱动面部表情引擎用于分析所述图像帧中的面部界标或头部姿势,并且至少部分地基于图像帧中的面部界标或头部姿势,来生成具有面部表情参数的所述多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括化身的眼部和嘴部运动或头部姿势。9.根据权利要求6所述的装置,其中,所述一个或多个面部表情引擎包括语音识别面部表情引擎,该语音识别面部表情引擎用于接收音频输入,分析所述音频输入,以及至少部分地基于音频输入的分析结果,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情。10.根据权利要求9所述的装置,其中,所述语音识别面部表情引擎用于至少分析音频输入的音量或音节,并且至少部分地基于所述音频输入的音量或音节,来生成具有面部表情参数的所述多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。11.根据权利要求6所述的装置,其中,所述一个或多个面部表情引擎包括基于文本的面部表情引擎,该基于文本的面部表情引擎用于接收文本输入,分析所述文本输入,并且至少部分地基于文本输入的分析结果,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情。12.根据权利要求11所述的装置,其中,所述基于文本的面部表情引擎用于分析文本输入的语义,并且至少部分地基于所述文本输入的语义,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。13.根据权利要求11所述的装置,其中,所述视频生成器用于捕获所述多个化身的动画化和渲染的多个图像帧,并且至少部分地基于所捕获的动画化和渲染的所述图像帧来生成视频。14.根据权利要求11-13中任意一项所述的装置,其中,所述一个或多个面部表情引擎包括视频驱动面部表情引擎,所述视频驱动面部表情引擎包括用于检测图像帧中吐舌头状态的吐舌头检测器。15.一种用于动画化渲染化身的方法,包括:通过计算设备接收多个图像帧;以及检测一个或多个所述图像帧中的吐舌头状态,包括:识别多个面部界标的位置,该面部界标与在所述图像帧中识别嘴...

【专利技术属性】
技术研发人员:杜杨洲李文龙栗强童晓峰TH·金M·朴
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1