化身视频装置和方法制造方法及图纸

技术编号：15919623 阅读：25 留言：0更新日期：2017-08-02 04:47

本文公开了与创建化身视频相关联的装置，方法和存储介质。在实施例中，装置可以包括一个或多个面部表情引擎，动画化渲染引擎和视频生成器。一个或多个面部表情引擎可以被配置为接收视频，语音和/或文本输入，并且作为响应，至少部分地基于所接收的视频，语音和/或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情。动画化渲染引擎可以被配置为接收一个或多个动画化消息，并且驱动多个化身模型，以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器可以被配置为捕获多个化身的动画化和渲染，以生成视频。可以描述和/或要求保护其他实施例。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】化身视频装置和方法
本公开涉及数据处理领域。更具体地，本公开涉及化身(avatar)视频的创建，包括吐舌头检测。
技术介绍
在本文中提供的
技术介绍
描述用于一般地呈现本公开的环境的目的。除非在本文中另外指出，否则在这个部分中描述的材料不是本申请中的权利要求的现有技术，并且不因包括在这个部分中而被承认为现有技术。业余爱好者制作的微电影和卡通片视频已经变得越来越受欢迎，尤其是在社交网络中。一个例子是分享在上的美国连续喜剧“烦人的橘子(AnnoyingOrange)”，其中一种拟人橘子骚扰其他水果，蔬菜和各种其他对象，并开玩笑。这些视频中的每一个通常由简单的角色组成，但是讲述一个有趣的故事。尽管这些视频通常不需要大量预算或主流制片厂支持来生产它们，但是对于业余爱好者而言经由当今的图形编辑软件和/或电影制作套件来创建它们仍然不容易。通常仍然需要一个小型工作室，以及具有在如下领域积累了数年艺术技能的经验丰富的艺术家，例如人体动作捕获和重新定位目标，角色动画化和渲染。附图说明通过下面结合附图进行的详细描述将会容易地理解实施例。为了方便这种描述，相同的附图标记指定相同的结构元件。在附图中的各图中，作为示例而非作为限制示出实施例。图1图示根据所公开的实施例的化身视频生成系统的框图。图2图示根据所公开的实施例的用于生成化身视频的过程。图3图示根据所公开的实施例的图1中吐舌头检测器的更详细的框图。图4图示根据所公开的实施例的所提取的嘴部区域的子窗口。图5图示根据所公开的实施例的所生成视频的两个图像帧。图6图示根据所公开的实施例的适合用于实施本公开的各种方面的示例计算机系统。图7...
化身视频装置和方法

【技术保护点】
一种用于动画化渲染化身的装置，包括：一个或多个处理器；以及吐舌头检测器，将由所述一个或多个处理器操作该吐舌头检测器以检测图像帧中的吐舌头状态，包括嘴部区域检测器，用于识别多个面部界标的位置，该面部界标与在所述图像帧中识别嘴部相关联，嘴部区域提取器，用于至少部分地基于所识别的多个面部界标的位置，从所述图像帧中提取嘴部区域，以及舌头分类器，用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头。

【技术特征摘要】
【国外来华专利技术】1.一种用于动画化渲染化身的装置，包括：一个或多个处理器；以及吐舌头检测器，将由所述一个或多个处理器操作该吐舌头检测器以检测图像帧中的吐舌头状态，包括嘴部区域检测器，用于识别多个面部界标的位置，该面部界标与在所述图像帧中识别嘴部相关联，嘴部区域提取器，用于至少部分地基于所识别的多个面部界标的位置，从所述图像帧中提取嘴部区域，以及舌头分类器，用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头。2.根据权利要求1所述的装置，其中，所述嘴部区域检测器用于识别所述图像帧中的下巴点，嘴部左角和嘴部右角的位置，并且其中，所述嘴部区域提取器用于至少部分地基于经识别的所述下巴点，嘴部左角和嘴部右角的位置，来从所述图像帧中提取所述嘴部区域。3.根据权利要求2所述的装置，其中，所述嘴部区域提取器用于进一步对所提取的嘴部区域进行逐尺寸标准化。4.根据权利要求1所述的装置，其中，所述舌头分类器用于分析多个子窗口的多个吐舌头特征，所述多个吐舌头特征包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。5.根据权利要求1-4中任意一项所述的装置，其中，所述吐舌头检测器进一步包括时间滤波器，所述时间滤波器用于接收所述舌头分类器针对多个图像帧的多个结果，并且在从所述舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。6.一种用于动画化和渲染多个化身的装置，包括：一个或多个面部表情引擎，用于接收视频，语音或文本输入，并且至少部分地基于所接收的视频，语音或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情；动画化渲染引擎，与所述一个或多个面部表情引擎耦合，以接收所述一个或多个动画化消息，以及根据所述多个动画化消息来驱动多个化身模型，以使用所描绘的所述面部表情来动画化和渲染所述多个化身；以及视频生成器，与所述动画化渲染引擎耦合，以捕获所述多个化身的动画化和渲染，并且至少部分地基于所捕获的动画化和渲染来生成视频。7.根据权利要求6所述的装置，其中，所述一个或多个面部表情引擎包括视频驱动面部表情引擎，用于接收具有多个图像帧的视频输入，分析所述图像帧，以及至少部分地基于所述图像帧的分析结果，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情。8.根据权利要求7所述的装置，其中，所述视频驱动面部表情引擎用于分析所述图像帧中的面部界标或头部姿势，并且至少部分地基于图像帧中的面部界标或头部姿势，来生成具有面部表情参数的所述多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括化身的眼部和嘴部运动或头部姿势。9.根据权利要求6所述的装置，其中，所述一个或多个面部表情引擎包括语音识别面部表情引擎，该语音识别面部表情引擎用于接收音频输入，分析所述音频输入，以及至少部分地基于音频输入的分析结果，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情。10.根据权利要求9所述的装置，其中，所述语音识别面部表情引擎用于至少分析音频输入的音量或音节，并且至少部分地基于所述音频输入的音量或音节，来生成具有面部表情参数的所述多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。11.根据权利要求6所述的装置，其中，所述一个或多个面部表情引擎包括基于文本的面部表情引擎，该基于文本的面部表情引擎用于接收文本输入，分析所述文本输入，并且至少部分地基于文本输入的分析结果，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情。12.根据权利要求11所述的装置，其中，所述基于文本的面部表情引擎用于分析文本输入的语义，并且至少部分地基于所述文本输入的语义，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。13.根据权利要求11所述的装置，其中，所述视频生成器用于捕获所述多个化身的动画化和渲染的多个图像帧，并且至少部分地基于所捕获的动画化和渲染的所述图像帧来生成视频。14.根据权利要求11-13中任意一项所述的装置，其中，所述一个或多个面部表情引擎包括视频驱动面部表情引擎，所述视频驱动面部表情引擎包括用于检测图像帧中吐舌头状态的吐舌头检测器。15.一种用于动画化渲染化身的方法，包括：通过计算设备接收多个图像帧；以及检测一个或多个所述图像帧中的吐舌头状态，包括：识别多个面部界标的位置，该面部界标与在所述图像帧中识别嘴...

【专利技术属性】
技术研发人员：杜杨洲，李文龙，栗强，童晓峰，TH·金，M·朴，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人