当前位置: 首页 > 专利查询>辉达公司专利>正文

使用递归神经网络进行动态面部分析的系统和方法技术方案

技术编号:21686769 阅读:18 留言:0更新日期:2019-07-24 14:50
公开了一种用于动态面部分析的方法、计算机可读介质和系统。所述方法包括以下步骤:接收表示图像帧序列的视频数据,所述图像帧序列包括至少一个头部,以及由神经网络从所述视频数据中提取包括所述至少一个头部的俯仰角、偏转角和转动角的空间特征。所述方法还包括步骤:由递归神经网络处理所述图像帧序列中的两个或更多图像帧的所述空间特征,以产生所述至少一个头部的头部姿势估计。

The System and Method of Dynamic Facial Analysis Using Recursive Neural Network

【技术实现步骤摘要】
使用递归神经网络进行动态面部分析的系统和方法
本专利技术涉及面部分析,并且更具体地涉及使用神经网络的面部分析。
技术介绍
视频图像数据的面部分析用于面部动画捕捉、人类活动识别和人机交互。面部分析通常包括头部姿势估计和面部地标(faciallandmark)定位。视频中的面部分析是许多应用程序的关键,诸如面部动画捕捉、驾驶员辅助系统和人机交互。用于视频中的面部分析的常规技术估计各个帧的面部属性,然后使用时间贝叶斯过滤来细化估计。视觉估计和时间轨迹这两个相互关联的任务被分离开,并且需要针对贝叶斯过滤进行仔细的手工模型设计和参数调整。需要解决与现有技术相关的这些问题和/或其他问题。
技术实现思路
公开了一种用于视频中的动态面部分析的方法、计算机可读介质和系统。所述方法包括以下步骤:接收表示包括至少一个头部的图像帧序列的视频数据,以及由神经网络从所述视频数据中提取包括所述至少一个头部的俯仰角、偏转角和转动角的空间特征。所述方法还包括步骤:由递归神经网络处理所述图像帧序列中的两个或更多图像帧的所述空间特征,以为所述至少一个头部产生头部姿势估计。附图简要说明图1A示出了根据一个实施例的用于执行视频中的动态面部分析的方法的流程图;图1B示出了根据一个实施例的用于视频数据的动态面部分析的系统的框图;图1C示出了根据一个实施例的用于图1B中所示的视频数据的动态面部分析的系统的另一框图;图2A示出了根据一个实施例的用于生成每帧头部姿势估计的神经网络的框图;图2B示出了根据一个实施例的用于生成每帧头部姿势估计的RNN的框图;图2C示出了根据一个实施例的用于生成每帧面部地标的神经网络的框图;图2D示出了根据一个实施例的用于生成每帧面部地标的RNN的框图;图2E示出了根据一个实施例的用于训练和部署图1B和图1C中所示的动态面部分析系统的方法的另一流程图;图2F示出了根据一个实施例的用于视频数据的动态面部分析的系统的又一框图;图3示出了根据一个实施例的并行处理单元;图4A示出了根据一个实施例的图3的并行处理单元的通用处理集群;图4B示出了根据一个实施例的图3的并行处理单元的分区单元;图5示出了根据一个实施例的图4A的流式多处理器;图6示出了可以实现各种先前实施例的各种架构和/或功能的示例性系统。详细描述本公开描述了一种面部分析系统,其包括用于动态估计和跟踪视频图像数据中的面部特征的神经网络和递归神经网络(recurrentneuralnetwork,RNN)。面部分析系统接收没有深度的颜色数据(例如,RGB分量值)作为输入,并且使用大规模合成数据集来训练,以估计和跟踪头部姿势或面部地标的三维(3D)位置。换句话说,可以训练相同的面部分析系统用于估计和跟踪头部姿势或3D面部地标。在以下描述的上下文中,头部姿势估计由俯仰角(pitchangle)、偏转角(yawangle)和转动角(rollangle)限定。在一个实施例中,神经网络是卷积神经网络(convolutionalneuralnetwork,CNN)。在一个实施例中,RNN用于估计和跟踪视频中的面部特征两者。与用于视频的面部分析的传统技术相比,跟踪所需的参数是从训练数据自动学习的。另外,面部分析系统为来自连续视频帧的各种类型的面部特征的视觉估计和时间跟踪两者提供整体解决方案。图1示出了根据一个实施例的用于动态面部分析的方法100的流程图。方法100可以由程序、定制电路或定制电路和程序的组合来执行。例如,方法100可以由GPU(graphicsprocessingunit,图形处理单元)、CPU(centralprocessingunit,中央处理单元)、神经网络或能够执行面部分析框架的任何处理器执行。此外,本领域普通技术人员将理解的是,执行方法100的任何系统都在本专利技术的实施例的范围和精神内。在步骤110中,接收表示包括至少一个头部的图像帧序列的视频数据。在一个实施例中,视频数据包括颜色数据,诸如图像帧的每一个中的每个像素的红色、绿色和蓝色分量值。在一个实施例中,视频数据不包括每个图像帧的深度数据。在一个实施例中,视频数据是由相机捕获的实时图像。在一个实施例中,视频数据包括在训练数据集中。在一个实施例中,训练数据集是合成训练数据集,其包括头部姿势和面部地标两者的准确标签。在一个实施例中,合成训练数据集包括超过500,000帧的视频数据。在步骤120中,由神经网络从视频数据中提取包括至少一个头部的俯仰角、偏转角和转动角的空间特征。在一个实施例中,神经网络是卷积神经网络(CNN)。在一个实施例中,CNN包括视觉几何组(VGG16)神经网络。在以下描述的上下文中,俯仰角、偏转角和转动角限定视频数据中的头部姿势的估计。在步骤130中,由递归神经网络(RNN)处理图像帧序列中的两个或更多图像帧的空间特征,以产生至少一个头部的头部姿势估计。在一个实施例中,RNN是门控递归单元(gatedrecurrentunit,GRU)神经网络。在一个实施例中,RNN是长短期记忆(longshort-termmemory,LSTM)神经网络。在一个实施例中,RNN是全连接的RNN(fullyconnectedRNN,FC-RNN)。在一个实施例中,神经网络与RNN分开训练。在一个实施例中,神经网络和RNN各自被训练以估计和跟踪视频数据中的头部姿势。在一个实施例中,神经网络和RNN各自被训练以估计和跟踪视频数据中的三维(3D)面部地标。在以下描述的上下文中,面部地标是空间中与头部上的位置对应的3D位置。现在将根据用户的期望,阐述关于可以或不可以实现前述框架的各种可选架构和特征的更多说明性信息。应该强烈注意的是,出于说明性目的阐述了以下信息,并且不应该被解释为以任何方式进行限制。以下特征中的任一个可以任选地并入或不排除所描述的其他特征。图1B示出了根据一个实施例的用于视频数据的动态面部分析的系统105的框图。系统105可以被配置为执行图1A的方法100。系统105包括神经网络115和RNN125。神经网络115和/或RNN125可以由图形处理器或能够执行方法100的必要操作的任何处理器实现。系统105为估计和跟踪各种面部特征以用于动态面部分析提供广义的和集成的解决方案。神经网络115接收视频输入106,视频输入106包括表示图像帧序列的视频数据,所述图像帧序列包括至少一个头部。神经网络115从视频输入106提取空间特征并产生每帧估计116。在一个实施例中,每帧估计116是每帧头部姿势估计。在另一实施例中,每帧估计116是每帧面部地标估计。每帧估计116包括视频输入106的每个帧的至少一个头部的俯仰角、偏转角和转动角。RNN125处理每帧估计116并产生跟踪数据,具体地是输出轨迹126。在以下描述的上下文中,输出轨迹被稳定并且为整个图像帧序列中的每个帧进行去噪估计。在一个实施例中,跟踪数据是头部姿势跟踪数据。在另一实施例中,跟踪数据是面部地标跟踪数据。在一个实施例中,当神经网络115和RNN125被单独或一起训练以估计和跟踪视频输入106中的头部姿势时,视频输入106包括第一训练数据集的至少一部分。在另一个实施例中,当神经网络115和RNN125被单独或一起训练以估计和跟踪视频输入106中的3D面部本文档来自技高网...

【技术保护点】
1.一种用于面部分析的计算机实现的方法,包括:接收表示图像帧序列的视频数据,所述图像帧序列包括至少一个头部;由神经网络从所述视频数据中提取空间特征,所述空间特征包括所述至少一个头部的俯仰角、偏转角和转动角;以及由递归神经网络(RNN)处理所述图像帧序列中的两个或更多图像帧的所述空间特征,以产生所述至少一个头部的头部姿势估计。

【技术特征摘要】
2017.12.08 US 15/836,5491.一种用于面部分析的计算机实现的方法,包括:接收表示图像帧序列的视频数据,所述图像帧序列包括至少一个头部;由神经网络从所述视频数据中提取空间特征,所述空间特征包括所述至少一个头部的俯仰角、偏转角和转动角;以及由递归神经网络(RNN)处理所述图像帧序列中的两个或更多图像帧的所述空间特征,以产生所述至少一个头部的头部姿势估计。2.根据权利要求1所述的方法,其中,提取所述图像帧序列中的每个图像帧的所述空间特征。3.根据权利要求1所述的方法,其中,使用第一训练数据集训练所述神经网络,使用第二数据集训练所述RNN。4.根据权利要求1所述的方法,其中,所述神经网络是卷积神经网络(CNN)。5.根据权利要求1所述的方法,其中,使用一个数据集同时训练所述神经网络和所述RNN。6.根据权利要求1所述的方法,其中,所述图像帧序列包括与所述至少一个头部相关联的面部地标,以及所述神经网络从所述视频数据中提取附加空间特征;以及所述RNN处理所述图像帧序列中的所述两个或更多图像帧的所述附加空间特征,以产生面部地标跟踪数据。7.根据权利要求6所述的方法,其中,所述面部地标跟踪数据是三维位置。8.根据权利要求1所述的方法,其中,所述RNN是全连接的RNN。9.根据权利要求1所述的方法,其中,所述视频数据包括颜色值。10.根据权利要求1所述的方法,其中,所述神经网络包括全连接层。11.一种面部分析系统,包括:神经网络,其被配置为:接收表示图像帧序列的视频数据,所述图像帧序列包括至少一个头部;从所述视频数据中提取空间特征,所述空间特征包括所述至少一个头部的俯仰角、偏转角和转动角;以及递归...

【专利技术属性】
技术研发人员:顾金伟杨晓东莎琳妮·德·梅洛简·考茨
申请(专利权)人:辉达公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1