面部表情识别制造技术

技术编号:39255276 阅读:11 留言:0更新日期:2023-10-30 12:06
提供了用于面部表情识别的系统和技术。在一些示例中,系统接收对应于人的面部的图像帧。系统还基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息。然后,系统将图像帧和地标特征信息输入到被训练用于面部表情识别的神经网络的至少一层。系统进一步使用神经网络确定与面部相关联的面部表情。用神经网络确定与面部相关联的面部表情。用神经网络确定与面部相关联的面部表情。

【技术实现步骤摘要】
【国外来华专利技术】面部表情识别


[0001]本公开涉及面部表情识别。更具体地,本公开涉及基于在被训练用于面部表情识别的神经网络中实施面部地标检测技术来改进面部表情识别系统。

技术介绍

[0002]许多设备和系统允许通过生成场景的图像(或帧)和/或视频数据(包括多个帧)来捕获场景。例如,相机或包括相机的计算设备(例如,移动设备,如包括一个或多个相机的移动电话或智能手机)可捕获场景的帧的序列。图像和/或视频数据可由此类设备和系统(例如移动设备、IP相机等)捕获和处理,并可被输出用于消费(例如,在该设备和/或其他设备上显示)。在一些情况下,图像和/或视频数据可由此类设备和系统捕获,并输出以由其他设备处理和/或消费。
[0003]可以对图像进行处理(例如,使用人的面部或对象检测、识别、分割等),以确定图像中存在的任何对象或人,这对许多应用都是有用的。例如,可以确定用于识别图像中捕获的人的面部表情的模型,并且该模型可用于促进各种应用和系统的有效操作。此类应用和系统的示例包括增强现实(AR)、人工现实(AI)、物联网(IoT)设备、安全系统(例如,车辆安全系统)、情感识别系统,以及许多其他应用和系统。

技术实现思路

[0004]本文中描述了可被实施用于改进面部表情识别的系统和技术。根据至少一个示例,提供了用于改进面部表情识别的装置。示例装置可以包括存储器(或多个存储器)和耦合到存储器(或多个存储器)的处理器或多个处理器(例如,以电路实施)。(一个或多个)处理器被配置为:接收对应于人的面部的图像帧;基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息;向被训练用于面部表情识别的神经网络的至少一层输入图像帧和地标特征信息;以及使用神经网络确定与面部相关联的面部表情。
[0005]另一个示例装置可以包括:用于接收对应于人的面部的图像帧的部件;用于基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息的部件;用于向被训练用于面部表情识别的神经网络的至少一层输入图像帧和地标特征信息的部件;以及用于使用神经网络确定与面部相关联的面部表情的部件。
[0006]在另一个示例中,提供了用于改进面部表情识别的方法。示例方法可包括接收对应于人的面部的图像帧。该方法还可包括基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息。该方法可以包括向被训练用于面部表情识别的神经网络的至少一层输入图像帧和地标特征信息。该方法还可包括使用神经网络确定与面部相关联的面部表情。
[0007]在另一个示例中,提供了用于改进面部表情识别的非暂时性计算机可读介质。示例非暂时性计算机可读介质可以存储指令,当指令由一个或多个处理器执行时,使一个或多个处理器:基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息;向被
训练用于面部表情识别的神经网络的至少一层输入图像帧和地标特征信息;以及使用神经网络,确定与面部相关联的面部表情。
[0008]在一些方面,地标特征信息可包括基于三维模型确定的一个或多个混合形状系数。在一些示例中,以上描述的方法、装置和计算机可读介质可以包括:生成面部的三维模型;以及基于面部的三维模型与图像帧内对应于面部的图像数据之间的比较来确定一个或多个混合形状系数。在一个示例中,以上描述的方法、装置和计算机可读介质可包括将一个或多个混合形状系数输入到神经网络的全连接层。此外,在一些情况下,全连接层可以将一个或多个混合形状系数与神经网络的卷积层输出的数据联接。
[0009]在一些方面,以上描述的方法、装置和计算机可读介质可以包括使用一个或多个混合形状系数生成指示面部的一个或多个地标特征的地标图像帧。例如,以上描述的方法、装置和计算机可读介质可以包括:基于一个或多个混合形状系数来确定面部的多个地标特征;确定对应于关键地标特征的多个地标特征的子集;以及基于在对应于关键地标特征的多个地标特征中的子集之间形成一个或多个连接,生成地标图像帧。在一个示例中,以上描述的方法、装置和计算机可读介质可包括基于确定与人的面部表情相关的地标特征来确定对应于关键地标特征的多个地标特征的子集。进一步地,地标图像帧可以包括使用预定像素值指示对应于关键地标特征的像素的二进制图像帧。
[0010]在一些方面,以上描述的方法、装置和计算机可读介质可以包括将地标图像帧输入到神经网络的一个或多个层。例如,以上描述的方法、装置和计算机可读介质可以包括:将地标图像帧的第一版本输入到神经网络的第一层,地标图像帧的第一版本具有第一分辨率;以及将地标图像帧的第二版本输入到发生在第一层之后的神经网络的第二层,地标图像帧的第二版本具有比第一分辨率低的第二分辨率。在一个示例中,神经网络的第一层和第二层可以是卷积层。此外,神经网络可包括在第一层和第二层之间的池化层。池化层可被配置为:将由第一层输出的激活数据下采样到地标图像帧的第二版本的第二分辨率;接收地标图像帧的第二版本;以及将由第一层输出的下采样激活数据和地标图像帧的第二版本传递给第二层。
[0011]在一些方面,以上描述的方法、装置和计算机可读介质可以包括使用训练数据集来训练神经网络。训练数据集可包括:对应于多个人的面部的多个图像帧,多个图像帧被标记有与多个人的面部相关联的面部表情;以及与多个图像帧相关联的多个地标特征信息。
[0012]在一些方面,三维模型可包括三维可变形模型(3DMM)。
[0013]在一些方面,以上描述的方法、装置和计算机可读介质可以包括使用相机系统来捕获对应于人的面部的图像帧。
[0014]在一些方面,以上描述的每个装置是或包括相机、移动设备(例如,移动电话或所谓的“智能电话”或其它移动设备)、智能可穿戴设备、扩展现实设备(例如虚拟现实(VR)设备、增强现实(AR)设备或混合现实(MR)设备)、个人计算机、膝上型计算机、服务器计算机、车辆(例如,自主车辆)或其它设备。在一些方面,装置包括用于捕获一个或多个视频和/或图像的一个或多个相机。在一些方面,该装置还包括用于显示一个或多个视频和/或图像的显示器。在一些方面,以上描述的装置可以包括一个或多个传感器。
[0015]本
技术实现思路
并不旨在确定所要求保护的主题的关键或必要特征,也并不旨在单独用于确定所要求保护的主题的范围。本主题应通过参照本专利的整个说明书的适当部分、
任何或所有附图以及每项权利要求书来理解。
[0016]在参照以下说明书、权利要求书和附图时,前述内容以及其他特征和实施例将变得更加显而易见。
附图说明
[0017]下面将参照以下附图详细描述本申请的例示性实施例:
[0018]图1是示出根据一些示例的图像捕获和处理系统的示例架构的框图;
[0019]图2是示出根据一些示例的表情识别系统的示例架构的框图;
[0020]图3A和图3B是根据一些示例的由三维可变形模型(3DMM)生成的示例头部模型的例示;
[0021]图3C是根据一些示例的与图像帧相关联的示例地标特征的例示;
[0022]图3D和图3E是根据一些示例的示例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于面部表情识别的装置,所述装置包括:存储器;以及耦合到所述存储器的一个或多个处理器,所述一个或多个处理器被配置为:接收对应于人的面部的图像帧;基于所述面部的三维模型,确定与所述面部的地标特征相关联的地标特征信息;将所述图像帧和所述地标特征信息输入到被训练用于面部表情识别的神经网络的至少一层;以及使用所述神经网络确定与所述面部相关联的面部表情。2.根据权利要求1所述的装置,其中所述地标特征信息包括基于所述三维模型确定的一个或多个混合形状系数。3.根据权利要求2所述的装置,其中所述一个或多个处理器被配置为:生成所述面部的所述三维模型;以及基于所述面部的所述三维模型与所述图像帧内对应于所述面部的图像数据之间的比较来确定所述一个或多个混合形状系数。4.根据权利要求3所述的装置,其中所述一个或多个处理器被配置为将所述一个或多个混合形状系数输入到所述神经网络的全连接层。5.根据权利要求4所述的装置,其中所述全连接层将所述一个或多个混合形状系数与所述神经网络的卷积层输出的数据进行联接。6.根据权利要求2所述的装置,其中所述一个或多个处理器被配置为使用所述一个或多个混合形状系数生成指示所述面部的一个或多个地标特征的地标图像帧。7.根据权利要求6所述的装置,其中所述一个或多个处理器被配置为:基于所述一个或多个混合形状系数来确定所述面部的多个地标特征;确定对应于关键地标特征的所述多个地标特征的子集;以及基于在对应于所述关键地标特征的所述多个地标特征的所述子集之间形成一个或多个连接,生成所述地标图像帧。8.根据权利要求7所述的装置,其中所述一个或多个处理器被配置为基于确定与人的面部表情相关的地标特征,来确定对应于所述关键地标特征的所述多个地标特征的所述子集。9.根据权利要求8所述的装置,其中所述地标图像帧包括二进制图像帧,所述二进制图像帧使用预定像素值指示对应于所述关键地标特征的像素。10.根据权利要求6所述的装置,其中所述一个或多个处理器被配置为将所述地标图像帧输入到所述神经网络的一个或多个层。11.根据权利要求10所述的装置,其中所述一个或多个处理器被配置为:向所述神经网络的第一层输入所述地标图像帧的第一版本,所述地标图像帧的所述第一版本具有第一分辨率;以及向发生在所述第一层之后的所述神经网络的第二层输入所述地标图像帧的第二版本,所述地标图像帧的所述第二版本具有低于所述第一分辨率的第二分辨率。12.根据权利要求11所述的装置,其中所述神经网络的所述第一层和所述第二层是卷积层。
13.根据权利要求12所述的装置,其中所述神经网络包括在所述第一层和所述第二层之间的池化层,所述池化层被配置为:将由所述第一层输出的激活数据下采样到所述地标图像帧的所述第二版本的所述第二分辨率;接收所述地标图像帧的所述第二版本;以及将由所述第一层输出的下采样的激活数据和所述地标图像帧的所述第二版本传递到所述第二层。14.根据权利要求1所述的装置,其中所述一个或多个处理器被配置为使用训练数据集训练所述神经网络,所述训练数据集包括:对应于多个人的面部的多个图像帧,所述多个图像帧被标记有与所述多个人的面部相关联的面部表情;以及与所述多个图像帧相关联的多个地标特征信息。15.根据权利要求1所述的装置,其中所述三...

【专利技术属性】
技术研发人员:刘鹏L
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1