一种基于单目RGB图像的多任务脸部表情识别方法技术

技术编号：40418737 阅读：5 留言：0更新日期：2024-02-20 22:36

本发明专利技术提出了一种基于单目RGB图像的多任务脸部表情识别方法，包括：获取待识别的图像；将图像输入以FasterOne网络作为轻量级骨干网络的轻量级卷积神经网络进行卷积计算，获得输出的特征图；对特征图进行多任务参数回归计算获取参数；利用参数构建多任务的损失函数计算人眼瞳孔的关键点坐标，并根据人眼瞳孔的关键点坐标计算眼部移动的表情参数；根据表情基参数、人头姿态参数和眼部移动的表情参数计算表情参数获取表情识别内容。本发明专利技术通过一种三维可形变模型参数回归以及瞳孔关键点回归多任务的网络模型结构，实现了网络参数共享，减少了模型的参数量，可实现实时推理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉和计算机图形学领域，尤其涉及一种基于单目rgb图像的多任务脸部表情识别方法。

技术介绍

1、近年来，随着计算机视觉和人工智能的迅速发展，人机交互技术日益受到关注。脸部表情驱动技术是其中的重要方向之一，旨在将真实人物的面部运动(即面部表情和头部姿势)从单目rgb图像转移到3d虚拟目标上，是许多应用的关键技术，例如电影和游戏中的虚拟演员以及虚拟现实和游戏中的化身。与将面部运动从2d图像转移到2d图像的面部重演任务不同，面部运动重定向任务旨在将面部运动从2d图像转移到3d角色。这项任务非常具有挑战性，因为它需要仅从2d图像中捕获准确的面部表情。

2、当前主流的脸部表情驱动算法的方案为利用一组参数(身份参数、纹理参数、表情参数)来表示一个三维可形变模型。其中身份参数表示脸部的整体形状，表情参数控制表情的变化，纹理参数则描述皮肤的颜色和纹理。脸部表情驱动算法从2d图像中捕获准确的三维可形变模型身份参数、纹理参数、表情参数以及头部的姿势参数。该方案严重依赖三维可形变模型的表达能力，当前主流的脸部三维可形变模型有base face model、facewarehouse model以及3d menpo model等。目前主流的脸部三维可形变模型缺少对人眼瞳孔的建模，因此基于脸部三维可形变模型的脸部表情驱动算法无法准确的表达出脸部表情中的瞳孔位置信息。

技术实现思路

1、本专利技术的目的设计一种基于单目rgb图像的多任务脸部表情识别方法，实现了网络参数共享，减少

2、为了达到上述目的，在本专利技术提供一种基于单目rgb图像的多任务脸部表情识别方法，所述方法包括：

3、s1、获取待识别的图像；

4、s2、将图像输入以fasterone网络作为轻量级骨干网络的轻量级卷积神经网络进行训练，获得输出值；

5、其中，在所述s2中，将特征图作为输入，先通过fasterone网络和平均池化层，再分别通过5个fc层，输出5个参数；

6、其中，所述fc层包括fc1、fc2、fc3、fc4和fc5；

7、所述fc1输出脸部三维可形变的身份参数，表示为α；所述fc2输出脸部三维可形变的表情参数，表示为β；所述fc3输出脸部三维可形变的纹理参数，表示为γ；所述fc4输出人头的姿态参数，表示为pose，所述fc5输出瞳孔关键点坐标参数；

8、其中，所述输出值包括脸部三维可形变的身份参数、脸部三维可形变的表情参数、脸部三维可形变的纹理参数、人头的姿态参数和瞳孔关键点坐标参数；

9、s3、根据瞳孔关键点坐标参数计算眼部移动表情系数；

10、s4、根据脸部三维可形变的身份参数、脸部三维可形变的表情参数、脸部三维可形变的纹理参数、人头的姿态参数和眼部移动表情系数计算表情参数获取表情识别内容。

11、进一步地，所述fasterone网络包括两个卷积层，三个fasteroneblock层和一个最大池化层。

12、进一步地，所述两个卷积层包括卷积层conv1层和卷积层conv5；所述卷积层conv1层经过24组3x3的卷积核，步长为2；所述卷积层conv5经过1024组1x1的卷积核，步长为1；所述最大池化层为池化层maxpool1，所述池化层maxpool1大小均为3x3，步长为2。

13、进一步地，所述三个fasteroneblock层包括fasteronestage1、fasteronestage2和fasteronestage3；

14、所述fasteronestage1连续经过1个fasteroneblock_1和3个fasteroneblock_2；

15、所述fasteronestage2连续经过1个fasteroneblock_1和7个fasteroneblock_2；

16、所述fasteronestage3连续经过1个fasteroneblock_1和3个fasteroneblock_2；

17、其中，所述fasteroneblock_1具体包括：

18、将卷积层conv1层卷积计算的特征图分为两个分支，左边分支不做任何操作，右边分支由连续的1x1point-wise convolution、3x3 partial convolution与1x1point-wiseconvolution连接组成，两个分支用concat操作进行合并，紧接进行通道混洗，即channelshuffle，然后输出预处理后的特征图；

19、所述fasteroneblock_2具体包括：

20、将卷积层conv1层卷积计算的特征图分为两个分支，左边由连续的3x3 partialconvolution和1x1 point-wise convolution连接组成，右边的分支由连续的1x1point-wise convolution、3x3 partial convolution与1x1point-wise convolution连接组成，两个分支用concat操作进行合并，紧接进行通道混洗，即channel shuffle，然后输出预处理后的特征图。

21、进一步地，所述s2包括：

22、在fasterone网络中，将待识别的图像依次输入卷积层conv1层、最大池化层和fasteronestage1、fasteronestage2、fasteronestage3以及卷积层conv5。

23、进一步地，所述脸部三维可形变的身份参数、脸部三维可形变的表情参数、脸部三维可形变的纹理参数的计算如下：

24、

25、其中，s是三维脸部形状，是平均三维脸部形状，t是三维脸部的纹理，是平均三维脸部的纹理，aid和atex分别是身份和纹理的rca基，aexp是表情基，α、β、δ分别表示脸部三维可形变的身份参数、脸部三维可形变的表情参数、脸部三维可形变的纹理参数。

26、进一步地，所述轻量级卷积神经网络的训练的损失函数包括关键点损失函数、图像损失函数和人眼瞳孔坐标回归的损失函数；

27、其中，所述关键点损失函数和所述图像损失函数进行自监督训练；

28、所述人眼瞳孔坐标回归的损失函数进行监督训练。

29、进一步地，所述自监督训练具体为3d监督转为了2d监督，利用脸部3d重建后重投影的2d点与2d图像的脸部关键点标注信息进行自监督训练，其中所述自监督训练的损失函数包括关键点损失函数和图像损失函数，具体表示如下：

30、所述关键点损失函数llandmark表示为：

31、

32、其中，wi表示脸部各关本文档来自技高网...

【技术保护点】

1.一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述FasterOne网络包括两个卷积层，三个FasterOneBlock层和一个最大池化层。

3.根据权利要求2所述的一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述两个卷积层包括卷积层conv1层和卷积层conv5；所述卷积层conv1层经过24组3x3的卷积核，步长为2；所述卷积层conv5经过1024组1x1的卷积核，步长为1；所述最大池化层为池化层Maxpool1，所述池化层Maxpool1大小均为3x3，步长为2。

4.根据权利要求2所述的一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述三个FasterOneBlock层包括FasterOneStage1、FasterOneStage2和FasterOneStage3；

5.根据权利要求1-4任一项所述的一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述S2包括：</p>

6.根据权利要求1所述的一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述脸部三维可形变的身份参数、脸部三维可形变的表情参数、脸部三维可形变的纹理参数的计算如下：

7.根据权利要求1所述的一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述轻量级卷积神经网络的训练的损失函数包括关键点损失函数、图像损失函数和人眼瞳孔坐标回归的损失函数；

8.根据权利要求7所述的一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述自监督训练具体为3D监督转为了2D监督，利用脸部3D重建后重投影的2D点与2D图像的脸部关键点标注信息进行自监督训练，其中所述自监督训练的损失函数包括关键点损失函数和图像损失函数，具体表示如下：

9.根据权利要求7所述的一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述监督训练的函数为人眼瞳孔坐标的损失函数Llandmark_pupil，表示如下：

10.根据权利要求8或9所述的一种基于单目RGB图像的多任务脸部表情识别方法，其特征在于，所述损失函数进行训练后得到最终的脸部表情识别模型，具体为：

...

【技术特征摘要】

1.一种基于单目rgb图像的多任务脸部表情识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于单目rgb图像的多任务脸部表情识别方法，其特征在于，所述fasterone网络包括两个卷积层，三个fasteroneblock层和一个最大池化层。

3.根据权利要求2所述的一种基于单目rgb图像的多任务脸部表情识别方法，其特征在于，所述两个卷积层包括卷积层conv1层和卷积层conv5；所述卷积层conv1层经过24组3x3的卷积核，步长为2；所述卷积层conv5经过1024组1x1的卷积核，步长为1；所述最大池化层为池化层maxpool1，所述池化层maxpool1大小均为3x3，步长为2。

4.根据权利要求2所述的一种基于单目rgb图像的多任务脸部表情识别方法，其特征在于，所述三个fasteroneblock层包括fasteronestage1、fasteronestage2和fasteronestage3；

5.根据权利要求1-4任一项所述的一种基于单目rgb图像的多任务脸部表情识别方法，其特征在于，所述s2包括：

6....

【专利技术属性】
技术研发人员：李观喜，覃镇波，张磊，张威，
申请(专利权)人：广州紫为云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人