一种基于优化MA-Net算法的人脸表情识别方法技术

技术编号：40179029 阅读：10 留言：0更新日期：2024-01-26 23:46

本发明专利技术提供一种基于优化MA‑Net算法的人脸表情识别方法，涉及模式识别技术领域。该基于优化MA‑Net算法的人脸表情识别方法，包括以下步骤：S1、首先根据MA‑Net网络建立一个与局部遮挡图像等大的二值掩码矩阵Ma,其元素值为0表示像素被遮挡，否则为1，假设比较准确的矩阵Ma能够在图像补全之前被确定，人脸补全算法通过优化图像真实性，上下文相似性和平滑性目标来更新图像补全网络的输入隐变量z,对输入图像中被Ma标记的遮挡区域进行图像补全。通过在全局多尺度模块中使用高效转换变体卷积(TVConv)替代普通卷积，使输入特征图的每个卷积区域都使用相应的卷积参数，从而实现更加精确的特征提取，减少特征预提取区域的信息丢失，并突出关键特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模式识别，具体为一种基于优化ma-net算法的人脸表情识别方法。

技术介绍

1、面部表情包含着丰富的情感信息，包括人的心理活动和自然思想状态等，深刻影响着人与人之间的交流体验。人脸表情识别技术作为计算机辨别人类表情状态的重要手段具有广阔的应用前景，被广泛应用于个性化推荐、远程教育、医学辅助、驾驶辅助、智慧城市、人机交互等领域。近年来，随着人工智能的发展，表情识别成为了计算机视觉领域的研究热点，吸引了大量研究学者的关注，本文从特征提取、改进损失函数两个角度着手开展研究工作。

2、原有的ma-net网络全局多尺度融合网络对于特征信息的提取的确有了明显提升，但是在多尺度融合提取信息使用简单的3*3卷积对于特征图进行处理时，整个特征图共享相同的卷积核权重，这使得卷积权重是一个折中值，对于细节局部特征的提取存在一定的影响，使得效率降低。池化层通常加入在两卷积层之间，能够有效的减小图像尺寸，减少整体计算参数，达到防治过拟合的作用。大多数情况下，在网络初期使用卷积层和池化层来实现对输入图像的特征预提取，得到特征图；然而目前最为常见的最大池化与平均池化在实现逻辑上很多情况下会造成特征丢失；

3、同时最大池化是选取图像区域的最大值作为该区域池化后的取值。然而当选取区域存在一定差异时，最大池化完全抛弃了其他特征，并且整个图像会想着偏白色(像素255)转变，像素特征丢失严重。平均池化时选取图像区域的所有像素的平均值作为该区域池化后的取值。平均池化虽然考虑到所有的特征，但也模糊了所有的特征。

4、使得所有的特征都存在丢失

技术实现思路

1、针对现有技术的不足，本专利技术提供了一种基于优化ma-net算法的人脸表情识别方法，解决了原有的ma-net网络对于细节局部特征的提取存在一定的影响，使得效率降低的问题。

2、为实现以上目的，本专利技术通过以下技术方案予以实现：一种基于优化ma-net算法的人脸表情识别方法，包括以下步骤：

3、s1、首先根据ma-net网络建立一个与局部遮挡图像等大的二值掩码矩阵ma,其元素值为0表示像素被遮挡，否则为1，为不失一般性，假设比较准确的矩阵ma能够在图像补全之前被确定，人脸补全算法通过优化图像真实性，上下文相似性和平滑性目标来更新图像补全网络的输入隐变量z,对输入图像中被ma标记的遮挡区域进行图像补全；

4、s2、图像补全其中的上下文相似性约束迫使图像补全网络在生成图像空间中搜索与遮挡图像中无遮挡部分最相似的样本来优化输入隐变量，保持无遮挡部分与补全部分之间的上下文一致性，最大程度保留身份和表情信息，并计算获得遮挡图像和生成图像中的无遮挡部分之间的相似性损失ls；

5、s3、根据相似性损失ls采用vgg16作为表情特征提取网络nf，使用在ms-celeb-1m上预训练的参数初始化其前三组卷积层并固定，保留vgg16对低层视觉特征的感知能力，使用深度学习框架如tensorflow或pytorch加载预训练的vgg16模型，然后在训练过程中调优图像中无遮挡部分的隐变量，同时根据图像补全网络的输入隐变量z补全图，将图像数据输入到vgg16模型中，通过前向传播获得特征表示，对于表情识别任务，建立一个能够区分7类表情的多层感知器网络ne；对于身份识别任务，使用另一个能够区分m类用户身份的多层感知器网络nu；

6、s4、通过从特征图生成隐含不同区域之间语义关系的可学习亲和力图，再由亲和力图通过标准的conv层、归一化和激活(例如relu)进行反馈训练得到最终的权重模块，该权重模块通过与原特征图做对应相乘得到输出结果，tvconv的主要目的是实现不同局部块使用不同的权重进行卷积运算；

7、s5、构建分层双线性池化模型，将经粗细尺度主干网络提取的特征图记为hwcxr，其中h、w、c分别为特征图的高度、宽度、通道数，记[1,2,...,]tc

8、为x上的一个空间位置c维描述符；

9、s6、对分层双线性池化模型进行低阶外积分解运算。

10、优选的，所述s1步骤中，图像真实性约束使得补全人脸能够尽可能接近真实人脸.将补全图像的真实性损失lr定义为：

11、lr＝d(g(z；og)；od)

12、其中，z～n(0,1)是输入生成器网络的隐变量，g(z；θg)表示由θg参数化的生成器网络的输出图像，d(z；θd)表示由θd参数化的判别器网络的输出，度量了补全图像与真实图像之间的概率分布距离，随着判别器网络损失的逐渐降低，生成图像将逐渐接近训练集中的真实人脸。

13、优选的，所述s2步骤中，ls定义为：

14、ls＝δ(g(z；og)⊙ma，i⊙ma)

15、其中，δ(·)表示度量矩阵间相似度的函数，本文取为l2范数；i表示遮挡图像，ma是对应的掩码矩阵，☉表示元素级乘法运算。

16、优选的，所述s4步骤中，卷积运算包括以下形式：

17、

18、同时根据卷积运算进行反拟合运算，并将w分解：

19、w＝ba

20、其中w'是由w变换得来w′∈r(c×k×k)×(h×w)，b'是变换矩阵a'是系数矩阵,这样参数就减少到了(ckkca+cahw)，其中ca是中间参数可以设置为1，并变换矩阵b使用非线性函数来取代。

21、优选的，所述非线性函数包括以下表达形式：

22、w＝b(a)。

23、优选的，所述s5步骤中，分层双线性池化模型包括以下公式：

24、zi＝xtwix

25、其中，zi为双线性模型的输出，wi为投影矩阵。

26、优选的，所述s6步骤中，所述低阶外积分解运算包括以下形式：

27、z＝pt(utxovtx)

28、其中p为分类矩阵，d为决定嵌入维度的超参数，o为图像分类类别总数，u和v为从c维特征向量中获得d维池化特征向量的投影矩阵，0为哈达玛积。

29、本专利技术提供了一种基于优化ma-net算法的人脸表情识别方法。具备以下有益效果：

30、1、本专利技术通过从特征图生成隐含不同区域之间语义关系的可学习亲和力图，由再由亲和力图通过标准的conv、层的归一化和激活(例如relu)进行反馈训练得到最终的权重模块，该权重模块通过与原特征图做对应相乘得到输出结果，tvconv的主要目的是实现不同局部块使用不同的权重进行卷积运算，在全局多尺度模块中使用高效转换变体卷积(tvconv)替代普通卷积，使输入特征图的每个卷积区域都使用相应的的卷积参数，从而实现更加精确的特征提取。

31、2、本专利技术通过构建分层双线性池化模型，将经粗细尺度主干网络提取的特征图记为hwcxr，其中h、w、c分别为特征图的高度、宽度、通道数，记[1,2,...,]tc为x上的一个空间位置c维描述符，减少特征预提取区域的信息丢失，并突出关键特征。

本文档来自技高网...

【技术保护点】

1.一种基于优化MA-Net算法的人脸表情识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于优化MA-Net算法的人脸表情识别方法，其特征在于，所述S1步骤中，图像真实性约束使得补全人脸能够尽可能接近真实人脸.将补全图像的真实性损失Lr定义为：

3.根据权利要求1所述的一种基于优化MA-Net算法的人脸表情识别方法，其特征在于，所述S2步骤中，Ls定义为：

4.根据权利要求1所述的一种基于优化MA-Net算法的人脸表情识别方法，其特征在于，所述S4步骤中，卷积运算包括以下形式：

5.根据权利要求4所述的一种基于优化MA-Net算法的人脸表情识别方法，其特征在于，所述非线性函数包括以下表达形式：

6.根据权利要求1所述的一种基于优化MA-Net算法的人脸表情识别方法，其特征在于，所述S5步骤中，分层双线性池化模型包括以下公式：

7.根据权利要求1所述的一种基于优化MA-Net算法的人脸表情识别方法，其特征在于，所述S6步骤中，所述低阶外积分解运算包括以下形式：

【技术特征摘要】

1.一种基于优化ma-net算法的人脸表情识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于优化ma-net算法的人脸表情识别方法，其特征在于，所述s1步骤中，图像真实性约束使得补全人脸能够尽可能接近真实人脸.将补全图像的真实性损失lr定义为：

3.根据权利要求1所述的一种基于优化ma-net算法的人脸表情识别方法，其特征在于，所述s2步骤中，ls定义为：

4.根据权利要求1所述的一种基于优化ma-net算法的人脸表情识别...

【专利技术属性】
技术研发人员：熊港安，程科，徐子凡，周一墨，
申请(专利权)人：江苏科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人