一种基于深度估计和跨模态特征共享的双阶段人脸解析方法技术

技术编号:38901989 阅读:27 留言:0更新日期:2023-09-22 14:20
本发明专利技术公开了一种基于深度估计和跨模态特征共享的双阶段人脸解析方法。本发明专利技术步骤如下:1、实验数据的预处理;2、构建第一阶段的深度估计网络模型(FaceNet1);3、构建第二阶段的人脸解析网络模型(FaceNet2);4、训练FaceNet网络模型,FaceNet由第一阶段的深度估计网络模型(FaceNet1)和第二阶段的人脸解析网络模型(FaceNet2)共同组成;5、采用训练好的FaceNet网络模型在多个人脸解析数据集上进行实验,并对实验结果进行评估。本发明专利技术所设计的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法具有较高的准确率和鲁棒性,具有很高的实际应用价值。很高的实际应用价值。很高的实际应用价值。

【技术实现步骤摘要】
一种基于深度估计和跨模态特征共享的双阶段人脸解析方法


[0001]本专利技术属于人工智能
,具体涉及一种基于深度估计和跨模态特征共享的双阶段人脸解析方法。

技术介绍

[0002]随着计算机视觉和人工智能技术的不断发展,人脸解析技术已经被广泛应用于人脸识别、人脸表情识别、姿态估计等领域。然而,传统的人脸解析方法往往存在一些问题。首先,传统的基于深度学习的人脸解析方法在实际应用中往往存在着需要大量的数据集训练、计算量大、效果不稳定等问题。其次,传统的多模态特征融合技术在处理复杂的人脸图像时也存在着一定的局限性,如在不同模态的图像之间存在着很大的差异,难以实现精确的特征共享。
[0003]为了解决这些问题,我们提出了一种新的双阶段人脸解析方法,该方法利用深度估计技术和跨模态特征共享技术相结合,实现了对人脸图像的准确解析和表达。具体来说,该方法通过利用深度学习技术进行人脸区域的分割和深度估计,实现了对人脸图像的深度信息的获取和处理。然后,通过跨模态特征共享技术将深度信息和RGB图像信息进行融合,提取并共享双模态图像的特征,从而实现了对人脸图像的高效解析和表达。该方法具有较高的准确率和鲁棒性,具有很高的实际应用价值。

技术实现思路

[0004]为克服现有技术不足,本专利技术提出一种基于深度估计和跨模态特征共享的双阶段人脸解析方法。实现了人脸解析。本专利技术提出了一种名为FaceNet的深度学习模型,具体的步骤如下:
[0005]步骤1、实验数据的预处理;
[0006]步骤2、构建第一阶段的深度估计网络模型(FaceNet1);
[0007]步骤3、构建第二阶段的人脸解析网络模型(FaceNet2);
[0008]步骤4、训练FaceNet网络模型,FaceNet由第一阶段的深度估计网络模型(FaceNet1)和第二阶段的人脸解析网络模型(FaceNet2)共同组成;
[0009]步骤5、采用训练好的FaceNet网络模型在多个人脸解析数据集上进行实验,并对实验结果进行评估。
[0010]所述步骤1具体包括以下步骤:
[0011]步骤1.1为了提高模型的泛化能力,首先对图像进行归一化处理;
[0012]步骤1.2对归一化后的图像进行裁剪,大小为512
×
512;
[0013]步骤1.3对裁剪后的图像进行数据增强,具体通过随机旋转和随机缩放;
[0014]步骤1.4划分训练集、验证集和测试集。
[0015]所述步骤2包括以下步骤:
[0016]步骤2.1构建编码网络,从人脸RGB图像中提取深度特征信息;
[0017]对于输入的RGB图像(H为输入图像的高,W为输入图像的宽),我们首先利用ResNet18作为深度估计网络的编码器,提取输入图像的语义信息。由于ResNet18具有五层结构,因此我们将第i层的输出特征记为具有五层结构,因此我们将第i层的输出特征记为(C
i
为第i层特征的通道数)。
[0018]进一步的,然后对输入的RGB图像进行五次平均池化操作,得到五张不同尺寸的特征图,第i次池化操作得到的特征图记为张不同尺寸的特征图,第i次池化操作得到的特征图记为
[0019]进一步的,然后对输入的RGB图像进行五次下采样操作,得到五张不同尺寸的特征图,第i次下采样操作得到的特征图记为不同尺寸的特征图,第i次下采样操作得到的特征图记为然后我们将X
i

down
与上采样后的X
i+1

down
做差,即可得到第i层的拉普拉斯残差X
i

laplacian
,通过拉普拉斯残差增强模型对边界特征的提取能力。第i层拉普拉斯残差计算公式具体公式如下:
[0020]X
i

laplacian
=X
i

down

up(X
i+1

down
)
[0021]其中up代表了上采样操作,在本专利技术中我们使用双线性插值算法进行上采样。
[0022]将第i次池化后的特征图、ResNet18的第i层特征和第i层的拉普拉斯残差进行通道维度的拼接,得到
[0023]步骤2.2构建残差连接,并在残差连接中中添加连续扩张卷积模块、局部全局特征交互模块和多尺度加减法模块。
[0024]第i次池化后的特征图与ResNet18的第i层特征拼接后得到的新特征首先连续扩张卷积模块,提取多尺度局部特征
[0025]进一步的,输出特征经过一层局部全局特征交互模块,捕获更多的上下文信息,得到输出特征
[0026]进一步的,输出特征与下一层经过同样操作得到的输出特征一起送入多尺度加减法模块,消除编码特征间的语义差距和冗余特征的干扰,提取多尺度特征信息,提高模型对小物体的检测能力,得到残差连接的输出特征Y
i

[0027]连续扩张卷积模块的主要结构如下。对于输入特征首先经过一层卷积核大小为3
×
3,空洞率为r的深度可分离空洞卷积。再经过一层标准化层、一层1
×
1的卷积层、GELU激活函数和一层1
×
1的卷积层,得到输出特征连续扩张卷积模块表示如下:
[0028][0029]其中Linear
G
代表了1
×
1卷积操作和GELU激活函数,Linear是1
×
1卷积操作,BN是批标准化层,DDWConv
r
是卷积核大小为3
×
3,空洞率为r的深度可分离空洞卷积。
[0030]局部全局特征交互模块的主要结构如下。首先将输入特征编码为三个矩阵,分别为Q、K和V。相比于原始的自我注意力机制不同,我们设计了一种新的轻量级注意力机制降低复杂度。具体而言,我们首先将K的转置与V相乘,得到全局注意图为输入特征的通道数。再将Q与G相乘,即可得到注意力的计算结果。然后输出结果再经过一层标准化层、一层1
×
1的卷积层、GELU激活函数和一层1
×
1的卷积层,即可得到输出结果具体公式如下所示:
[0031][0032][0033]其中Attention(Q,K,V)=Q(K
T
V),Linear
G
代表了1
×
1卷积操作和GELU激活函数,Linear是1
×
1卷积操作,LN是层标准化操作。
[0034]多尺度加减法模块的主要结构如下,首先定义减法单元SU和加法单元AU。
[0035][0036][0037]其中Conv代表了卷积操作,|
·
|代表了取绝对值操作,是逐个元素减法操作,是逐个元素加法操作,F
A
和F
B
是输入的特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于包括如下步骤:步骤1、实验数据的预处理;步骤2、构建第一阶段的深度估计网络模型(FaceNet1);步骤3、构建第二阶段的人脸解析网络模型(FaceNet2);步骤4、训练FaceNet网络模型,FaceNet由第一阶段的深度估计网络模型(FaceNet1)和第二阶段的人脸解析网络模型(FaceNet2)共同组成;步骤5、采用训练好的FaceNet网络模型在多个人脸解析数据集上进行实验,并对实验结果进行评估。2.根据权利要求1所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于所述步骤2包括以下步骤:步骤2.1构建编码网络,从人脸RGB图像中提取深度特征信息;步骤2.2构建残差连接,并在残差连接中中添加连续扩张卷积模块、局部全局特征交互模块和多尺度加减法模块;步骤2.3构建多监督深度估计。3.根据权利要求2所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于步骤2.1具体实现如下:对于输入的RGB图像(H为输入图像的高,H为输入图像的高),我们首先利用ResNet18作为深度估计网络的编码器,提取输入图像的语义信息。由于ResNet18具有五层结构,因此我们将第i层的输出特征记为层结构,因此我们将第i层的输出特征记为(C
i
为第i层特征的通道数)。进一步的,然后对输入的RGB图像进行五次平均池化操作,得到五张不同尺寸的特征图,第i次池化操作得到的特征图记为尺寸的特征图,第i次池化操作得到的特征图记为进一步的,然后对输入的RGB图像进行五次下采样操作,得到五张不同尺寸的特征图,第i次下采样操作得到的特征图记为寸的特征图,第i次下采样操作得到的特征图记为然后我们将X
i

down
与上采样后的X
i+1

down
做差,即可得到第i层的拉普拉斯残差X
i

laplacian
,通过拉普拉斯残差增强模型对边界特征的提取能力。拉普拉斯残差计算公式具体公式如下:X
i

laplacian
=X
i

down

up(X
i+1

down
)其中up代表了上采样操作,在本发明中我们使用双线性插值算法进行上采样。将第i次池化后的特征图、ResNet18的第i层特征和第i层的拉普拉斯残差进行通道维度的拼接,得到4.根据权利要求2所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于步骤2.2具体实现如下:第i次池化后的特征图与ResNet18的第i层特征拼接后得到的新特征首先连续扩张卷积模块,提取多尺度局部特征
进一步的,输出特征经过一层局部全局特征交互模块,捕获更多的上下文信息,得到输出特征进一步的,输出特征与下一层经过同样操作得到的输出特征一起送入多尺度加减法模块,消除编码特征间的语义差距和冗余特征的干扰,提取多尺度特征信息,提高模型对小物体的检测能力,得到残差连接的输出特征Y
i
。连续扩张卷积模块的主要结构如下:对于输入特征首先经过一层卷积核大小为3
×
3,空洞率为r的深度可分离空洞卷积。再经过一层归一化层、一层1
×
1的卷积层、GELU激活函数和一层1
×
1的卷积层,得到输出特征连续扩张卷积模块表示如下:其中Linear
G
代表了1
×
1卷积操作和GELU激活函数,Linear是1
×
1卷积操作,BN是批标准化层,DDWConv
r
是卷积核大小为3
×
3,空洞率为r的深度可分离空洞卷积。局部全局特征交换模块的主要结构如下:首先将输入特征编码为三个矩阵,分别为Q、K和V。相比于原始的自我注意力机制不同,我们设计了一种新的轻量级注意力机制降低复杂度。具体而言,我们首先将K的转置与V相乘,得到全局注意图为输入特征的通道数。再将Q与G相乘,即可得到注意力的计算结果。然后输出结果再经过一层归一化层、一层1
×
1的卷积层、GELU激活函数和一层1
×
1的卷积层,即可得到输出结果具体公式如下所示:具体公式如下所示:其中Attention(Q,K,V)=Q(K
T
V),Linear
G
代表了1
×
1卷积操作和GELU激活函数,Linear是1
×
1卷积操作,LN是层标准化操作。多尺度加减法模块的主要结构如下:首先定义减法单元SU和加法单元AU;多尺度加减法模块的主要结构如下:首先定义减法单元SU和加法单元AU;其中Conv代表了卷积操作,|
·
|代表了取绝对值操作,是逐个元素减法操作,是逐个元素加法操作,F
A
和F
B
是输入的特征;进一步的,对于输入的特征和我们首先对进行上采样操作,的分辨率恢复到和一样,得到上采样操作由一层3
×
3卷积层、双线性插值和一层3
×
3卷积层组成;
进一步的,我们将和一起送入多尺度减法单元和多尺度加法单元得到特征MSU和MAU,再将MSU和MAU进行通道维度的拼接,即可得到输出特征Y
i
。具体公式如下所示:。具体公式如下所示:Y
i
=concat(MSU,MAU)其中Filter(
·
)
k
×
k
代表了k
×
k大小的卷积层,Conv是卷积操作,concat是通道维度的拼接操作。5.根据权利要求2所述的一种基于深度估计和跨模态特征共享的双阶段人脸解析方法,其特征在于步骤2.3具体实现如下:对于五层编码器,每一层输出的特征都会经过残差连接,Y
i
为第i层残差连接输出的特...

【专利技术属性】
技术研发人员:李沛红王浩宇
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1