基于MLP的三维视线估计方法、装置、设备及存储介质制造方法及图纸

技术编号:37204014 阅读:20 留言:0更新日期:2023-04-20 22:58
本发明专利技术公开了一种基于MLP的三维视线估计方法、装置、设备及存储介质,该方法包括:构建基于MLP的UM

【技术实现步骤摘要】
基于MLP的三维视线估计方法、装置、设备及存储介质


[0001]本专利技术涉及视线估计
,特别涉及一种基于MLP的三维视线估计方法、装置、设备及存储介质。

技术介绍

[0002]视线是最重要的非言语交际线索之一,它包含丰富的人类意图信息,使研究人员能够深入了解人类的认知和行为。它被广泛应用于医疗、辅助驾驶、市场营销、人机交互等领域。高精度的视线估计方法对其应用至关重要。随着深度卷积神经网络(CNNs)在计算机视觉领域的崛起,以及大量数据集的公开,研究人员开始将CNNs用于基于表观的三维视线估计方法。Chen Z等研究者提出了空洞卷积网络Dilated

Net,使用空洞卷积对人脸及双眼进行特征提取。通过使用深度神经网络从眼睛图像中提取更高分辨率的特征来提高基于表观的三维视线估计的准确性。ChengY等研究者为了减少与视线无关因素的干扰,提出了一个即插即用的自对抗框架以进行视线特征的简化,降低光照、个人外貌甚至面部表情对视线估计的学习的影响。但由于CNNs结构复杂,模型加载速度不够快等原因,使得这类方法在实时性要求较高的场合还有待进一步改进。因此,设计一个高效高精度的三维视线估计网络具有重要意义。

技术实现思路

[0003]本专利技术要解决的技术问题是:提供一个高效高精度的三维视线估计网络,以满足在实时性要求较高的场合实现三维视线的高效高精度检测。为了解决该技术问题,本专利技术采取的技术方案是:一种基于MLP的三维视线估计方法、装置、设备及存储介质。
[0004]根据本专利技术的第一方面,一种基于MLP的三维视线估计方法,包括以下步骤:
[0005]构建基于MLP的UM

Net网络(Use

MLP Network,使用MLP的网络),所述UM

Net网络包括三条支路,分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路;以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2;
[0006]获取待测数据集,包括左眼图像、右眼图像以及人脸图像,并分别进行预处理;
[0007]将预处理后的图像输入UM

Net网络;通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征,通过特征拼接模块进行拼接后,通过全连接层FC1进行特征降维,并通过全连接层FC2回归出三维视线方向。
[0008]进一步地,所述特征提取支路包括依次连接的特征提取模块、N个Mixer Layer模块、全局平均池化层GAP和全连接层FC;
[0009]首先特征提取模块将输入的图像拆分为图像块;然后通过全连接将每个图像块投影到512维空间,投影之后得到图像特征块序列;
[0010]然后将图像特征块序列送入N个Mixer Layer模块,对图像特征块序列进行沿列方向的特征提炼和沿行方向的特征提炼,将图像特征块序列反复经过N个Mixer Layer模块提
炼图像特征信息;
[0011]接着全局平均池化层GAP对整个网络模型在结构上做正则化以防止过拟合;
[0012]最后使用全连接层FC分别回归出所需要的图像特征。
[0013]进一步地,所述Mixer Layer模块包括token

mixing MLP模块和channel

mixing MLP模块;
[0014]token

mixing MLP模块和channel

mixing MLP模块分别交替堆叠进行对图像特征块序列沿列方向的特征提炼和沿行方向的特征提炼。
[0015]进一步地,所述token

mixing MLP模块中包含MLP1模块,channel

mixing MLP模块包含MLP2模块;
[0016]token

mixing MLP模块先对图像特征块序列X∈R 16
×
512
进行转置之后,利用MLP1模块作用在图像特征块序列的每一列上,使图像特征块序列不同空间位置进行交流,并且所有列共享MLP1模块的参数,得到的输出重新进行转置,然后在channel

mixing MLP模块中利用MLP2模块作用在图像特征块序列每一行上,使图像特征块序列不同通道之间进行交流,所有行共享MLP2模块的参数;
[0017]所述Mixer Layer模块中还使用了跳跃连接和层规范化。
[0018]进一步地,对于输入的图像特征块序列X∈R
16
×
512
,MixerLayer模块作用过程表示为以下公式:
[0019]U
*,i
=M1(LayerNorm(X)
*,i
),i∈[1,512][0020]Y
j,*
=M2(LayerNorm(U)
j,*
),j∈[1,16][0021]M1、M2表示MLP1模块和MLP2模块,LayerNorm(X)
*,i
表示图像特征块序列经过层规范化后的第i列,LayerNorm(U)
j,*
表示图像特征块序列经过层规范化后的第j行,U
*,i
表示图像特征块序列经过MLP1模块作用后的第i列,Y
j,*
表示图像特征块序列经过MLP2模块作用后的第j行。
[0022]进一步地,每个MLP1模块或MLP2模块都包含两个全连接层和一个非线性激活函数;对于MLP1模块或MLP2模块的输入作用过程表示为如下公式:
[0023][0024]Φ表示作用于输入元素的非线性激活函数,W1、W2表示为MLP1模块或MLP2模块中的两个全连接层,σ表示输入经过MLP1模块或MLP2模块作用的输出。
[0025]进一步地,所述三维视线方向是由垂直方向上的pitch角和水平方向上的yaw角来表示:
[0026][0027]f,l,r分别表示模型输入的人脸图像、左眼图像、右眼图像,表示网络的特征提取模块,C表示连接提取到的左眼图像特征、右眼图像特征和人脸图像特征,δ表示使用全连接层回归出三维视线方向;
[0028]根据pitch角和yaw角计算出代表视线方向的三维向量计算公式如下:
[0029]x=cos(pitch)cos(yaw)
[0030]y=cos(pitch)sin(yaw)
[0031]z=sin(pitch)
[0032]三维向量与真实的方向向量之间的夹角即为三维视线估计的评价指标,即视线角度误差θ,损失函数采用均方损失函数MSE,预测的三维视线向量总数为n,计算公式分别如下:
[0033][0034][0035]根据本专利技术的第二方面,一种实施所述方法的基于MLP的三维视线估计装置,包括以下模块:
[0036]构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MLP的三维视线估计方法,其特征在于,包括以下步骤:构建基于MLP的UM

Net网络,所述UM

Net网络包括三条支路,分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路;以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2;获取待测数据集,包括左眼图像、右眼图像以及人脸图像,并分别进行预处理;将预处理后的图像输入UM

Net网络;通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征,通过特征拼接模块进行拼接后,通过全连接层FC1进行特征降维,并通过全连接层FC2回归出三维视线方向。2.根据权利要求1所述的三维视线估计方法,其特征在于,所述特征提取支路包括依次连接的特征提取模块、N个Mixer Layer模块、全局平均池化层GAP和全连接层FC;首先特征提取模块将输入的图像拆分为图像块;然后通过全连接将每个图像块投影到512维空间,投影之后得到图像特征块序列;然后将图像特征块序列送入N个Mixer Layer模块,对图像特征块序列进行沿列方向的特征提炼和沿行方向的特征提炼,将图像特征块序列反复经过N个Mixer Layer模块提炼图像特征信息;接着全局平均池化层GAP对整个网络模型在结构上做正则化以防止过拟合;最后使用全连接层FC分别回归出所需要的图像特征。3.根据权利要求2所述的三维视线估计方法,其特征在于,所述Mixer Layer模块包括token

mixing MLP模块和channel

mixing MLP模块;token

mixing MLP模块和channel

mixing MLP模块分别交替堆叠进行对图像特征块序列沿列方向的特征提炼和沿行方向的特征提炼。4.根据权利要求3所述的三维视线估计方法,其特征在于,所述token

mixing MLP模块中包含MLP1模块,channel

mixing MLP模块包含MLP2模块;token

mixing MLP模块先对图像特征块序列X∈R 16
×
512
进行转置之后,利用MLP1模块作用在图像特征块序列的每一列上,使图像特征块序列不同空间位置进行交流,并且所有列共享MLP1模块的参数,得到的输出重新进行转置,然后在channel

mixing MLP模块中利用MLP2模块作用在图像特征块序列每一行上,使图像特征块序列不同通道之间进行交流,所有行共享MLP2模块的参数;所述MixerLayer模块中还使用了跳跃连接和层规范化。5.根据权利要求4所述的三维视线估计方法,其特征在于,对于输入的图像特征块序列X∈R 16
×
512
,Mixer Layer模块作用过程表示为以下公式:U
*,i
=M1(LayerNorm(X)
*,i
),i∈[1,5...

【专利技术属性】
技术研发人员:张德军吴志豪徐战亚吴亦奇
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1