【技术实现步骤摘要】
基于MLP的三维视线估计方法、装置、设备及存储介质
[0001]本专利技术涉及视线估计
,特别涉及一种基于MLP的三维视线估计方法、装置、设备及存储介质。
技术介绍
[0002]视线是最重要的非言语交际线索之一,它包含丰富的人类意图信息,使研究人员能够深入了解人类的认知和行为。它被广泛应用于医疗、辅助驾驶、市场营销、人机交互等领域。高精度的视线估计方法对其应用至关重要。随着深度卷积神经网络(CNNs)在计算机视觉领域的崛起,以及大量数据集的公开,研究人员开始将CNNs用于基于表观的三维视线估计方法。Chen Z等研究者提出了空洞卷积网络Dilated
‑
Net,使用空洞卷积对人脸及双眼进行特征提取。通过使用深度神经网络从眼睛图像中提取更高分辨率的特征来提高基于表观的三维视线估计的准确性。ChengY等研究者为了减少与视线无关因素的干扰,提出了一个即插即用的自对抗框架以进行视线特征的简化,降低光照、个人外貌甚至面部表情对视线估计的学习的影响。但由于CNNs结构复杂,模型加载速度不够快等原因,使得这类方法在实时性要求较高的场合还有待进一步改进。因此,设计一个高效高精度的三维视线估计网络具有重要意义。
技术实现思路
[0003]本专利技术要解决的技术问题是:提供一个高效高精度的三维视线估计网络,以满足在实时性要求较高的场合实现三维视线的高效高精度检测。为了解决该技术问题,本专利技术采取的技术方案是:一种基于MLP的三维视线估计方法、装置、设备及存储介质。
[0004]根据本专 ...
【技术保护点】
【技术特征摘要】
1.一种基于MLP的三维视线估计方法,其特征在于,包括以下步骤:构建基于MLP的UM
‑
Net网络,所述UM
‑
Net网络包括三条支路,分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路;以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2;获取待测数据集,包括左眼图像、右眼图像以及人脸图像,并分别进行预处理;将预处理后的图像输入UM
‑
Net网络;通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征,通过特征拼接模块进行拼接后,通过全连接层FC1进行特征降维,并通过全连接层FC2回归出三维视线方向。2.根据权利要求1所述的三维视线估计方法,其特征在于,所述特征提取支路包括依次连接的特征提取模块、N个Mixer Layer模块、全局平均池化层GAP和全连接层FC;首先特征提取模块将输入的图像拆分为图像块;然后通过全连接将每个图像块投影到512维空间,投影之后得到图像特征块序列;然后将图像特征块序列送入N个Mixer Layer模块,对图像特征块序列进行沿列方向的特征提炼和沿行方向的特征提炼,将图像特征块序列反复经过N个Mixer Layer模块提炼图像特征信息;接着全局平均池化层GAP对整个网络模型在结构上做正则化以防止过拟合;最后使用全连接层FC分别回归出所需要的图像特征。3.根据权利要求2所述的三维视线估计方法,其特征在于,所述Mixer Layer模块包括token
‑
mixing MLP模块和channel
‑
mixing MLP模块;token
‑
mixing MLP模块和channel
‑
mixing MLP模块分别交替堆叠进行对图像特征块序列沿列方向的特征提炼和沿行方向的特征提炼。4.根据权利要求3所述的三维视线估计方法,其特征在于,所述token
‑
mixing MLP模块中包含MLP1模块,channel
‑
mixing MLP模块包含MLP2模块;token
‑
mixing MLP模块先对图像特征块序列X∈R 16
×
512
进行转置之后,利用MLP1模块作用在图像特征块序列的每一列上,使图像特征块序列不同空间位置进行交流,并且所有列共享MLP1模块的参数,得到的输出重新进行转置,然后在channel
‑
mixing MLP模块中利用MLP2模块作用在图像特征块序列每一行上,使图像特征块序列不同通道之间进行交流,所有行共享MLP2模块的参数;所述MixerLayer模块中还使用了跳跃连接和层规范化。5.根据权利要求4所述的三维视线估计方法,其特征在于,对于输入的图像特征块序列X∈R 16
×
512
,Mixer Layer模块作用过程表示为以下公式:U
*,i
=M1(LayerNorm(X)
*,i
),i∈[1,5...
【专利技术属性】
技术研发人员:张德军,吴志豪,徐战亚,吴亦奇,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。