【技术实现步骤摘要】
基于自动编码变换的视线追踪方法及装置
[0001]本专利技术属于数据处理
,具体涉及一种基于自动编码变换的视线追踪方法及装置。
技术介绍
[0002]目前,基于表观的视线估计在人机交互、行为理解和自动驾驶等场景有着重要的应用。在表征的等变学习中,通常假定在数据上施加变换会引起数据特征空间的共变,因此能够从变换前和变换后数据的特征表示中重构施加在数据上的变换,以此来学习数据的特征表示。
[0003]在许多学习问题中,由于深度神经网络的成功与否通常依赖于大量的有标记数据,而这些数据的收集成本很高,因此小数据挑战逐渐走近了人们的视野。了解决这一问题,人们提出了许多无监督和半监督的方法,在小数据上训练复杂模型。有标注数据的数量通常很小,而无标注数据的数量却是很大的。无标注数据的分布情况往往是学习泛化性较强的特征表示线索。无监督和半监督方法的区别在于有没有额外的标注数据样本用于训练模型。无标注数据能帮助模型缩小不同任务之间的域间差,这也推进了大量无监督和半监督域适应方法的发展。
[0004]在许多应用中,通常希望 ...
【技术保护点】
【技术特征摘要】
1.基于自动编码变换的视线追踪方法,其特征在于,包括:步骤一、将人脸图像绕三维坐标系的x、y、z轴进行旋转,并将旋转后的人脸图像绕投影到图像平面,利用人脸图像投影前后的点对计算单应矩阵,采集单应矩阵数据存储为单应数组;步骤二、构建自动编码变换网络,通过学习变换矩阵,获取自动编码网络的权值;步骤三、对自动编码变换网络进行训练,将训练完毕的自动编码变换网络的编码器和变换编码器取出,与多层感知器组成视线方向回归网络,并在小样本眼动标注训练集上回归视线方向;步骤四、将视线方向回归网络部署在应用环境,通过视线方向回归网络进行视线估计。2.根据权利要求1所述的基于自动编码变换的视线追踪方法,其特征在于,步骤一中:将人脸图像绕三维坐标系的x、y、z轴进行旋转的旋转角分别为α、β、γ,将人脸图像投影到图像平面,人脸图像的四个顶点A、B、C、D在图像平面上的对应点为A
′
、B
′
、C
′
、D
′
;利用人脸图像投影前后的四个点对计算3
×
3的单应矩阵H,采集单应矩阵H中数据存储为单应数组3.根据权利要求1所述的基于自动编码变换的视线追踪方法,其特征在于,步骤二中:自动编码变换网络包括共享权值的编码器和解码器,编码器采用主干网络Resnet或Densenet;将输出的嵌入式特征输入给变换器,经注意力机制学习嵌入式特征的长程依赖;将编码器和解码器的输出级联输入给多层感知器,并输出单应矩阵H
′
。4.根据权利要求3所述的基于自动编码变换的视线追踪方法,其特征在于,自动编码变换网络的损失函数为:式中,H为透视投影变换的单应矩阵,h
i,j
为单应矩阵H第i行,第j列系数;H
′
为自动编码网络的输出单应矩阵;h
′
i,j
为H
′
矩阵第i行,第j列系数;||
·
||
F
为矩阵的F范数。5.根据权利要求4所述的基于自动编码变换的视线追踪方法,其特征在于,步骤三中,固定编码器和变换编码器的权值,调整多层感知器的权值,把自监督学习的权值迁移到视线方向估计中。6.基于自动编码变换的视线追踪装置,其特征在于,包括:人脸图像处理模块,用于将人脸图像绕三维坐标系的x、y、z轴进...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。