System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于自注意力的视线估计方法技术_技高网
当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于自注意力的视线估计方法技术

技术编号:40439083 阅读:6 留言:0更新日期:2024-02-22 23:02
本发明专利技术设计一种基于自注意力的视线估计方法,属于计算机视觉领域;首先获取公开视线估计数据集,并对其进行预处理,得到更标准统一的数据集,并且预先定义手机型号与摄像头在屏幕中位置的对应关系;提出为视线估计任务定制化的DeiT模型,并基于预处理后的数据集,对DeiT模型进行训练,得到一个误差低、鲁棒性强的视线估计模型;最后基于训练好的模型,执行视线估计任务:根据输入的人脸图像,得到一个正确的视线估计点坐标;本发明专利技术在应用到手机屏幕的视线估计任务中,充分考虑了不同型号的手机中摄像头不同位置导致的差异,得到更加准确的视线估计。

【技术实现步骤摘要】

本专利技术属于计算机视觉领域,具体涉及一种基于自注意力的视线估计方法


技术介绍

1、眼睛注视是最重要的非语言交流线索之一,是理解人类意图的重要因素。视线估计是根据一个人的目光来推测他在看什么地方的任务,现已经被广泛应用于各个领域,比如医学诊断(可以通过注视模式来进行自闭症谱系障碍的诊断)、疲劳驾驶检测(眼睛活动是认知分心检测率最高的指标)、虚拟现实(vr的渲染很耗费资源,但如果通过视线估计来预测用户目光,只展示所需资源,可显著降低渲染成本,但视觉质量没有明显差异)等。现有的视线估计模型大致可分为两类:基于模型的视线估计和基于外观的视线估计。

2、基于模型的视线估计方法需要专门设备来获取眼睛信息,从而构建一个眼睛的几何模型来进行视线估计,这些方法成本很高,而且在图像质量低或光照条件变化大的情况下的效果不理想。基于外观的视线估计方法直接使用眼睛图像作为输入,无需高昂的专门设备费用,但需要更多的训练数据,传统的基于外观的视线估计仅在实验室环境下表现良好,即头部姿势受限和受试者约束的情况下,无法很好地泛化到新面孔。随着大规模数据的可用性以及深度学习的出现,提出了基于深度学习的视线估计。尽管提出了很多基于卷积神经网络(cnn)的视线估计模型,但现有的精度与鲁棒性仍无法满足实际应用需求。

3、中国专利“cn 110378315 a一种基于脸部图像的视线角度估计方法”提出了一种将脸部图像作为输入,直接回归求解人类视线角度的方法。该专利使用的网络模型为resnet-50模型,然后在输出层后并行加入3个输入为1000维、输出为1维的全连接层。同时该专利还使用了一种加权损失函数其中,h为交叉熵函数,e为均方根函数,p为输入脸部图像对应的标签真实值,为神经网络的估计值,α为权值系数。

4、其中,resnet-50是一种深度卷积神经网络,具有较深的网络结构,可以学习到更复杂、更丰富的图像特征表示。这对于视线估计任务来说是有益的,因为它可以从图像中提取更多的信息来推断人的视线方向。但是,使用resnet-50完成视线估计任务,会缺乏空间信息,尽管resnet-50通过使用不同尺度的卷积核来捕捉不同层次的特征,但它仍然是一种局部感受野的模型。对于视线估计任务,全局的空间信息也是非常重要的。因此,在处理一些特定的视线估计场景时,resnet-50可能无法充分利用全局上下文信息。

5、中国专利“cn 113505694 a一种基于视线追踪的人机交互方法、装置及计算机设备”提出了一种将双眼图像和人脸图像作为输入,回归得到标准化空间下视线角度。该专利使用的网络模型也是卷积神经网络模型:使用efficientnet-b0网络,后面跟着一个1×1卷积、批量归一化和swish激活函数,来提取双眼图像的特征;使用mobilenetv3-small来提取面部图像的特征。

6、上述两个专利中使用的网络都是卷积神经网络,卷积神经网络通过堆叠卷积层来构建深度神经网络,但是这样的做法在一定程度上限制了其表示能力;并且卷积神经网络在每个卷积层中仅考虑局部感受野的信息,无法获取全局信息,因此可能会导致信息丢失或冗余。但对于视线估计任务而言,当输入为脸部图像时,需要充分考虑脸部图像中的眼睛图像所表示的信息,而卷积神经网络结构不能自适应地调整图像中特征的相关性,在处理长期依赖性时存在困难,并且不具备全局感知力,所以可以考虑引入自注意力机制进行视线估计。


技术实现思路

1、针对现有技术的不足,本专利技术提供一种基于自注意力的视线估计方法,以提高视线估计模型的预测精度与鲁棒性。

2、一种基于自注意力的视线估计方法,具体包括以下步骤:

3、步骤1:获取公开视线估计数据集,并对其进行预处理,得到更标准统一的数据集,并且预先定义手机型号与摄像头在屏幕中位置的对应关系;

4、获取公开的视线估计数据集,然后采用gazehub@phi-ai lab提出的方法对数据集进行预处理;根据数据集中提供的人脸标志点,将人脸图像划分为四部分:人脸图像、左眼图像、右眼图像、人脸网格;对数据集中的原始标签进行整理处理,整合为以下数据格式:人脸图像路径、左眼图像路径、右眼图像路径、脸部网格图像路径、二维视线估计点坐标值、手机型号;

5、预先查找手机资料信息,定义手机型号与摄像头屏幕位置的对应关系为{“mobile_type”:“camera_position”},用于表示:对于mobile_type型号的手机,摄像头在手机屏幕的camera_position位置,camera_position可能的取值有左、中、右,这是一个三分类,表示将手机屏幕划分为三部分,摄像头在手机屏幕的哪一部分内;

6、步骤2:基于步骤1预处理后的数据集,对deit模型进行训练,得到一个误差低、鲁棒性强的视线估计模型;

7、所述deit模型采用了transformer的结构,通过输入图像分割、增加位置嵌入、位置信息处理、transformer编码和全局池化,实现了对图像的全局特征学习;为了使deit模型更适用于视线估计任务,提出以下改进:

8、定制化眼部注意力头:在deit模型中引入专门针对眼部特征的注意力头;注意力头被训练以特别关注眼睛区域的关键特征;

9、多尺度特征融合:实现一种多尺度注意力机制,允许模型同时捕捉眼睛区域的细粒度特征和更广泛的脸部上下文信息;通过结合不同尺寸的注意力窗口来实现,通过小尺度窗口捕捉眼部的细粒度特征,同时通过大尺度窗口理解眼部在整个脸部上下文中的位置和角度,根据输入图像的特性和眼部区域的位置,动态调整注意力窗口的大小和位置,以优化性能;

10、利用步骤1预处理后的数据集中的人脸图像,经过为视线估计任务定制化的deit模型,输出二维视线估计点,计算回归损失;

11、利用输入的三分类取值,计算分类损失,使用多任务学习multi-task learning来结合分类损失与回归损失,并作为最终的总损失值;

12、在视线估计任务中,有两个小任务:一个分类任务,用来预测前置摄像头与手机屏幕的相对位置;一个回归任务,用来预测二维视线估计点;定义分类损失为lcls,回归损失为lreg,则总损失表示为:

13、ltotal=αlcls+βlreg

14、其中α和β是超参数,调节分类损失和回归损失在总损失中所占的比例;

15、使用动态权重调整dynamic weighting方法来自适应调节这两个损失值,定义一个动态权重系数w,对于分类损失和回归损失分别乘以wcls和wreg,得到动态加权的分类损失和回归损失,如下所示:

16、lcls_dyn=wcls*lcls

17、lreg_dyn=wreg*lreg

18、然后,建立验证集,根据模型在验证集上的表现来调整wcls和wreg;设定一个阈值,当分类任务的准确率达到阈值水平时,增加wcls;当回归任务的误差较小时本文档来自技高网...

【技术保护点】

1.一种基于自注意力的视线估计方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种基于自注意力的视线估计方法,其特征在于,步骤1所述获取公开视线估计数据集,并对其进行预处理,得到更标准统一的数据集,具体为:

3.根据权利要求1所述的一种基于自注意力的视线估计方法,其特征在于,步骤1所述预先定义手机型号与摄像头在屏幕中位置的对应关系,具体为:

4.根据权利要求1所述的一种基于自注意力的视线估计方法,其特征在于,步骤2所述DeiT模型采用了Transformer的结构,通过输入图像分割、增加位置嵌入、位置信息处理、Transformer编码和全局池化,实现了对图像的全局特征学习;为了使DeiT模型更适用于视线估计任务,提出改进。

5.根据权利要求4所述的一种基于自注意力的视线估计方法,其特征在于,所述改进,具体为:

6.根据权利要求1所述的一种基于自注意力的视线估计方法,其特征在于,步骤2基于步骤1预处理后的数据集,对DeiT模型进行训练,得到一个误差低、鲁棒性强的视线估计模型,具体为:

7.根据权利要求1所述的一种基于自注意力的视线估计方法,其特征在于,步骤3具体为:

...

【技术特征摘要】

1.一种基于自注意力的视线估计方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种基于自注意力的视线估计方法,其特征在于,步骤1所述获取公开视线估计数据集,并对其进行预处理,得到更标准统一的数据集,具体为:

3.根据权利要求1所述的一种基于自注意力的视线估计方法,其特征在于,步骤1所述预先定义手机型号与摄像头在屏幕中位置的对应关系,具体为:

4.根据权利要求1所述的一种基于自注意力的视线估计方法,其特征在于,步骤2所述deit模型采用了transformer的结构,通过输入图像分...

【专利技术属性】
技术研发人员:孙霜铭程维潘永康彭程王柄然李宗晟
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1