一种结合多注意力机制的视线估计方法技术

技术编号:42195655 阅读:23 留言:0更新日期:2024-07-30 18:44
本发明专利技术公开了一种结合多注意力机制的视线估计方法,包括以下步骤,人脸数据采集:用于人脸检测通过HOG特征结合支持向量机SVM的方法进行,检测人脸的基础上采用梯度提升决策树GBDT对人脸68个关键点进行定位;本发明专利技术通过通道注意力机制来权衡各时间点的视线特征,并基于双向LSTM设计了一个视线时变特征融合结构以正确得出视频帧中的视线的相关性,更好地获取短时间中最优的视线估计;在满足实时性、稳定性、精确性、通用性的条件下,解决神经网络模型体积大、速度慢、需要大量训练样本等技术难题,利用终端设备仅有的资源实现最有效的视线估计;能够在一定时间跨度下,实时地预测视线的快速变化,并准确估计实际交互场景中的三维视线方向。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,具体为一种结合多注意力机制的视线估计方法


技术介绍

1、人类注视方向是分析人类行为的重要指标,其反映了对环境中各种视觉刺激的注意水平和认知状态。为了更好地理解人类注视机理,学者需要更好地度量人类视线角度来分析视线中所蕴含人类意识方面的信息,而视线估计方法是指通过相机对人脸或人眼进行采集,使用图像处理手段,获取眼部坐标,并通过计算确定人眼注视点位置或视线矢量方向,该技术在人机交互、虚拟现实、医学和疲劳驾驶检测等诸多领域都有着十分广泛的应用。

2、早期的视线估计方法主要采用基于角膜反射的方法和基于眼球模型的方法。这类方法依赖于昂贵的专用设备和精确的数据校准(如光轴、角膜半径和瞳孔半径),且通常受限于周边环境的影响,很难得到高分辨率的图片,其效果在实际场景中往往不太理想。基于外观的视线估计的目标主要是学习一个图像i到视线向量的映射其中θ、φ为偏航角、俯仰角以及滚动角,而g分别表示在眼坐标系统[gx,gx,gz]中的真实值的分量。早期的基于外观的方法一般针对实验者个人学习映射函数,直接将人眼或人脸图像输入至深度神经网络,输出本文档来自技高网...

【技术保护点】

1.一种结合多注意力机制的视线估计方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种结合多注意力机制的视线估计方法,其特征在于:所述GAZE360在公共数据集上训练视线估计模型对人脸及图片进行训练及测试,采用pinballloss获得某一分位数下的预测输出,利用输出完成预测输出范围的回归模型;

3.根据权利要求2所述的一种结合多注意力机制的视线估计方法,其特征在于:所述θgt为视线真实值,θ为测量值,σ为5%和95%分位点之间的方差,τ为任意分位数,τ设置为5%。

4.根据权利要求3所述的一种结合多注意力机制的视线估计方法,其特征在于:所述...

【技术特征摘要】

1.一种结合多注意力机制的视线估计方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种结合多注意力机制的视线估计方法,其特征在于:所述gaze360在公共数据集上训练视线估计模型对人脸及图片进行训练及测试,采用pinballloss获得某一分位数下的预测输出,利用输出完成预测输出范围的回归模型;

3.根据权利要求2所述的一种结合多注意力机制的视线估计方法,其特征在于:所述θgt为视线真实值,θ为测量值,σ为5%和95%分位点之间的方差,τ为任意分位数,τ设置为5%。

4.根据权利要求3所述的一种结合多注意力机制的视线估计方法,其特征在于:所述视线估计模型的网络初始输入形状为32×21×224×224的7帧3通道图像,经过一个多头注意力机制的输入模块得到形状为32×16×56×56的多头注意力图。

5.根据权利要求4所述的一种结合多注意力机制的视线估计方法,其特征在于:所述多头自注意力机制用于增强输入图像中视线的显著性特征,多头自注意力机制由下式所定义;<...

【专利技术属性】
技术研发人员:熊建斌张武略
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1