当前位置: 首页 > 专利查询>南通大学专利>正文

基于多模态与Transformer注意力机制的高精度视线估计方法技术

技术编号:41523040 阅读:42 留言:0更新日期:2024-06-03 22:56
本发明专利技术公开了基于多模态与Transformer注意力机制的高精度视线估计方法,包括眼部图像特征提取部分、面部图像特征提取部分、特征融合部分;针对眼部图像,通过膨胀卷积层进行卷积处理,并通过全连接层得到眼部特征。针对面部图像,采用预训练的VGG16网络作为基础,并结合空间注意力机制进一步增强对眼部的关注度,最终通过全连接层得到面部特征。在特征融合部分,采用的Transformer结构独立地增强多模态特征的内部表示。最后,通过融合注意力机制,根据多模态特征在视线估计中的重要性动态调整各特征,从而实现更为精准的视线估计。

【技术实现步骤摘要】

本专利技术涉及深度学习和计算机视觉领域,具体涉及基于多模态与transformer注意力机制的高精度视线估计方法。


技术介绍

1、凝视是人类注意力的关键指标,对于人类意图预测至关重要。它在多个领域发挥着重要作用,如疲劳驾驶检测和显著性检测,以及人机交互领域,尤其是虚拟现实等领域。过去,凝视估计依赖于传统的驱动方法,需要复杂的设备支持,如高分辨率摄像机和红外摄像机。然而,最近的外观驱动方法采用了基于卷积神经网络(cnn)的技术,直接从外观信息中估计凝视位置,取得了显著进展。这些cnn方法在凝视估计中较为流行,别是结合了人脸和眼部图像输入的方法。

2、早期的视线估计方法采用单眼图像作为输入,并使用卷积神经网络训练,以输出视线的二维坐标点。随后,双眼视线估计方法被提出,这是因为单眼方法未能充分利用双眼的互补信息,而双眼视线估计方法成功弥补了这一不足之处。随着技术的发展,全脸视线估计方法应运而生。这一方法只需要输入人脸图像,便能够直接输出最终的视线估计结果。然而现有视线估计方法误差较大,一方面,现有技术主要依赖于归一化的人脸图像作为唯一输入数据源;另一本文档来自技高网...

【技术保护点】

1.基于多模态与Transformer注意力机制的高精度视线估计方法,其特征在于,针对目标人脸图像,执行如下步骤S1-步骤S8,完成目标人脸的视线估计:

2.根据权利要求1所述的基于多模态与Transformer注意力机制的高精度视线估计方法,其特征在于,步骤S1的具体方法如下:

3.根据权利要求1所述的基于多模态与Transformer注意力机制的高精度视线估计方法,其特征在于,步骤S2的具体方法如下:

4.根据权利要求1所述的基于多模态与Transformer注意力机制的高精度视线估计方法,其特征在于,步骤S3中膨胀卷积后的左眼图像特征Fl2执行展...

【技术特征摘要】

1.基于多模态与transformer注意力机制的高精度视线估计方法,其特征在于,针对目标人脸图像,执行如下步骤s1-步骤s8,完成目标人脸的视线估计:

2.根据权利要求1所述的基于多模态与transformer注意力机制的高精度视线估计方法,其特征在于,步骤s1的具体方法如下:

3.根据权利要求1所述的基于多模态与transformer注意力机制的高精度视线估计方法,其特征在于,步骤s2的具体方法如下:

4.根据权利要求1所述的基于多模态与transformer注意力机制的高精度视线估计方法,其特征在于,步骤s3中膨胀卷积后的左眼图像特征fl2执行展平操作,将其转化为一个一维向量,将一维向量送入一个全连接层进行线性变换,同时引入批量归一化操作和rel...

【专利技术属性】
技术研发人员:王进王可曹硕裕吕泽徐嘉玲赵颖钏
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1