基于多模态与Transformer注意力机制的高精度视线估计方法技术

技术编号：41523040 阅读：42 留言：0更新日期：2024-06-03 22:56

本发明专利技术公开了基于多模态与Transformer注意力机制的高精度视线估计方法，包括眼部图像特征提取部分、面部图像特征提取部分、特征融合部分；针对眼部图像，通过膨胀卷积层进行卷积处理，并通过全连接层得到眼部特征。针对面部图像，采用预训练的VGG16网络作为基础，并结合空间注意力机制进一步增强对眼部的关注度，最终通过全连接层得到面部特征。在特征融合部分，采用的Transformer结构独立地增强多模态特征的内部表示。最后，通过融合注意力机制，根据多模态特征在视线估计中的重要性动态调整各特征，从而实现更为精准的视线估计。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习和计算机视觉领域，具体涉及基于多模态与transformer注意力机制的高精度视线估计方法。

技术介绍

1、凝视是人类注意力的关键指标，对于人类意图预测至关重要。它在多个领域发挥着重要作用，如疲劳驾驶检测和显著性检测，以及人机交互领域，尤其是虚拟现实等领域。过去，凝视估计依赖于传统的驱动方法，需要复杂的设备支持，如高分辨率摄像机和红外摄像机。然而，最近的外观驱动方法采用了基于卷积神经网络(cnn)的技术，直接从外观信息中估计凝视位置，取得了显著进展。这些cnn方法在凝视估计中较为流行，别是结合了人脸和眼部图像输入的方法。

2、早期的视线估计方法采用单眼图像作为输入，并使用卷积神经网络训练，以输出视线的二维坐标点。随后，双眼视线估计方法被提出，这是因为单眼方法未能充分利用双眼的互补信息，而双眼视线估计方法成功弥补了这一不足之处。随着技术的发展，全脸视线估计方法应运而生。这一方法只需要输入人脸图像，便能够直接输出最终的视线估计结果。然而现有视线估计方法误差较大，一方面，现有技术主要依赖于归一化的人脸图像作为...

【技术保护点】

1.基于多模态与Transformer注意力机制的高精度视线估计方法，其特征在于，针对目标人脸图像，执行如下步骤S1-步骤S8，完成目标人脸的视线估计：

2.根据权利要求1所述的基于多模态与Transformer注意力机制的高精度视线估计方法，其特征在于，步骤S1的具体方法如下：

3.根据权利要求1所述的基于多模态与Transformer注意力机制的高精度视线估计方法，其特征在于，步骤S2的具体方法如下：

4.根据权利要求1所述的基于多模态与Transformer注意力机制的高精度视线估计方法，其特征在于，步骤S3中膨胀卷积后的左眼图像特征Fl2执行展...

【技术特征摘要】

1.基于多模态与transformer注意力机制的高精度视线估计方法，其特征在于，针对目标人脸图像，执行如下步骤s1-步骤s8，完成目标人脸的视线估计：

2.根据权利要求1所述的基于多模态与transformer注意力机制的高精度视线估计方法，其特征在于，步骤s1的具体方法如下：

3.根据权利要求1所述的基于多模态与transformer注意力机制的高精度视线估计方法，其特征在于，步骤s2的具体方法如下：

4.根据权利要求1所述的基于多模态与transformer注意力机制的高精度视线估计方法，其特征在于，步骤s3中膨胀卷积后的左眼图像特征fl2执行展平操作，将其转化为一个一维向量，将一维向量送入一个全连接层进行线性变换，同时引入批量归一化操作和rel...

【专利技术属性】
技术研发人员：王进，王可，曹硕裕，吕泽，徐嘉玲，赵颖钏，
申请(专利权)人：南通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人