当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于视野分析的无约束注视估计方法技术

技术编号:37961090 阅读:15 留言:0更新日期:2023-06-30 09:36
本发明专利技术公开了一种基于视野分析的无约束注视估计方法,属于图像处理与模式识别领域。本发明专利技术使用混合Transformer结构提取特征,其中MHCA结构用于提取局部特征,E

【技术实现步骤摘要】
一种基于视野分析的无约束注视估计方法


[0001]本专利技术属于图像处理与模式识别领域,具体涉及到一种使用混合Transformer结构的视线方向预测方法。

技术介绍

[0002]注视估计旨在推断人的视线方向或者注意力焦点,是构建眼动追踪系统的核心技术。注视估计在人机交互、医疗诊断、显著性检测和虚拟现实等领域有重要的应用。以人机交互为例,渐冻症患者可以使用眼动仪完成一些日常活动。注视估计方法主要分为基于模型的方法和基于外观的方法。基于模型的方法使用特定的几何眼睛模型估计注视方向,对硬件设备的要求较高。基于外观的方法直接从眼睛图像或人脸图像推测注视方向,对硬件的要求较低,但是需要大量的图像数据训练模型。得益于深度学习技术的发展,基于外观的方法近些年来发展迅速,使用此方法进行注视估计的精度也不断提升。
[0003]例如在申请号为CN 202110768272.6的专利技术专利中,公开了一种于注意力机制的多特征融合视线估计方法。该方法首先利用MTCNN算法进行人脸和人脸关键点检测,由此获得人脸和眼睛图片;之后使用卷积神经网络对人脸图片、左眼、本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于视野分析的无约束注视估计方法,其特征在于,包括:S1、获取带有视线标签的人脸图片数据集,所述视线标签包含俯仰角和偏航角两个维度各自的类别标签和数值标签,其中俯仰角和偏航角的类别标签由实际注视区域在网格化的视野区域中所处网格的二维坐标确定;S2、利用所述人脸图片数据集对注视估计模型进行训练;所述注视估计模型中,采用特征提取网络提取输入的人脸图片的特征,然后分别通过第一全连接层和第二全连接层进行视野区域的分类和视线方向的回归预测;所述特征提取网络采用混合Transformer网络结构,由卷积网络、第一卷积层、第一混合Transformer块、第二卷积层、第二混合Transformer块、第三卷积层、第三混合Transformer块和最大平均池化层依次级联而成;所述卷积网络由三层堆叠的卷积层实现,用于提取人脸图片的细节信息并实现下采样;所述第一混合Transformer块、第二混合Transformer块和第三混合Transformer块分别由数量不同的混合模块级联而成,每个混合模块包含MHCA模块、E

MHSA模块和MLP模块,混合模块的输入经过1
×
1的点卷积进行通道降维后输入MHCA模块,MHCA模块的输出与输入经过残差连接后得到第一特征,第一特征经过1
×
1的点卷积进行通道降维后输入E

MHSA模块,E

MHSA模块的输出与输入经过残差连接后得到第二特征,第一特征和第二特征拼接后输入MLP模块,MLP模块的输出与输入经过残差连接后作为混合模块的最终输出;所述第一全连接层以所述特征提取网络的输出作为输入,其输出的一半维度用于对俯仰角的类别标签进行预测,另一半维度用于对偏航角的类别标签进行预测;所述第二全连接层以所述特征提取网络的输出作为输入,其输出的一半维度用于对俯仰角的数值标签进行预测,另一半维度用于对偏航角的数值标签进行预测;所述注视估计模型训练采用的损失函数为第一全连接层和第二全连接层的损失加权和;S3、将待预测视线的目标人脸图片输入经过训练的所述注视估计模型中,由模型中的第二全连接层输出俯仰角和偏航角的数值,从而确定目标人脸图片中的视线方向。2.如权利要求1所述的基于视野分析的无约束注视估计方法,其特征在于,所述S1中,所述带有视线标签的人脸图片数据集的获取方法如下:首先,将带有人脸的图片数据集通过RetinaFace进行人脸检测,从中提取人脸图片以及每张人脸图片对应的三维凝视向量标签;然后,通过数据预处理,将人脸图片以及三维凝视向量标签同步映射到标准化空间,使每张人脸图片的相机坐标系的z轴指向头部坐标系中参...

【专利技术属性】
技术研发人员:王朝于舒晴周朔雯周渝林李英明
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1