当前位置: 首页 > 专利查询>武汉大学专利>正文

基于外观的人眼三维视线方向估计方法、系统、装置制造方法及图纸

技术编号:37985035 阅读:8 留言:0更新日期:2023-06-30 09:59
公开了一种基于外观的人眼三维视线方向估计方法、系统、装置。该方法为:获取包含人脸的图像或视频;进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;根据人脸检测结果及关键点的位置分别裁剪出人脸图像和左右眼图像;使用视线估计模型估计图像中人眼三维视线,所述视线估计模型的训练过程为:使用Base

【技术实现步骤摘要】
基于外观的人眼三维视线方向估计方法、系统、装置


[0001]本专利技术属于人工智能
,尤其是一种基于外观的人眼三维视线方向估计方法、系统、装置。

技术介绍

[0002]人眼视线包含丰富的信息,是人类的重要行为特征之一,人眼视线估计的研究可以应用在社交互动、人机交互、虚拟现实及增强现实、消费者行为分析、精神障碍研究等多个领域。视线跟踪代表了生物测量应用中的一个重要任务。近年来的研究和应用表明,虹膜及瞳孔的运动包含大量信息,且随着视线跟踪技术研究的不断深入和发展,其应用领域也越来越广泛。因此,人眼视线估计在近几十年来一直是一项重要的研究课题,受到了安全学、心理学、机器人学、神经学界等的关注。
[0003]视线估计技术的研究主要分为两大类:基于模型的视线估计方法和基于外观的视线估计方法。基于模型的方法通过对人的眼睛与面部的解剖构造了一个三维视线估计模型。利用不同的面部特征和眼睛特征(面部标志、角膜、瞳孔等)之间的几何关系,可以计算人眼注视方向。基于模型的方法具有较高的准确性和处理头部运动的能力,目前已广泛应用于许多专业的眼球跟踪器中。专利文献CN108875524A、CN107392156A利用眼球及瞳孔特征构建视线估计模型,然而由于基于模型的方法需要人眼的相关参数,因此需要对个人进行校准才能获得良好的精度。此外,基于模型的方法对图像分辨率要求较高,现有的研究多是基于穿戴式的仪器以便于获取更清晰的图片信息从而进行眼部图像建模,这也不利于该项技术的普及与推广。
[0004]基于外观的视线估计方法利用计算机强大的学习技术,直接将人眼图像信息作为输入,从大量的训练样本中学习从眼睛外观到注视方向或屏幕落点的映射函数,从而通过采集到的新图像中的人眼外观计算出对应的屏幕视线落点。与基于模型的方法相比,这种方法避免了对复杂的眼球结构建模,并且只需要单目相机来获取人眼外观图像信息,采用的统计样本信息量大,因此算法的鲁棒性比基于模型的视线跟踪算法强。且随着一些数据集的采集和公开,基于外观的视线估计方法在解决头部自由运动和光线变化等问题上也逐渐得到解决,具有较大的研究空间。
[0005]基于外观的方法早期工作仅限于具有固定头部姿势的实验室环境。随着一些大规模数据集的出现,这些约束也逐渐减小,且产生了各种各样的基于学习的方法,包括人工神经网络(ANNs)、随机森林法、高斯过程回归法、支持向量回归(SVRs)、增强学习和卷积神经网络(CNN)。其中CNN目前在视线估计方面具有更高的精度和鲁棒性,并且在足够规模和多样性的训练数据支持下能够进行非标定的注视估计。例如专利文献CN113807330A就是使用深度学习的方法进行视线估计,其在一定程度上提高了视线估计精度。德国马普所Xucong Zhang博士等最早尝试使用LeNet和VGG16的网络架构进行单眼的视线估计,并将头部姿态信息与提取出的眼部特征进行拼接,用以学习人眼视线。然而以单眼图像为输入,没有充分利用双眼的互补信息,北京航空航天大学Yihua Cheng基于此提出了一种基于双眼的非对
称回归方法。以单眼/双眼图像为输入存在两个缺陷:1)无法充分利用全脸的特征进行视线估计;2)需要额外的模块估计头部姿态。因此一些学者开始致力于探索使用全脸图像或全脸加双眼图像进行视线估计。不足的是他们大多使用同一种网络模型对全脸图像和左右眼图像特征进行提取,忽略了在视线估计中,眼部图像包含较细粒度的特征信息,而对全脸图像的关注则更多的在于面部整体特征对视线估计精度的影响。

技术实现思路

[0006]本专利技术提供一种人眼视线方向估计方法、系统、装置。本专利技术使用两种不同的网络结构分别对全脸图像和左右眼图像进行处理,同时加入头部姿态向量,能够帮助提取更细粒度的视线估计特征信息,提高视线估计的精度和稳健性。
[0007]第一方面,提供一种基于外观的人眼视线方向估计方法,包括:获取包含人脸的图像或视频;采用MTCNN方法进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;根据人脸检测结果及人脸关键点的位置分别裁剪出人脸图像和左右眼图像;使用视线估计模型估计图像中人眼三维视线,得到人眼视线方向估计结果,所述视线估计模型的训练过程为:使用Base

CNNs网络对包含较少细节信息的所述人脸图像进行特征提取以获取全脸图像特征向量,使用EE

Net网络的两个不对称分支结构分别对所述左右眼图像进行更细粒度的特征提取以获得双眼图像特征向量,结合人脸关键点检测算法进行头部姿态向量的估算,最后使用全连接层对所述全脸图像特征向量、所述双眼图像特征向量及所述头部姿态向量进行回归,用于最终的视线估计任务。
[0008]第二方面,提供一种基于外观的人眼视线方向估计系统,包括:图像或视频获取模块,其被配置为获取包含人脸的图像或视频;人脸检测模块,其被配置为采用MTCNN方法进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;图像裁剪模块,其被配置为根据人脸检测结果及人脸关键点的位置分别裁剪出人脸图像和左右眼图像;视线估计模型,其能够得到人眼视线方向估计结果,所述视线估计模型的训练过程为:使用Base

CNNs网络对包含较少细节信息的所述人脸图像进行特征提取以获取全脸图像特征向量,使用EE

Net网络的两个不对称分支结构分别对所述左右眼图像进行更细粒度的特征提取以获得双眼图像特征向量,结合人脸关键点检测算法进行头部姿态向量的估算,最后使用全连接层对所述全脸图像特征向量、所述双眼图像特征向量及所述头部姿态向量进行回归,用于最终的视线估计任务。
[0009]在上述的第一方面和/或第二方面,所述头部姿态向量计算方法包括:通过人脸关键点检测算法提取人脸的68个关键点像素信息;根据其中14个点的像素坐标与标准人脸3D模型中对应的关键点坐标值的映射关系,使用Perspective

n

Point算法计算3D人脸坐标系到相机坐标系之间的旋转矩阵及平移矩阵,所计算的人脸坐标系到相机坐标系旋转矩阵即为所述头部姿态向量,所述头部姿态向量包括头部姿态的俯仰角、偏航角和滚转角三个维度。
[0010]在上述的第一方面和/或第二方面,所述EE

Net网络是对所述Base

CNNs网络在模型深度、宽度及输入图像分辨率三个维度上的复合缩放,缩放规则如下:在有限的计算资源内,通过调整复合缩放系数来对所述Base

CNNs网络的三个维度进行统一缩放。
[0011]第三方面,提供一种装置,包括:相机,其采集包含人脸的图像或视频;处理器;存
储器,包括一个或多个程序模块;其中,所述一个或多个程序模块被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个程序模块包括用于实现所述的基于外观的人眼视线落点估计方法的指令。
[0012]第四方面,提供一种存储介质,用于存储非暂时性指令,当所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于外观的人眼视线方向估计方法,其特征在于,包括:获取包含人脸的图像或视频;采用MTCNN方法进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;根据人脸检测结果及人脸关键点的位置分别裁剪出人脸图像和左右眼图像;使用视线估计模型估计图像中人眼三维视线,得到人眼视线方向估计结果,所述视线估计模型的训练过程为:使用Base

CNNs网络对包含较少细节信息的所述人脸图像进行特征提取以获取全脸图像特征向量,使用EE

Net网络的两个不对称分支结构分别对所述左右眼图像进行更细粒度的特征提取以获得双眼图像特征向量,结合人脸关键点检测算法进行头部姿态向量的估算,最后使用全连接层对所述全脸图像特征向量、所述双眼图像特征向量及所述头部姿态向量进行回归,用于最终的视线估计任务。2.根据权利要求1所述的基于外观的人眼视线方向估计方法,其特征在于,所述头部姿态向量计算方法包括:通过人脸关键点检测算法提取人脸的68个关键点像素信息;根据其中14个点的像素坐标与标准人脸3D模型中对应的关键点坐标值的映射关系,使用Perspective

n

Point算法计算3D人脸坐标系到相机坐标系之间的旋转矩阵及平移矩阵,所计算的人脸坐标系到相机坐标系旋转矩阵即为所述头部姿态向量,所述头部姿态向量包括头部姿态的俯仰角、偏航角和滚转角三个维度。3.根据权利要求1所述的基于外观的人眼视线方向估计方法,其特征在于,所述EE

Net网络是对所述Base

CNNs网络在模型深度、宽度及输入图像分辨率三个维度上的复合缩放,缩放规则如下:在有限的计算资源内,通过调整复合缩放系数来对所述Base

CNNs网络的三个维度进行统一缩放,其计算原则如下:depth:d=α
μ
width:ω=β
μ
resolution:r=r
μ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中d,ω,r分别为所述EE

Net网络在模型深度、宽度及输入图像分辨率三个维度上的缩放系数;μ表示所述EE

Net网络的复合缩放系数,其值由可用资源数决定;α,β,r分别是模型的深度、宽度和分辨率缩放常数,通过贝叶斯优化的方法确定。4.一种基于外观的人眼视线方向估计系统,其特征在于,包括:图像或视频获取模块,其被配置为获取包含人脸的图像或视频;人脸检测模块,其被配置为采用MTCNN方法进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;图像裁剪模块,其被配置为根据人脸检测结果及人脸关键点的位置分别裁剪出人脸图像和左右眼图像;视线估计模型,其能够得到人眼视线方向估计结果,所述...

【专利技术属性】
技术研发人员:李霖武新梅李林峰朱海红汪杨刚杨明洁严如玉
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1