凝视位置估计方法、计算机设备及存储介质技术

技术编号:20993191 阅读:29 留言:0更新日期:2019-04-29 22:59
本发明专利技术提供凝视位置估计方法、计算机设备及存储介质,根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征;根据人脸RGBD图像获取头部姿态特征及头部深度特征;将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征;合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征,并输入一凝视位置估计模型以估计凝视位置;本发明专利技术利用多种与凝视位置相关的带有深度信息的姿态因素进行特征提取并组合,并通过消除原始深度信息中的噪声干扰,有效提升预测凝视位置的精准度,解决现有技术的问题。

Staring Position Estimation Method, Computer Equipment and Storage Media

The invention provides gaze position estimation method, computer equipment and storage medium, extracts eye posture features of binocular objects from binocular images of target persons in RGBD images of faces, obtains head posture features and head depth features from RGBD images of faces, and takes the image coordinates of eye positions in RGBD images of faces and the depth information of corresponding positions in the head depth features. The method synthesizes the spatial position characteristics of the eye; synthesizes the eye posture characteristics, head posture characteristics and eye spatial position characteristics as comprehensive features, and inputs a gaze position estimation model to estimate the gaze position; the method extracts and combines features using a variety of attitude factors with depth information related to the gaze position, and eliminates the original depth information. Noise interference can effectively improve the accuracy of predicting gaze position and solve the problems of existing technology.

【技术实现步骤摘要】
凝视位置估计方法、计算机设备及存储介质
本专利技术涉及图像处理
,尤其涉及凝视位置估计方法、计算机设备及存储介质。
技术介绍
凝视估计是指通过人眼或人脸信息来估计人们所注视的方向或位置的一项技术。这种技术已被广泛应用于各个领域,包括人机交互,视觉行为分析和心理学研究。例如,在人机交互中,凝视估计技术被用于虚拟现实游戏,人们可以通过眼球控制游戏中物体的移动;在视觉行为分析中,可以通过凝视点估计技术开发出能够商用的预测凝视位置的仪器——眼动仪,可以通过收集志愿者所看的位置来判断图像的显著性,有助于帮助网页的广告显示位置、图像压缩等;另外,凝视点估计也能帮助我们更多的分析人们的心理,在心理测试、心理治疗中有诸多帮助。因此,凝视估计这项技术有巨大的潜在价值和研究必要。早期的凝视估计技术是基于眼睛的几何模型和特征的方法,此种方法需要首先对志愿者进行校准,然后利用额外的红外光源等专用硬件来提取眼睛特征。如此的方法所需步骤较繁琐,校准步骤使得此种方法无法对不受干扰的人直接进行凝视点预测,额外的红外光源使得设备造价较高,不能大规模使用。最近的研究主要集中在基于外观的估计上,与基于模型的方法不同,基于外观的方法实现了令人满意的性能,同时保持了用户友好的数据采集程序,而不需要在面部姿势上进行额外的先验或进行精细的系统校准。但是,尽管基于外观的估计是理想的凝视估计器,但现有的解决方案仍然对头部姿势、光照不一致、遮挡、低图像质量等比较敏感。特别是,凝视估计的准确性在不同受试者中仍然显著不同。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供凝视位置估计方法、计算机设备及存储介质,利用多种姿态特征作为输入,通过人工智能数学模型进行位置估计点的预测,并能有效消除深度信息中的干扰,解决现有技术的问题。为实现上述目标及其他相关目标,本专利技术提供一种凝视位置估计方法,包括:根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征;根据人脸RGBD图像获取头部姿态特征及头部深度特征;将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征;合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征,并输入一凝视位置估计模型以估计凝视位置。于一实施例中,所述眼球姿态特征通过基于ResNet模型的提取器提取。于一实施例中,所述头部姿态特征和/或头部深度特征是通过生成对抗网络模型生成的。于一实施例中,所述头部姿态特征的方式包括:从所述人脸RGBD图像截取包含眼部的子图像,并从所述子图像提取其原始彩色特征及原始深度特征;对所述原始彩色特征与原始深度特征分别进行特征提取以形成待用彩色特征和待用深度特征,合成所述待用彩色特征和待用深度特征为合成特征;将所述合成特征按所述原始深度特征的尺寸进行还原,以得到所述头部姿态特征;和/或,所述头部深度特征的提取方式包括:将所述合成特征按能与所述头部姿态特征合成的预定尺寸进行处理,以得到所述头部深度特征。于一实施例中,所述生成对抗网络模型具有的生成器包含一或多个卷积层和池化层,用于提取所述所述原始彩色特征与原始深度特征;所述生成器还包括与该一或多个卷积层和池化层相对的一或多个反卷积层和反池化层,用于还原所述合成特征以得到所述头部深度特征。于一实施例中,所述一或多个卷积层和池化层是由VGG模型或GoogleLeNet模型中的部分所实现。于一实施例中,所述对抗网络模型还包括:深度损失函数,用于约束生成的头部深度特征与作为其生成依据的原始深度特征最为近似。于一实施例中,所述眼球姿态特征分为左眼的眼球姿态特征和右眼的眼球姿态特征,所述眼部的空间位置特征分为左眼的空间位置特征和右眼的空间位置特征;所述左眼的眼球姿态特征、头部姿态特征、及左眼的空间位置特征进行合成为一第一输入特征,所述右眼的眼球姿态特征、头部姿态特征、及右眼的空间位置特征进行合成为一第二输入特征,所述凝视位置估计模型对第一输入特征和第二输入特征进行综合以得到估计凝视位置。为实现上述目标及其他相关目标,本专利技术提供一种计算机设备,包括:处理器及存储器;所述存储器,存储有计算机程序;所述处理器,用于运行所述计算机程序,以实现所述的凝视位置估计方法。为实现上述目标及其他相关目标,本专利技术提供一种计算机存储介质,存储有计算机程序,所述计算机程序被运行时实现所述的凝视位置估计方法。如上所述,本专利技术提供凝视位置估计方法、计算机设备及存储介质,根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征;根据人脸RGBD图像获取头部姿态特征及头部深度特征;将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征;合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征,并输入一凝视位置估计模型以估计凝视位置;本专利技术利用多种与凝视位置相关的带有深度信息的姿态因素进行特征提取并组合,并通过消除原始深度信息中的噪声干扰,有效提升预测凝视位置的精准度,解决现有技术的问题。附图说明图1显示为本专利技术实施例中的凝视位置估计方法的流程示意图。图2显示为本专利技术实施例中所述头部姿态特征及头部深度特征获取的流程示意图。图3显示为本专利技术一具体实施例中头部姿态特征生成和头部深度特征提取的框架示意图。图4显示为本专利技术一具体实施例中实现凝视位置估计方法的系统框架示意图。图5显示为本专利技术实施例中的计算机设备的结构示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。现有的凝视估计方式,例如基于外观的凝视估计,需要配合红外光源等专用硬件来提取眼睛特征,繁琐、易于受到干扰且成本较高,尽管经不断改进而能最终获得的结果较佳,但是仍然对头部姿势、光照不一致、遮挡、低图像质量等比较敏感,且估计的准确性也会随受试者的不同而变化。由于人的凝视点取决于以摄像机和凝视方向为中心的3D眼睛位置,而凝视方向进一步取决于头部和眼球姿势,因此,本申请的实施例中从带有深度信息的人脸图像分别提取与该些因素相关的数据作为输入,进而利用人工智能数学模型进行凝视点的预测。如图1所示,展示本专利技术实施例中的凝视位置估计方法的流程示意图。在此凝视位置估计方法的过程中,包含四部分任务,即:眼球姿势估计、头部姿势估计、眼睛空间位置估计、和凝视位置估计;其中,头部姿势和3D眼睛位置估计都可以利用深度信息。所述方法包括:步骤S101:根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征。在一实施例中,所述人脸RGBD图像,可以是从通过光场相机采集的包含人物的彩色图像中截取,举例来说,这可以通过神经网络模型(CNN)的人脸检测框回归(Boundingboxregression)算法来得到。在带有深度信息的图像中,每个像素点具有R、G、B的像素值外,还具有对应的深度信息。在一实施例中,所述双眼的眼球本文档来自技高网...

【技术保护点】
1.一种凝视位置估计方法,其特征在于,包括:根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征;根据人脸RGBD图像获取头部姿态特征及头部深度特征;将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征;合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征,并输入一凝视位置估计模型以估计凝视位置。

【技术特征摘要】
1.一种凝视位置估计方法,其特征在于,包括:根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征;根据人脸RGBD图像获取头部姿态特征及头部深度特征;将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征;合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征,并输入一凝视位置估计模型以估计凝视位置。2.根据权利要求1所述的凝视位置估计方法,其特征在于,所述眼球姿态特征通过基于ResNet模型的提取器提取。3.根据权利要求1所述的凝视位置估计方法,其特征在于,所述头部姿态特征和/或头部深度特征是通过生成对抗网络模型生成的。4.根据权利要求3所述的凝视位置估计方法,其特征在于,所述头部姿态特征的方式包括:从所述人脸RGBD图像截取包含眼部的子图像,并从所述子图像提取其原始彩色特征及原始深度特征;对所述原始彩色特征与原始深度特征分别进行特征提取以形成待用彩色特征和待用深度特征,合成所述待用彩色特征和待用深度特征为合成特征;将所述合成特征按所述原始深度特征的尺寸进行还原,以得到所述头部姿态特征;和/或,所述头部深度特征的提取方式包括:将所述合成特征按能与所述头部姿态特征合成的预定尺寸进行处理,以得到所述头部深度特征。5.根据权利要求3所述的凝视位置估计方法,其特征在于,所述生成对抗网络模型具有的生成器包含一...

【专利技术属性】
技术研发人员:高盛华廉东泽张子恒
申请(专利权)人:上海科技大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1