人机交互中基于差分卷积的自适应视线估计方法及介质技术

技术编号：25987989 阅读：27 留言：0更新日期：2020-10-20 18:55

本发明专利技术请求保护一种人机交互中基于差分卷积的自适应视线估计方法及介质，该方法包括步骤：S1，对人脸图像进行预处理，利用MTCNN算法进行人脸检测与人眼区域定位，并提取人眼特征信息；S2，直接利用人脸图像估计头部姿态；S3，利用卷积神经网络的全连接层自动融合头部姿态和人眼特征图，进行初步视线估计；S4，利用差分卷积网络，通过训练，预测眼睛的凝视差异；S5，利用凝视差异对初步实现估计结果进行校准，输出最终视线估计结果。通过在公开数据集Eyediap上进行验证，并与近年性能良好的视线估计模型进行比较，结果均表明本文提出的视线估计模型在头部自由运动的状态下可以更准确的估计视线方向。

全部详细技术资料下载

【技术实现步骤摘要】
人机交互中基于差分卷积的自适应视线估计方法及介质
本专利技术属于图像处理与模式识别领域，特别是一种基于差扥卷积的自适应视线估计方法。
技术介绍
随着计算机视觉、人工智能等领域的高速发展，视线估计技术的研究引起了广泛的关注。视线是分析人类行为和心理状态的一个十分重要非语言线索，是人注意力与兴趣的表现之一，视线信息有助于推断人的内心状态或意图，可以更好地理解个体之间的互动。因此，视线估计在很多研究领域都发挥着重要的作用，如：人机交互、虚拟现实、社会交互分析、医疗等。广义的视线估计泛指对于眼球、眼动、视线等相关的研究。一般来说，视线估计方法可以分为基于模型的方法和基于表观的方法两大类。基于模型的方法的基本思想是基于眼睛角膜反射等特征，结合3D眼球先验知识，估计视线方向。而基于外观的方法则是直接提取眼睛的视觉特征，训练回归模型，学习一个将外观映射到视线方向的模型，从而进行视线估计。通过对比分析，基于模型的方法获得的精度较高，但对图片的质量和分辨率要求也较高，为了达到这一目的，通常要求使用专门的硬件，且对用户的头部姿态等移动性产生很大限制；而基于外观的方法对低分辨率和高噪声的图像表现更好，但模型的训练需要大量数据，并且容易出现过拟合现象。随着深度学习的崛起以及大量数据集的公开，基于表观的方法受到越来越多关注。目前，虽然对视线估计技术的研究取得了很大的进步，但由于个体之间眼睛形状和眼内结构的差异性，通用模型获得的精度有限，同时，用户头部的移动幅度会对实验结果产生较大影响，会降低识别精度。专利技术内...

【技术保护点】
1.一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，包括以下步骤：/nS1、对人脸图像利用双线性差值法进行多尺度缩放的预处理，利用优化的多任务级联卷积神经网络算法进行人脸检测的同时实现瞳孔中心定位，并提取人眼特征信息；/nS2、利用人脸图像直接进行头部姿态估计；/nS3、利用卷积神经网络的全连接层自动融合步骤S1的头部姿态和步骤S2的人眼特征图，进行初步视线估计；/nS4、利用差分卷积网络，通过训练预测眼睛的凝视差异量；/nS5、利用获得的凝视差异量对初步实现估计结果进行校准，输出最终视线估计结果。/n

【技术特征摘要】
1.一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，包括以下步骤：
S1、对人脸图像利用双线性差值法进行多尺度缩放的预处理，利用优化的多任务级联卷积神经网络算法进行人脸检测的同时实现瞳孔中心定位，并提取人眼特征信息；
S2、利用人脸图像直接进行头部姿态估计；
S3、利用卷积神经网络的全连接层自动融合步骤S1的头部姿态和步骤S2的人眼特征图，进行初步视线估计；
S4、利用差分卷积网络，通过训练预测眼睛的凝视差异量；
S5、利用获得的凝视差异量对初步实现估计结果进行校准，输出最终视线估计结果。

2.根据权利要求1所述的一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，所述步骤S1利用优化的多任务级联卷积神经网络算法，输出5个人脸特征点，实现在进行人脸检测同时完成瞳孔中心定位。
多任务级联卷积神经网络算法输出就包括瞳孔中心位置。

3.根据权利要求2所述的一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，所述步骤S2利用人脸图像直接进行头部姿态估计，具体包括：采用随机回归森林的实时头部姿态估计系统来对头部位置和朝向进行定位，用Tt＝[Tx,Ty,Tz]表示t时刻头部所在的位置信息，Rt＝[Ry,Rp,Rr]表示t时刻头部的旋转角度信息，则t时刻头部偏转参数可记为ht＝(Tt,Rt)。

4.根据权利要求3所述的一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，所述步骤S3利用卷积神经网络的全连接层自动融合头部姿态和人眼特征图，进行初步视线估计，具体包括：
采用基于卷积神经网络的方法，将3@48×72的眼睛图像I作为输入，其中3表示眼睛图像的通道数，48×72表示眼睛图像的大小，对图像进行预处理后，应用到卷积层，并将得到的特征图谱输入全连接层，最后在全连接层通过训练一个线性回归得到初步视线方向gp(I)，其损失函数为：

其中，ggt(I)为真实视线方向，D为训练数据集，|·...

【专利技术属性】
技术研发人员：罗元，陈旭，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人