人机交互中基于差分卷积的自适应视线估计方法及介质技术

技术编号:25987989 阅读:27 留言:0更新日期:2020-10-20 18:55
本发明专利技术请求保护一种人机交互中基于差分卷积的自适应视线估计方法及介质,该方法包括步骤:S1,对人脸图像进行预处理,利用MTCNN算法进行人脸检测与人眼区域定位,并提取人眼特征信息;S2,直接利用人脸图像估计头部姿态;S3,利用卷积神经网络的全连接层自动融合头部姿态和人眼特征图,进行初步视线估计;S4,利用差分卷积网络,通过训练,预测眼睛的凝视差异;S5,利用凝视差异对初步实现估计结果进行校准,输出最终视线估计结果。通过在公开数据集Eyediap上进行验证,并与近年性能良好的视线估计模型进行比较,结果均表明本文提出的视线估计模型在头部自由运动的状态下可以更准确的估计视线方向。

【技术实现步骤摘要】
人机交互中基于差分卷积的自适应视线估计方法及介质
本专利技术属于图像处理与模式识别领域,特别是一种基于差扥卷积的自适应视线估计方法。
技术介绍
随着计算机视觉、人工智能等领域的高速发展,视线估计技术的研究引起了广泛的关注。视线是分析人类行为和心理状态的一个十分重要非语言线索,是人注意力与兴趣的表现之一,视线信息有助于推断人的内心状态或意图,可以更好地理解个体之间的互动。因此,视线估计在很多研究领域都发挥着重要的作用,如:人机交互、虚拟现实、社会交互分析、医疗等。广义的视线估计泛指对于眼球、眼动、视线等相关的研究。一般来说,视线估计方法可以分为基于模型的方法和基于表观的方法两大类。基于模型的方法的基本思想是基于眼睛角膜反射等特征,结合3D眼球先验知识,估计视线方向。而基于外观的方法则是直接提取眼睛的视觉特征,训练回归模型,学习一个将外观映射到视线方向的模型,从而进行视线估计。通过对比分析,基于模型的方法获得的精度较高,但对图片的质量和分辨率要求也较高,为了达到这一目的,通常要求使用专门的硬件,且对用户的头部姿态等移动性产生很大限制;而基于外观的方法对低分辨率和高噪声的图像表现更好,但模型的训练需要大量数据,并且容易出现过拟合现象。随着深度学习的崛起以及大量数据集的公开,基于表观的方法受到越来越多关注。目前,虽然对视线估计技术的研究取得了很大的进步,但由于个体之间眼睛形状和眼内结构的差异性,通用模型获得的精度有限,同时,用户头部的移动幅度会对实验结果产生较大影响,会降低识别精度。专利技术内容本专利技术旨在解决以上现有技术的问题。提出了一种人机交互中基于差分卷积的自适应视线估计方法及介质。本专利技术的技术方案如下:一种人机交互中基于差分卷积的自适应视线估计方法,其包括以下步骤:S1、对人脸图像进行利用双线性差值法进行多尺度缩放的预处理,利用优化的多任务级联卷积神经网络算法进行人脸检测的同时实现瞳孔中心定位,并提取人眼特征信息;S2、利用人脸图像直接进行头部姿态估计;S3、利用卷积神经网络的全连接层自动融合步骤S1的头部姿态和步骤S2的人眼特征图,进行初步视线估计;S4、利用差分卷积网络,通过训练预测眼睛的凝视差异量;S5、利用获得的凝视差异量对初步实现估计结果进行校准,输出最终视线估计结果。所述步骤S1利用优化的多任务级联卷积神经网络算法,输出5个人脸特征点,实现在进行人脸检测同时完成瞳孔中心定位。多任务级联卷积神经网络算法输出就包括瞳孔中心位置。进一步的,所述步骤S2利用人脸图像直接进行头部姿态估计,具体包括:采用随机回归森林的实时头部姿态估计系统来对头部位置和朝向进行定位,用Tt=[Tx,Ty,Tz]表示t时刻头部所在的位置信息,Rt=[Ry,Rp,Rr]表示t时刻头部的旋转角度信息,则t时刻头部偏转参数可记为ht=(Tt,Rt)。进一步的,所述步骤S3利用卷积神经网络的全连接层自动融合头部姿态和人眼特征图,进行初步视线估计,具体包括:采用基于卷积神经网络的方法,将3@48×72的眼睛图像I作为输入,其中3表示眼睛图像的通道数,48×72表示眼睛图像的大小,对图像进行预处理后,应用到卷积层,并将得到的特征图谱输入全连接层,最后在全连接层通过训练一个线性回归得到初步视线方向gp(I),其损失函数为:其中,ggt(I)为真实视线方向,D为训练数据集,|·|为基数运算图。进一步的,所述步骤S4利用差分卷积网络,通过训练预测眼睛的凝视差异量,具体包括:差分卷积是分析某个样本与相邻样本的模式方向,差分计算通过计算样本激活间的差异反映连续样本的变化;差分卷积网络采用并行的结构,而并行结构的每个分支都由三个卷积层组成,每个卷积层都经过批处理归一化和ReLU单元,在第一个层与第二层后应用最大池化,以缩小图像尺寸;在第三层后,将两张输入图像的特征图进行归一化处理并拼接成一个新的张量,然后在张量上应用两个全连接层来预测两张输入图像的凝视差异。进一步的,所述差分卷积网络选择ReLU函数作为卷积层和全连接层的激活函数,其公式表示为:f(x)=max(0,x)(10)其中,x是输入,f(x)是经过ReLU单元之后的输出;利用损失函数训练视线估计模型,用dp(I,J)表示差分网络预测的凝视差异,则损失函数Ld为:其中,I为测试图像,F为参考图像,Dk为训练集D的子集,只包含第k个人的一只眼睛的图像。进一步的,所述S5利用获得的凝视差异量对初步实现估计结果进行校准,输出最终视线估计结果,具体为:通过差分卷积网络来预测测试图像I与参考图像F之间的差异dp(I,J),并结合真实的注视值ggt(F)来预测最终的视线方向ggt(F)+dp(I,J),公式为:其中,Dc为参考图像的校准集,w(·)是对每个预测的重要性进行加权。一种存储介质,所述存储介质为计算机可读存储介质,其存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以上任一项所述的方法。本专利技术的优点及有益效果如下:目前,大多数基于表观的视线估计方法是直接从单个人脸或者眼睛图像回归视线方向。但是,由于不同个体间眼睛形状和眼内结构存在差异,通用模型获得精度有限,其输出通常表现出高变异以及与主体相关的偏差。同时,当头部偏转角度过大时,视线估计结果也会受到较大影响。故本文针对以上问题,提出了一种基于差分卷积的自适应视线估计方法。引入差分卷积,直接训练一个差分卷积神经网络来预测同一受试者的两个眼睛输入图像之间的凝视差异,然后利用凝视差异对初步实现估计结果进行校准。此外,在模型中融合头部姿态信息,以提高视线估计系统的鲁棒性。通过在公开数据集Eyediap上测试,实验表明,当融入头部姿态信息,利用差分网络进行校准时,视线估计误差最小。可见差分卷积的引入可以有效地校准视线估计结果,降低视线估计的误差,且融合头部姿态信息可以使系统对头部姿态变化具有较好的鲁棒性。为了更明确地进行不同模型对视线估计效果的对比,将本文提出的算法模型与其他基于卷积神经网络的视线估计方法进行对比,本文提出的模型对视线估计的误差更小,取得了优越的性能。附图说明图1是本专利技术提供优选实施例基于差分卷积网络(DNet)的视线估计框架图;图2为差分卷积网络结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。本专利技术解决上述技术问题的技术方案是:S1,对人脸图像利用双线性差值法进行多尺度缩放的预处理,利用优化的多任务级联卷积神经网络算法(在本专利技术中,采用的是现有算法,因此本专利技术略写)进行人脸检测的同时实现瞳孔中心定位,并提取人眼特征信息;S2,利用人脸图像直接进行头部姿态估计。采用随机回归森林的实时头部姿态估计系统来对头本文档来自技高网...

【技术保护点】
1.一种人机交互中基于差分卷积的自适应视线估计方法,其特征在于,包括以下步骤:/nS1、对人脸图像利用双线性差值法进行多尺度缩放的预处理,利用优化的多任务级联卷积神经网络算法进行人脸检测的同时实现瞳孔中心定位,并提取人眼特征信息;/nS2、利用人脸图像直接进行头部姿态估计;/nS3、利用卷积神经网络的全连接层自动融合步骤S1的头部姿态和步骤S2的人眼特征图,进行初步视线估计;/nS4、利用差分卷积网络,通过训练预测眼睛的凝视差异量;/nS5、利用获得的凝视差异量对初步实现估计结果进行校准,输出最终视线估计结果。/n

【技术特征摘要】
1.一种人机交互中基于差分卷积的自适应视线估计方法,其特征在于,包括以下步骤:
S1、对人脸图像利用双线性差值法进行多尺度缩放的预处理,利用优化的多任务级联卷积神经网络算法进行人脸检测的同时实现瞳孔中心定位,并提取人眼特征信息;
S2、利用人脸图像直接进行头部姿态估计;
S3、利用卷积神经网络的全连接层自动融合步骤S1的头部姿态和步骤S2的人眼特征图,进行初步视线估计;
S4、利用差分卷积网络,通过训练预测眼睛的凝视差异量;
S5、利用获得的凝视差异量对初步实现估计结果进行校准,输出最终视线估计结果。


2.根据权利要求1所述的一种人机交互中基于差分卷积的自适应视线估计方法,其特征在于,所述步骤S1利用优化的多任务级联卷积神经网络算法,输出5个人脸特征点,实现在进行人脸检测同时完成瞳孔中心定位。
多任务级联卷积神经网络算法输出就包括瞳孔中心位置。


3.根据权利要求2所述的一种人机交互中基于差分卷积的自适应视线估计方法,其特征在于,所述步骤S2利用人脸图像直接进行头部姿态估计,具体包括:采用随机回归森林的实时头部姿态估计系统来对头部位置和朝向进行定位,用Tt=[Tx,Ty,Tz]表示t时刻头部所在的位置信息,Rt=[Ry,Rp,Rr]表示t时刻头部的旋转角度信息,则t时刻头部偏转参数可记为ht=(Tt,Rt)。


4.根据权利要求3所述的一种人机交互中基于差分卷积的自适应视线估计方法,其特征在于,所述步骤S3利用卷积神经网络的全连接层自动融合头部姿态和人眼特征图,进行初步视线估计,具体包括:
采用基于卷积神经网络的方法,将3@48×72的眼睛图像I作为输入,其中3表示眼睛图像的通道数,48×72表示眼睛图像的大小,对图像进行预处理后,应用到卷积层,并将得到的特征图谱输入全连接层,最后在全连接层通过训练一个线性回归得到初步视线方向gp(I),其损失函数为:



其中,ggt(I)为真实视线方向,D为训练数据集,|·...

【专利技术属性】
技术研发人员:罗元陈旭
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1