实现眼球三维视线跟踪的方法、装置、设备及存储介质制造方法及图纸

技术编号:20655375 阅读:20 留言:0更新日期:2019-03-23 06:59
本发明专利技术公开了一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质,包括:将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。本发明专利技术所提供的方法、装置、设备以及计算机可读存储介质,可以从二维的人脸图像中提取到被拍摄者眼球的三维视线方向向量,具有广泛的应用场景。

【技术实现步骤摘要】
实现眼球三维视线跟踪的方法、装置、设备及存储介质
本专利技术涉及眼球跟踪
,特别是涉及一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质。
技术介绍
眼球跟踪算法的研究已经有较为成熟的成果,且已经成功地在很多商业应用上实现,例如VR/AR技术,虽然传统的眼球跟踪技术能够实现较高的精度,然而现阶段眼球跟踪算法基本上是基于传统的图像处理方法,依赖于昂贵的红外设备,且需要在头部安装特殊的检测设备,检测眼球的特征。传统的图像处理方法检测精度受光线变化的影响,且检测距离受到严重的约束。所以急需一种能通过普通摄像头拍摄的一种RGB图像实现眼球跟踪的算法。在计算机视觉领域,深度卷积神经网络已经在很多方面取得了重大成果,例如目标检测、实例分割等等。现有技术中也有相应的基于深度学习的眼球跟踪技术,具体步骤如下:获取视网膜病变影像数据;对视网膜病变影像数据进行数据标注,得到标注数据;建立初始深度学习网络;将视网膜病变影像数据输入初始深度学习网络中,输出得到相应的预测数据;利用损失函数对视网膜病变影像数据相应的标注数据和预测数据进行比较,得到比较结果;根据比较结果,调节初始深度学习网络中的参数,直到比较结果达到预设阈值,得到最终的深度学习网络模型;利用深度学习网络模型对待测视网膜病变影像数据进行处理,得到相应的眼球中心坐标以及眼球直径。因此现有的眼球跟踪技术中,一种是基于传统的图像处理算法实现眼球跟踪技术,虽然这类算法已经有较为成熟的商业应用,然而传统的图像处理算法检测精度受光线变化的影响,而且依赖于昂贵的头部佩戴红外线设备,头部的便捷性体验较差,检测距离也受到约束。另一种是基于深度学习算法的眼球跟踪算法,然而现有的基于技术中基于深度学习算法的眼球跟踪算法仅能检测眼球中心位置及眼球直径,仅包含眼球动作的二维信息,应用场景受到约束。综上所述可以看出,如何通过二维人脸图像获取眼球的三维视线方向向量是目前有待解决的问题。
技术实现思路
本专利技术的目的是提供一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质,以解决现有技术中基于深度学习的眼球跟踪算法只能检测出眼球的二维信息的问题。为解决上述技术问题,本专利技术提供一种实现眼球三维视线跟踪的方法,包括:将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。优选地,所述将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态前包括:采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集,其中,所述人脸图像为RGB图像;构建初始头部姿态检测网络和初始眼球动作检测网络;利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练,得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络。优选地,所述采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集包括:利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像,得到人脸图像第一子集合;所述面阵摄像头阵列中每行摄像头采集到多幅人脸图像,表示所述数据提供者在y方向不同的头部姿态;所述面阵摄像头阵列中每列摄像头采集到的多幅人脸图像,表示所述数据提供者在p方向不同的头部姿态;对所述面阵摄像头阵列采集到的所述人脸图像分别进行顺时针和逆时针方向的旋转,得到表示所述数据提供者在r方向不同的头部姿态的人脸图像第二子集合;合并所述人脸图像第一子集合和所述人脸图像第二子集合得到所述人脸图像数据集。优选地,所述利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像包括:采集所述每幅人脸图像时,记录所述数据提供者眼球正视的显示屏上的动点,从而确定所述数据提供者眼球视线的三维向量标签,且同时记录每幅人脸图像中的头部姿态。优选地,所述构建初始头部姿态检测网络包括:以AlexNET模型为基本结构,构建所述初始头部检测网络,所述初步头部检测网络的网络结构为:C(3,1,6)-BN-PReLU-P(2,2)-C(3,1,16)-BN-PReLU-P(2,2)-C(3,1,24)-BN-PReLU-C(3,1,24)-PReLU(3,1,16)-BN-PReLU-P(2,2)-FC(256)-FC(128)-PReLU-FC(3);其中,C(k,s,c)表示卷积核尺寸为k,卷积步长为s,通道数为c的卷积层,P(k,s)表示核尺寸为k,步长为s的最大值池化层,BN表示批归一化,PReLU表示激活函数,FC(n)表示全连接层,神经元个数为n。优选地,所述利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练包括:利用所述人脸图像数据集对所述头部姿态检测网络和所述初始眼球动作检测网络进行训练;其中,损失函数Loss1=Lossh+Losse为所述初步头部姿态检测网络的损失函数和所述初步眼球动作检测网络损失函数之和。优选地,将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量前包括:利用所述头部姿态检测网络和所述眼球动作检测网络分别对所述人脸数据集合中的人脸图像进行检测,得到每幅人脸图像的头部姿态和眼球动作;利用所述各幅人脸图像的头部姿态和眼球动作对预先建立的初始三维视线向量检测网络进行训练,从而得到完成训练的三维视线向量检测网络;当前损失函数Loss2=Loss1+Lossg=Lossh+Losse+Lossg为损失函数Loss1和所述初始三维视线向量检测网络损失函数之和。本专利技术还提供了一种实现眼球三维视线跟踪的装置,包括:头部姿态检测模块,用于将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;眼球动作检测模块,用于将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;三维视线检测模块,用于将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。本专利技术还提供了一种实现眼球三维视线跟踪的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种实现眼球三维视线跟踪的方法的步骤。本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种实现眼球三维视线跟踪的方法的步骤。本专利技术所提供的实现眼球三维视线跟踪的方法,将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到了所述人脸图像中的头部姿态。将所述人脸图像输入至所述预先构建的眼球动作检测网络中,得到所述人脸图像中的眼球动作。将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,以便于根据几何约束并通过视线转换网络得到所述人脸图像中眼球的三维视线方向向量。本专利技术所述提供的眼球跟踪方法,基于深度学习网络,从二维的人脸图像中提取被拍摄者的头部姿态和眼球动作,并将所述头部姿态和所述眼球动作输入预先训练好的三维视线向量检测网本文档来自技高网
...

【技术保护点】
1.一种实现眼球三维视线跟踪的方法,其特征在于,包括:将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。

【技术特征摘要】
1.一种实现眼球三维视线跟踪的方法,其特征在于,包括:将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。2.如权利要求1所述的方法,其特征在于,所述将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态前包括:采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集,其中,所述人脸图像为RGB图像;构建初始头部姿态检测网络和初始眼球动作检测网络;利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练,得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络。3.如权利要求2所述的方法,其特征在于,所述采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集包括:利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像,得到人脸图像第一子集合;所述面阵摄像头阵列中每行摄像头采集到多幅人脸图像,表示所述数据提供者在y方向不同的头部姿态;所述面阵摄像头阵列中每列摄像头采集到的多幅人脸图像,表示所述数据提供者在p方向不同的头部姿态;对所述面阵摄像头阵列采集到的所述人脸图像分别进行顺时针和逆时针方向的旋转,得到表示所述数据提供者在r方向不同的头部姿态的人脸图像第二子集合;合并所述人脸图像第一子集合和所述人脸图像第二子集合得到所述人脸图像数据集。4.如权利要求3所述的方法,其特征在于,所述利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像包括:采集所述每幅人脸图像时,记录所述数据提供者眼球正视的显示屏上的动点,从而确定所述数据提供者眼球视线的三维向量标签,且同时记录每幅人脸图像中的头部姿态。5.如权利要求2所述的方法,其特征在于,所述构建初始头部姿态检测网络包括:以AlexNET模型为基本结构,构建所述初始头部检测网络,所述初步头部检测网络的网络结构为:C(3,1,6)-BN-PReLU-P(2,2)-C(3,1,16)-BN-PReLU-P(2,2)-C(3,1,24)-BN-PReLU-C(3,1,24)-PReLU(3,1,16)-BN...

【专利技术属性】
技术研发人员:张国生李东冯广章云
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1