当前位置: 首页 > 专利查询>南昌大学专利>正文

一种基于外观的变分注视估计方法技术

技术编号:30310196 阅读:17 留言:0更新日期:2021-10-09 22:51
本发明专利技术公开了一种基于外观的变分注视估计方法,该方法包括(1)采用CLNF算法来对人脸关键点进行定位,再将人脸中的单眼图片裁剪出来;(2)对人眼图像进行图像识别,建立模型,确定出数据集中眼球和虹膜的图像x,以及眼球和虹膜形状的图形表示y,z是x的隐藏变量;(3)将x,y输入神经网络中,基于变分自动编码器(CVAE)的条件生成注视表示图(4)基于注视表示图在上对视线的方向进行估计。本发明专利技术将注视估计表述为分层条件推理问题,可以很好地应对概率建模带来的不确定性挑战,本发明专利技术开发了一种变分注视估计网络,该网络可以通过采样生成多个有效的同时互补的注视图表示,从而实现更准确,更可靠的注视方向预测。更可靠的注视方向预测。更可靠的注视方向预测。

【技术实现步骤摘要】
一种基于外观的变分注视估计方法


[0001]本专利技术属于图像处理和模式识别
,具体涉及一种基于外观的变分注视估计方法。

技术介绍

[0002]视线估计是计算机视觉研究中一个经典的问题,现有的基于眼睛图像进行视线估计的方法:(1)基于模型的方法;(2)基于卷积神经网络的外观的方法。
[0003]目前基于外观的视线估计方法着手在低分辨率、部分遮挡或暗度图像上进行视线估计,这些挑战给预测的凝视方向带来了很大的不确定性,现有的方法的主要问题有:(1)头部运动带来的视线估计不准确;(2)需要标定相机,需要测量环境距离;(3)需要专业的,昂贵的硬件设备;(4)精度不够高。

技术实现思路

[0004]针对现有技术中的不足与难题,本专利技术旨在提供一种基于外观的变分注视估计方法,为了实现图片或视频中人眼的视线方向,先通过受约束的局部神经域模型(Constrained Local Neural Fields,CLNF)算法对图片中的人脸关键点检测,再将人的单眼图像自动裁剪出来;我们将人眼图像进行标准化;随后将图像送进我们专利技术的多层变分卷积神经网络生成视线表示图;最后在视线表视图中进行回归得到估计的视线三维角度。
[0005]本专利技术通过以下技术方案予以实现:
[0006]一种基于外观的变分注视估计方法,该方法步骤包括:
[0007]步骤S1:采用CLNF算法来对人脸关键点进行定位建立数据集,再将人脸中的单眼图片裁剪出来;
[0008]步骤S2:对人眼图像进行图像识别,在步骤S1数据集之中截取下来的眼球和虹膜的单眼图像为x,z是x的隐藏变量,对单眼图像x中人眼的视线方向Ground Truth进行建模,进而得到的眼球和虹膜形状的图形表示y;
[0009]步骤S3;将x,y输入神经网络中,基于变分自动编码器(CVAE)的条件生成注视表示图
[0010]步骤S4:基于注视表示图在上对视线的方向进行估计。
[0011]基于变分自动编码器(CVAE)的条件生成任务需要考虑两个方面:数据集中眼球和虹膜的单眼图像x,以及眼球和虹膜形状的图形表示y,z是x的隐藏变量;
[0012]为了最大化由z和y控制的图像生成器的后验概率argmax
x
p(x|z,y),需要对这两个变量建模;由于许多数据集没有提供y,因此步骤S2中首先获取y,具体为:在步骤S2中,建立模型对眼球和虹膜可进行描述,在该模型中将眼球投影为一个球体,虹膜为椭圆形,y大小为m
×
n,设置投影眼球的直径2r=1.2n,其中r是虹膜的长轴,r|cosθcosφ|是短轴;虹膜中心(u
i
,v
i
)的坐标为:
[0013][0014]式(1)中,凝视方向g=(γ,η),进而得到了眼球和虹膜形状的图形表示y。
[0015]优化地,步骤S3中的神经网络由先验网络P
θ
和后验网络Q
φ
组成,P
θ
包括编码器网络E
φ
和解码器网络D
θ
;步骤S3具体包括:
[0016]S31,Q
φ
将单眼图像x和条件y作为输入,并获知眼球和虹膜的潜在分布N(μ
e
,μ
e
);
[0017]S32,P
θ
通过将单眼图像x作为输入来生成先验分布N(μ
p
,μ
p
);
[0018]S33,通过最小化S31和S32分布之间的KL散度,迫使前者和后者分布彼此更靠近;
[0019]S34,解码器D
θ
从潜在分布N(μ
e
,μ
e
)提取样本并重构注视表示图
[0020]S33、S34的损失函数为:
[0021][0022]其中,q
φ
(z|x,y)=N(μ
e
,μ
e
),p
θ
(z|x)=N(μ
p
,μ
p
),N是训练图像的数量;将两个损失函数相加则为重构注视表示图的总损失:
[0023][0024]优化地,步骤S4中的损失函数为
[0025][0026]与现有技术相比,本专利技术有益效果包括:
[0027](1)本专利技术在概率推断框架下解决了凝视估计任务,将注视估计表述为分层条件推理问题,很好地应对概率建模中因凝视图像上的低分辨率、部分遮挡或暗度等给预测的凝视方向带来的不确定性挑战。
[0028](2)本专利技术开发了一种变分注视估计网络,可以通过采样生成多个有效的同时互补的注视图表示,从而实现更准确、更可靠、更客观、更便捷、更快速的注视方向预测。
[0029](2)本专利技术精确度得到大幅度提高,误差仅只有3.9
°

[0030](3)本专利技术无需苛刻的实验室环境,无需特殊的设备,只需眼部图片。
附图说明
[0031]图1为本专利技术中眼球和虹膜投影模型图;
[0032]图2为本专利技术中神经网络框架图。
具体实施方式
[0033]下面结合附图,对本专利技术作进一步地说明。
[0034]一种基于外观的变分注视估计方法,具体工作流程如下:
[0035](1)首先,采用局部约束神经元域(Constrained Local Neural Fields,CLNF)来对人脸关键点进行定位,随后将人脸中的单眼图片裁剪出来。
[0036](2)将裁剪出来的单眼图片送入到神经网络中得到注视表示图。
[0037]现有网络是基于变分自动编码器(VAE)来对其注视表示图进行生成,但是通过变分自动编码器(VAE)的概率建模来构造注视表示并不容易,因此我们转换为基于变分自动编码器(CVAE)的条件生成任务,更具体地说,要生成注视表示图我们需要考虑两个方面:数据集中眼球和虹膜的单眼图像x,以及眼球和虹膜形状的图形表示y,在此,z是x的隐藏变量;
[0038]为了最大化由z和y控制的图像生成器的后验概率argmax
x
p(x|z,y),我们需要对这两个变量建模,由于许多数据集没有提供y,因此我们必须首先获取y;
[0039]我们认为眼球和虹膜可以通过一个简单的模型来描述,在该模型中将眼球投影为一个完美的球体,虹膜为椭圆形,如图1所示,y大小为m
×
n,我们假设投影眼球的直径2r=1.2n,其中r是虹膜的长轴,r|cosθcosφ|是短轴,虹膜中心(u
i
,v
i
)的坐标为:
[0040][0041]其中,凝视方向g=(γ,η)。因此,我们得到了眼球和虹膜形状的图形表示y。
[0042](3)将x,y一起输入到网络中
[0043]如图2所示,设计的网络主要由先验网络P
θ
和后验网络Q本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于外观的变分注视估计方法,其特征在于:所述方法步骤包括:步骤S1:采用CLNF算法来对人脸关键点进行定位形成数据集,再将人脸中的单眼图片裁剪出来;步骤S2:对人眼图像进行图像识别,在步骤S1数据集之中截取下来的眼球和虹膜的单眼图像为x,z是x的隐藏变量,对单眼图像x中人眼的视线方向Ground Truth进行建模,进而得到的眼球和虹膜形状的图形表示y;步骤S3;将x,y输入神经网络中,基于变分自动编码器的条件生成注视表示图步骤S4:基于注视表示图在上对视线的方向进行估计。2.根据权利要求1所述的一种基于外观的变分注视估计方法,其特征在于:所述步骤S2中,为了最大化由z和y控制的图像生成器的后验概率argmax
x
p(x|z,y),对z和y两个变量进行建模;为解决数据集没有提供y的问题,进行建模首先获取y,具体为:建立模型对眼球和虹膜进行描述,在该模型中将眼球投影为一个球体,虹膜为椭圆形,y大小为m
×
n,设置投影眼球的直径2r=1.2n,其中r是虹膜的长轴,r|cosθcosφ|是短轴;虹膜中心(u
i
,v
i
)的坐标为:)的坐标为:式中,凝视方向g=(γ,η),进而得到了眼球和虹膜形状的图形表示y。3.根据权利要求1所述的一种基于外观的变分注视估计方法,其特征在于:所述步骤S3中的神经网络由先验网络P
θ
和后验网络Q
...

【专利技术属性】
技术研发人员:李菁时靖悦陈则金
申请(专利权)人:南昌大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1