一种基于物理可解释特征的视线估计方法技术

技术编号:38212652 阅读:7 留言:0更新日期:2023-07-25 11:20
本公开的实施例公开了一种基于物理可解释特征的视线估计方法。该方法的一具体实施方式包括:构造第一卷积神经网络,输入用户面部图片,提取图片特征,并回归拟合得到视线方向的估计值;由第一卷积神经网络提取的图片特征,通过数据处理算法将图片特征变换为物理可解释特征,通过物理可解释特征,进行视线估计;基于物理可解释特征的视线估计模型训练,在所训练的第一卷积神经网络的基础上,利用物理可解释特征继续优化第一卷积神经网络。该实施方式可解释地根据卷积神经网络提取的高维特征计算得到视线方向的估计值,并根据该计算方法对视线估计模型进行训练,提升了视线估计模型的泛化能力,提高了在与训练集不同的其他场景中的视线估计精度。中的视线估计精度。中的视线估计精度。

【技术实现步骤摘要】
一种基于物理可解释特征的视线估计方法


[0001]本公开的实施例涉及计算机
,具体涉及一种基于物理可解释特征的视线估计方法。

技术介绍

[0002]视线是揭示人理解外界环境方式的重要线索。视线估计技术在如人机交互、虚拟现实、增强现实、医学分析等领域得到了诸多应用。近年来,基于卷积神经网络的视线估计技术吸引了诸多关注。其特点在于仅需要单个网络摄像头拍摄用户面部图片,且不需要个人校准即可追踪用户视线方向。尽管基于CNN的视线估计技术在诸多公开数据集上均取得了良好的效果,但由于数据集间、数据集与实际使用场景间的用户外观、光照、成像质量、拍摄角度等等环境因素存在巨大差异,基于CNN的视线估计技术在跨域时精度往往会大幅下降。这一特点限制了基于CNN的视线估计技术在实际场景中的应用,因此,解决这一问题对视线估计技术意义重大。
[0003]视线估计技术,是指通过拍摄到的用户面部图像,计算用户的视线方向的技术。目前,前沿技术通常使用CNN解决视线估计问题。其中,输入为RGB摄像头拍摄的用户面部图像,输出为一个3维的方向向量,代表相机坐标系中的用户视线方向。

技术实现思路

[0004]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0005]本公开的一些实施例提出了基于物理可解释特征的视线估计方法,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。
[0006]本公开的一些实施例提供了一种基于物理可解释特征的视线估计方法,该方法能够有效提升视线估计模型的泛化能力,从而提升模型在与训练集不同的其他场景中的视线估计精度(即提升跨域视线估计精度)。本公开的一些实施例包含两个部分,第一个部分是基于物理可解释特征的视线估计,该部分提出了一种新的视线估计方法:首先将卷积神经网络所提取的高维特征,通过降维等可解释的方式进行处理,得到物理可解释特征,上述物理可解释特征是与视线方向的物理定义具有一致特点的三维特征。通过物理可解释特征与物理定义的联系,解析地计算得到视线方向。第二部分是基于物理可解释特征的视线估计模型训练。根据第一部分的新视线估计方法,在训练集上对视线估计模型进行训练,进行训练后的模型,通过第一部分提出的方法进行视线估计,可有效提升模型在其他场景中的视线估计精度。
附图说明
[0007]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及
方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
[0008]图1是根据本公开的基于物理可解释特征的视线估计方法的一些实施例的流程图。
具体实施方式
[0009]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0010]另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0011]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0012]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0013]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0014]下面将参考附图并结合实施例来详细说明本公开。
[0015]图1示出了根据本公开的基于物理可解释特征的视线估计方法的一些实施例的流程100。该基于物理可解释特征的视线估计方法,包括以下步骤:
[0016]步骤101,构造第一卷积神经网络,输入用户面部图片,提取图片特征,并回归拟合得到视线方向的估计值。其中,上述第一卷积神经网络在训练集上进行训练直到收敛。
[0017]步骤102,由第一卷积神经网络提取的图片特征,通过数据处理算法将图片特征变换为物理可解释特征,通过物理可解释特征,进行视线估计。其中,上述物理可解释特征的满足以下特点:分布于三维空间中,分布于球体表面且对应的球面方向与视线对应的眼球方向具有很高的拓扑一致性。
[0018]其中,上述物理可解释特征是上述第一卷积神经网络提取的图片特征通过降维算法得到的,近似地分布在三维空间中的球表面上,上述物理可解释特征的偏航角、俯仰角与视线方向真值具有近似的保序性、保角性。
[0019]实践中,可以将物理可解释特征通过旋转、缩放、平移等简单物理变换、数值映射,直接得到视线方向的估计值。其中,上述旋转、缩放、平移等简单物理变化、数值映射的参数,在训练集上通过最小化视线方向估计值与真值间的误差确定,在应用场景实际使用时,直接采用训练集上确定的参数。根据物理可解释特征的分布位置,拟合球面,使物理可解释特征尽量分布在该球面上,即最小化物理可解释特征到球心的距离与球半径之间的误差。计算得到球心后,以球心为中心对物理可解释特征进行旋转、平移计算。
[0020]步骤103,基于物理可解释特征的视线估计模型训练,在所训练的第一卷积神经网络的基础上,利用物理可解释特征继续优化第一卷积神经网络。
[0021]其中,计算损失函数值时,通过物理变化、数值映射等解析算法计算得到的视线方
向的估计值与视线方向真值计算得到损失函数值,并通过梯度反传训练上述第一卷积神经网络。
[0022]实践中,可以通过构造梯度反传器近似计算上述物理可解释特征,提高网络的训练速度:迭代进行以下步骤直到反传器损失函数小于设定阈值。输入第一卷积神经网络提取的图片特征,通过梯度反传器计算得到输出的物理可解释特征的估计值,计算估计值和构造的物理可解释特征之间的误差,作为反传器损失函数。
[0023]这里,可以计算所有图片特征的邻接矩阵,并通过邻接矩阵计算图片特征两两之间的测地线距离,在降维时,通过使物理可解释特征之间的欧几里得距离与对应图片特征之间的测地线距离保持相对一致的方式,计算得到物理可解释特征的具体位置。
[0024]其中,在完成训练后,在实际应用场景中,输入用户人脸图片,采用上述第一卷积神经网络提取图片特征后,不采用回归拟合的方式计算视线方向的估计值,而通过构造上述物理可解释特征与基于物理变换的映射计算得到视线方向的估计值。
[0025]综上,本公开的一些实施例,
[0026]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于物理可解释特征的视线估计方法,包括:构造第一卷积神经网络,输入用户面部图片,提取图片特征,并回归拟合得到视线方向的估计值,其中,所述第一卷积神经网络在训练集上进行训练直到收敛;由所述第一卷积神经网络提取的图片特征,通过数据处理算法将所述图片特征变换为物理可解释特征,通过物理可解释特征,进行视线估计,其中,所述物理可解释特征的满足以下特点:分布于三维空间中,分布于球体表面且对应的球面方向与视线对应的眼球方向具有很高的拓扑一致性;基于物理可解释特征的视线估计模型训练,在所训练的第一卷积神经网络的基础上,利用所述物理可解释特征继续优化第一卷积神经网络。2.根据权利要求1所述的方法,其中,所述物理可解释特征是所述第一卷积神经网络提取的图片特征通过降维算法得到的,近似地分布在三维空间中的球表面上,所述物理可解释特征的偏航角、俯仰角与视线方向真值具有近似的保序性、保角性。3.根据权利要求1所述的方法,其中,所述通过物理可解释特征,进行视线估计,包括:将物理可解释特征通过旋转、缩放、平移等简单物理变换、数值映射,直接得到视线方向的估计值。4.根据权利要求3所述的方法,其中,所述旋转、缩放、平移等简单物理变化、数值映射的参数,在训练集上通过最小化视线方向估计值与真值间的误差确定,在应用场景实际使用时,直接采用训练集上确定的参数。5.根据权利要求1所述的方法,其中,所述在所训练的第一卷积神经网络的基础上,利用所述物理可解释特征继续优化第一卷积神经网络,包括:计算损失函数值时,通过物理变化、数值...

【专利技术属性】
技术研发人员:陆峰鲍屹伟
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1