一种视线估计方法和系统技术方案

技术编号:38734530 阅读:11 留言:0更新日期:2023-09-08 23:22
本发明专利技术涉及图像识别技术领域,公开了一种视线估计方法和系统,本发明专利技术使用个性化特征提取模型对目标人物左右眼图像进行个性化特征提取,获得相应的特征向量W1,还使用特征提取模型对目标人物脸部图像进行特征提取,获得相应的特征向量W2,剔除了与视线无关的脸部特征而保留了与视线相关的特征,再将特征向量W1和W2进行拼接融合,将融合后的特征向量W3输入MLP网络最终得到水平方向角G

【技术实现步骤摘要】
一种视线估计方法和系统


[0001]本专利技术涉及图像识别
,特别是涉及一种视线估计方法和系统。

技术介绍

[0002]视线是人类注意力和兴趣的表现,其中蕴含着内心状态和行为意图等信息,同时,人的视线具有直接性、自然性和双向性等其他信息所无法具备的特点,因此人们对视线估计的研究有着深厚的兴趣。在面部识别的基础上,我们可以进一步利用视线估计技术,计算出用户在屏幕上所关注的区域。视线估计技术的应用领域十分广阔,例如:智能家电、广告研究、智能计算机和虚拟游戏等领域。现有的视线估计方法大致可分为基于模型的方法和基于表观的方法,其中基于模型的方法对硬件和实验环境要求较高,这导致其无法适用于复杂多变的现实应用场景,模型的识别率和泛化能力不高。
[0003]现有技术公开了一种视线估计方法和装置,该方法包括获取目标图像,目标图像呈现有待测用户的面部图像,对目标图像进行面部特征检测,得到待测用户的面部特征信息,将目标图像和所述面部特征信息输入至机器学习模型中进行视线估计,得到机器学习模型输出的视线估计结果,现有技术仅采用脸部特征进行视线识别,而忽略了具有个性化信息的眼部特征,导致视线估计的准确率低;并且用于训练模型的人物图像单一,导致在识别新人物的时候,视线估计的准确率低,模型的泛化能力不高。

技术实现思路

[0004]本专利技术的目的是提供一种基于脸部特征和眼部个性化特征的视线估计方法和系统。
[0005]为了实现上述目的,本专利技术提供了一种视线估计方法,该方法包括以下步骤:S1:获取目标人物图像,将所述目标人物图像裁剪为待估计目标人物眼部图像和待估计目标人物脸部图像;S2:将所述待估计目标人物眼部图像输入至个性化特征提取模型,输出具有个性化特征的特征向量;S3:将所述待估计目标人物脸部图像输入至特征提取模型,输出含有与视线密切相关的特征信息的特征向量;S4:将所述特征向量和所述特征向量融合,获得含有个性化特征和与视线密切相关的特征信息的特征向量;S5:将所述特征向量输入至MLP网络,获得水平方向角和垂直方向角;S6:根据水平方向角和垂直方向角获得三维的视线方向向量,所述三维的视线方向向量通过下式确定:的视线方向向量通过下式确定:
其中(,,)构成了所述三维的视线方向向量,根据所述三维的视线方向向量进行视线估计,从而获得估计结果。
[0006]进一步地,步骤S2中所述个性化特征提取模型通过如下方式确定:S2.1: 构建个性化特征提取模型;S2.2: 获取训练数据集A,所述训练数据集A包含大量不同人物不同头部姿态的高分辨率眼部图像,将所述训练数据集A按人物名字进行分组;S2.3: 从所述训练数据集A中随机抽取一个人物的眼部主图像Img1,再根据所述眼部主图像Img1的人物名字,在其所在的分组中抽取一张与所述眼部主图像Img1头部姿态相同但注视方向不同的眼部辅助图像Img2,再在其他人物眼部分组图像中抽取一张与所述眼部主图像Img1头部姿态不同但注视方向相同的眼部辅助图像Img3;S2.4: 将所述眼部主图像Img1、眼部辅助图像Img2和眼部辅助头像3分别裁剪为对应的左右眼部图像,再将所述对应的左右眼部图像通过非对称网络进行个性化特征提取,获得对应的12维的特征向量V1、V2和V3;S2.5: 使用损失函数处理所述特征向量V1、V2和V3,以校正视线偏差,所述损失函数通过如下方式确定:数通过如下方式确定:数通过如下方式确定:其中为眼部主图像的个性化特征向量,为与主图相同人不同注视角度的个性化特征向量,为与主图不同人相同注视角度的个性化特征向量,代表同个人个性化信息优化的损失函数,不同人个性化信息优化的损失函数,为总个性化信息优化的损失函数;S2.6: 重复步骤S2.1至S2.6,每次训练使用上一个损失函数优化下一个,获得最终的个性化特征提取模型。
[0007]进一步地,步骤S2.2中所述的训练数据集A通过如下方式获取:获取ETH

XGaze和Gaze360训练数据集,所述ETH

XGaze训练数据集包含110位人物的100万张不同头部姿态的高分辨率图像,所述Gaze360训练数据集包含238位人物在不同环境下的大量运动图像;对ETH

XGaze和Gaze360训练数据集图像的眼部进行裁剪,获得训练数据集A。
[0008]进一步地,步骤S2.4中所述的非对称网络包括:Base

CNN、FC1和FC2,所述Base

CNN由6个卷积层依次连接构成,第一个卷积层的输入为左眼图像或右眼图像,最后一个卷积层的输出连接FC1;所述FC1为全连接层,输出为500,所述FC1的输入连接Base

CNN中最后一个卷积层的输出,所述FC1的输出连接FC2的输入;所述FC2为全连接层,输出为12,所述FC2的输入连接所述FC1的输出,所述FC2的输出即为一个12维的特征向量。
[0009]步骤S3中所述特征提取模型通过如下方式确定:
S3.1: 构建特征提取模型;S3.2: 获取训练数据集B,所述训练数据集B包含大量不同人物不同头部姿态的高分辨率脸部图像,将所述训练数据集B按人物名字进行分组;S3.3: 从训练数据集B中抽取一张与所述眼部主图像1同名字的第一脸部图像,将所述的第一脸部图像输入至特征提取网络Backbone,获得一个对应的特征向量V4;S3.4: 将所述的特征向量V4输入至SA

Module逆向恢复第二脸部图像;S3.5: 使用总损失函数优化V4,所述总损失函数通过如下方式确定:,所述总损失函数通过如下方式确定:,所述总损失函数通过如下方式确定:其中为生成的视线偏向角,为标签数据的视线偏向角,为所述第一脸部图像,为逆向生成的第二脸部图像,为视线回归的损失函数,为对抗逆向生成图的损失函数,为总个性化特征优化的损失函数,将这3个损失函数按不同权重加权得到特征提取模型的总损失函数,其中为权重超参数;S3.6: 重复步骤S3.1至S3.5,每次使用上一个总损失函数优化下一个特征向量V4,最终获得特征提取模型。
[0010]步骤3.2中所述的训练数据集B通过如下方式获取:获取ETH

XGaze和Gaze360训练数据集,所述ETH

XGaze训练数据集包含110位人物的100万张不同头部姿态的高分辨率图像,所述Gaze360训练数据集包含238位人物在不同环境下的大量运动图像;对ETH

XGaze和Gaze360训练数据集图像的脸部进行裁剪,获得训练数据集B。
[0011]进一步地,步骤S3.3中所述特征提取网络Backbone由ResNet50构成。
[0012]进一步地,步骤S3.5中所述权重超参数,其中取值范围为1.7~2.3,取0.7~1.3,取1.3~1.8。
[0013]进一步地,所述权重超参数取2.0,权重超参数取1.0,权重超参数取1.5。
[0014]为了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视线估计方法,其特征在于,该方法包括以下步骤:S1:获取目标人物图像,将所述目标人物图像裁剪为待估计目标人物眼部图像和待估计目标人物脸部图像;S2:将所述待估计目标人物眼部图像输入至个性化特征提取模型,输出具有个性化特征的特征向量;S3:将所述待估计目标人物脸部图像输入至特征提取模型,输出含有与视线密切相关的特征信息的特征向量;S4:将所述特征向量和所述特征向量融合,获得含有个性化特征和与视线密切相关的特征信息的特征向量;S5:将所述特征向量输入至MLP网络,获得水平方向角和垂直方向角;S6:根据水平方向角和垂直方向角获得三维的视线方向向量,所述三维的视线方向向量通过下式确定:线方向向量通过下式确定:线方向向量通过下式确定:其中(,,)构成了所述三维的视线方向向量,根据所述三维的视线方向向量进行视线估计,从而获得估计结果。2.根据权利要求1所述的一种视线估计方法,其特征在于,步骤S2中所述个性化特征提取模型通过如下方式确定:S2.1: 构建个性化特征提取模型;S2.2: 获取训练数据集A,所述训练数据集A包含大量不同人物不同头部姿态的高分辨率眼部图像,将所述训练数据集A按人物名字进行分组;S2.3: 从所述训练数据集A中随机抽取一个人物的眼部主图像Img1,再根据所述眼部主图像Img1的人物名字,在其所在的分组中抽取一张与所述眼部主图像Img1头部姿态相同但注视方向不同的眼部辅助图像Img2,再在其他人物眼部分组图像中抽取一张与所述眼部主图像Img1头部姿态不同但注视方向相同的眼部辅助图像Img3;S2.4: 将所述眼部主图像Img1、眼部辅助图像Img2和眼部辅助头像Img3分别裁剪为对应的左右眼部图像,再将所述对应的左右眼部图像通过非对称网络进行个性化特征提取,获得对应的12维的特征向量V1、V2和V3;S2.5: 使用损失函数处理所述特征向量V1、V2和V3,以校正视线偏差,所述损失函数通过如下方式确定:过如下方式确定:过如下方式确定:其中为眼部主图的个性化特征向量,为与主图相同人不同注视角度的个性化特征向量,为与主图不同人相同注视角度的个性化特征向量,代表同个人个性化信息优化的损失函数,不同人个性化信息优化的损失函数,为总个性化信息优化的损
失函数;S2.6: 重复步骤S2.1至S2.6,每次训练使用上一个损失函数优化下一个,获得最终的个性化特征提取模型。3.根据权利要求2所述的一种视线估计方法,其特征在于,步骤S2.2中所述的训练数据集A通过如下方式获取:获取ETH

XGaze和Gaze360训练数据集,所述ETH

XGaze训练数据集包含110位人物的100万张不同头部姿态的高分辨率图像,所述Gaze360训练数据集包含238位人物在不同环境下的大量运动图像;对ETH

XGaze和Gaze360训练数据集图像的眼部进行裁剪,获得训练数据集A。4.根据权利要求2所述的一种视线估计方法,其特征在于,步骤S2.4中所述的非对称网络包括:Base

CNN、FC1和FC2,所述Base

CNN由6个卷积层依次连接构成,第一个卷积层的输入为左眼图像或右眼图像,最后一个卷积层的输出连接FC1;所述FC1为全连接层,输出为500,所述FC1的输入连接Base<...

【专利技术属性】
技术研发人员:郑沛章
申请(专利权)人:河源市湾区数字经济技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1