一种基于伪标签的视线估计方法技术

技术编号:34770853 阅读:55 留言:0更新日期:2022-08-31 19:32
本发明专利技术涉及一种基于伪标签的视线估计方法,包括以下步骤:获取面部图像;将所述面部图像输入至训练好的视线评估模型中进行预测得到预测视线;其中,所述视线评估模型在训练时,使用少量有标签的真实训练集对模型进行训练,得到预训练模型,根据增加了随机失活层的所述预训练模型对无标签的数据打上伪标签,计算所述伪标签的不确定值,并保留所述不确定值小于阈值的伪标签对应的数据,将保留的伪标签对应的数据和真实训练集一起重新训练模型,如此循环迭代直至训练完毕,得到所述视线评估模型。本发明专利技术大大减轻了视线估计对人工标签的依赖性。性。性。

【技术实现步骤摘要】
一种基于伪标签的视线估计方法


[0001]本专利技术涉及视线估计
,特别是涉及一种基于伪标签的视线估计方法。

技术介绍

[0002]视线估计方法可以分为基于模型的方法和基于表观的方法,基于模型的方法从人眼或人脸图像中计算关键点,结合三维人眼模型预测视线;基于表观的方法直接从人眼或人脸图像中提取特征以预测视线。基于模型的方法准确率高,但依赖于红外相机等专业设备,通常局限于室内场景;基于表观的方法不依赖于专业设备,在室内室外场景都适用,但准确率相对较低。
[0003]得益于深度学习的发展,基于表观的深度学习方法在精度上有了巨大的提升,已经超越了传统机器学习的方法,但是深度学习依赖于大规模的数据集,现有的视线估计数据集场景单一,图像数量相对较少,制约了算法性能的进一步提升,如何在现有数据集上生成更多的有标签数据成了研究重点。
[0004]直观的想法就是给无标签的数据打上伪标签,这样就能以较低的代价得到大量有标签数据。Ghosh等人先检测出眼部关键点,然后使用关键点结合人眼三维模型估计视线伪标签;这种方法严重依赖于眼部关键点检测算法,而且不同人的眼部生理结构存在差异,用同一个人眼模型无法兼顾个体的差异。Kothari等人利用人在交谈时相互看着对方的特性,设计了眼部视线的伪标签,但是这些方法依赖于特定场景,无法保证交谈者时刻盯着对方。
[0005]Cheng等人首次将Vision Transformer(ViT)引入到视线估计领域,他们首先用残差网络提取面部图像的特征图,然后将特征图作为transformer的输入,其他结构和ViT保持不变,最后输出视线;这种方法虽然在常见的视线估计数据集上都取得了目前最好的结果,但是ViT模型的参数量很大,在给定小数据集上直接训练的效果很差,需要先用大量的有标签数据做预训练,这严重增加了模型的计算代价,也限制了算法的可拓展性。
[0006]Transformer中主要起作用的是多头注意力机制,Cai等人摒弃了ViT中其他复杂结构,仅保留了多头注意力部分,他们先用残差网络提取出左右眼部图像和面部图像的特征,而后将这三个特征看成是长度为三的序列,输入到多头注意力网络中,最后将特征拼接起来,利用全连接层和ReLU激活函数输出视线;这种方法相比于Cheng等人的方法在模型结构上相对简单,也不需要大数据集做预训练,但模型需要额外的左右眼图像输入,这增加了额外的数据预处理工作,且若眼部被遮挡,无法采集到眼部图像时,模型的性能可能会受到较大的影响。

技术实现思路

[0007]本专利技术提供一种基于伪标签的视线估计方法,解决数据集场景单一、图像数量相对较少的问题。
[0008]本专利技术解决其技术问题所采用的技术方案是:提供一种基于伪标签的视线估计方法,包括以下步骤:
[0009]获取面部图像;
[0010]将所述面部图像输入至训练好的视线评估模型中进行预测得到预测视线;其中,所述视线评估模型在训练时,使用少量有标签的真实训练集对模型进行训练,得到预训练模型,根据增加了随机失活层的所述预训练模型对无标签的数据打上伪标签,计算所述伪标签的不确定值,并保留所述不确定值小于阈值的伪标签对应的数据,将保留的伪标签对应的数据和真实训练集一起重新训练模型,如此循环迭代直至训练完毕,得到所述视线评估模型。
[0011]所述根据增加了随机失活层的所述预训练模型对无标签的数据打上伪标签具体为:将同一个无标签的数据多次输入打开随机失活层的所述预训练模型中得到的多个伪标签。
[0012]所述计算所述伪标签的不确定值具体为:计算多个伪标签的均值,将所述均值作为所述无标签的数据的视线伪标签;计算多个所述伪标签的标准差,将所述标准差作为所述伪标签的不确定值。
[0013]所述模型的损失函数为:其中,是模型对真实训练集图像的预测结果,y
train
是真实训练集的真实标签,是模型对伪标签数据的预测结果,y
pseudo
是保留的伪标签,α是伪标签数据的权重信息。
[0014]所述视线评估模型包括:主干网络,用于从所述面部图像中提取出特征表示;全连接层,用于从所述特征表示中回归出预测视线;在对无标签的数据打上伪标签时,所述随机失活层设置在所述主干网络和全连接层之间。
[0015]有益效果
[0016]由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术用少量有标签数据训练模型得到预训练模型,然后用预训练模型给大量无标签数据打上伪标签,接着计算伪标签的不确定,再设置一个阈值,去除不确定性大于阈值的伪标签数据,仅保留伪标签较小的数据,添加到真实训练集中,用真实训练集和挑选出的伪标签数据重新训练模型,如此循环迭代直至训练完毕。本专利技术可以在不依赖人工标签的情况下,在多个视线评估数据集上取得优异性能,大大减轻了视线估计对人工标签的依赖性。
附图说明
[0017]图1是本专利技术实施方式中模型训练的流程图;
[0018]图2是本专利技术实施方式中的模型结构示意图。
具体实施方式
[0019]下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0020]本专利技术的实施方式涉及一种基于伪标签的视线估计方法,包括以下步骤:获取面部图像;将所述面部图像输入至训练好的视线评估模型中进行预测得到预测视线。
[0021]如图1所示,所述视线评估模型在训练时,使用少量有标签的真实训练集对模型进行训练,得到预训练模型;根据增加了随机失活层的所述预训练模型对无标签的数据打上伪标签;计算所述伪标签的不确定值,并保留所述不确定值小于阈值的伪标签对应的数据;将保留的伪标签对应的数据和真实训练集一起重新训练模型,如此循环迭代直至训练完毕,得到所述视线评估模型。
[0022]本实施方式中采用预测值的标准差来作为伪标签的不确定性。在根据所述预训练模型对无标签的数据打上伪标签时,本实施方式打开随机失活层,使得对于同一个样本,多次输入到预训练模型中得到的预测值是不一样的,例如,将同一张面部图像分M次输入到预训练模型中,因为随机失活层的存在,预训练模型每次测试的时候会随机将一部分参数置零,使得每次模型的参数都不一样,每次的预测结果也就不一样,这样就得到M个不同的伪标签,不妨设每次预测的伪标签为M次预测结果的平均值为该值可以作为所述无标签的数据的视线伪标签,则标准差为:
[0023][0024]不妨设有标签数据(Data Label)为D
L
,无标签数据(Data UnLabel)为D
UL
,无标签图像共有Q张,总共循环迭代N次,标准差阈值为μ,则每次的训练集为
[0025][0026][0027]如果输入图像清晰度高,遮挡少,且模型学到了图像较好的表征,那么本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于伪标签的视线估计方法,其特征在于,包括以下步骤:获取面部图像;将所述面部图像输入至训练好的视线评估模型中进行预测得到预测视线;其中,所述视线评估模型在训练时,使用少量有标签的真实训练集对模型进行训练,得到预训练模型,根据增加了随机失活层的所述预训练模型对无标签的数据打上伪标签,计算所述伪标签的不确定值,并保留所述不确定值小于阈值的伪标签对应的数据,将保留的伪标签对应的数据和真实训练集一起重新训练模型,如此循环迭代直至训练完毕,得到所述视线评估模型。2.根据权利要求1所述的基于伪标签的视线估计方法,其特征在于,所述根据增加了随机失活层的所述预训练模型对无标签的数据打上伪标签具体为:将同一个无标签的数据多次输入打开随机失活层的所述预训练模型中得到的多个伪标签。3.根据权利要求2所述的基于伪标签的视线估计方法,其特征在于,...

【专利技术属性】
技术研发人员:李嘉茂车何框亿朱冬晨林敏静李航张晓林
申请(专利权)人:中国科学院上海微系统与信息技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1