一种基于不确定度的视点估计方法技术

技术编号:39601735 阅读:9 留言:0更新日期:2023-12-03 20:02
本发明专利技术公开了一种基于不确定度的视点估计方法,涉及计算机视觉领域,包括以下步骤:获取数据集并进行预处理;构建卷积神经网络,包括场景显著性特征提取网络

【技术实现步骤摘要】
一种基于不确定度的视点估计方法


[0001]本专利技术涉及计算机视觉领域,尤其涉及一种基于不确定度的视点估计方法


技术介绍

[0002]人类视线蕴含着丰富的信息,视点是人体视线与所关注物体的相交点

视点估计是计算机视觉领域一个重要的研究课题,包含对人类注意力及场景信息的理解

视点估计在科学研究及商业应用都有着重要的应用价值,可应用于分析孤独症患儿的视觉注意力

在多人社交场景分析多人的视线行为活动

嵌入在机器人设备中分析用户的人机交互意图

[0003]视点估计方法是一种对一张包含受试者和其所在场景的图像中估计受试者的注视点位置的方法

现有的视点估计方法主要流程为整张图像和受试者头部图像为输入数据,以受试者在图像中的二维坐标注视点为输出数据,以神经网络为映射模型,并利用梯度反向传播算法优化所建立的神经网络模型

现有的视线估计方法主要分为两类,一类是基于单帧图像的视点估计方法,即仅提取以单帧图像为单位提取特征,以预测受试者在当前帧图像中的视点输出,参考文献
Recasens,A.,Khosla,A.,Vondrick,C.,&Torralba,A.(2015).Where are they looking

.Advances in neural information processing systems,28.
;另一类是基于多帧图像的视点估计方法,即以连续多帧图像为单位提取特征,以预测受试者在多帧图像中的视点输出,参考文献
Chong,E.,Wang,Y.,Ruiz,N.,&Rehg,J.M.(2020).Detecting attended visual targets in video.In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition(pp.5396

5406)。
[0004]近年来,视点估计方法越来越成熟,但是只能输出预测值,不能输出预测值的不确定度,缺乏可解释性

[0005]因此,本领域的技术人员致力于开发一种基于不确定度的视点估计方法

技术实现思路

[0006]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是现有技术中的视点估计方法只能输出预测值,不能输出预测值的不确定度

[0007]为实现上述目的,本专利技术提供了一种基于不确定度的视点估计方法,其特征在于,所述方法包括以下步骤:
[0008]S101
:获取数据集,并对所述数据集进行预处理;
[0009]S103
:构建卷积神经网络,所述卷积神经网络包括场景显著性特征提取网络

视线特征提取网络

特征融合网络

时序信息提取网络及视点解码网络;
[0010]S105
:构建总神经网络,所述总神经网络实现视点位置预测坐标及其不确定度的输出;
[0011]S107
:设计损失函数,使所述总神经网络模型的所述损失函数最小化;
[0012]S109
:按照监督学习策略网络,根据所述损失函数计算视点坐标预测值与视点坐
标标签真值的损失值,利用梯度反向传播算法完成对所述总神经网络模型的训练;
[0013]S111
:采用训练完成的所述总神经网络,对测试图像数据进行视点估计,并输出不确定度

[0014]进一步地,在所述步骤
S101
中,所述数据集包括训练数据,所述训练数据包括包含受试者的场景图像和标注信息,根据所述标注信息,对单帧整张场景图像中受试者人脸进行裁剪,并根据所述受试者人脸在所述整张场景图像中的位置,生成人脸位置二值掩码图像

[0015]进一步地,所述步骤
S101
中对所述数据集进行预处理包括如下子步骤:
[0016]S1011
:根据所述受试者人脸外接矩形框标注信息,对所述场景图像中的人脸图像进行裁剪;
[0017]S1012
:根据所述受试者人脸在所述场景图像中的位置,生成人脸位置二值掩码图像;
[0018]S1013
:将所述场景图像

所述人脸图像及所述人脸位置二值掩码图像的尺寸调整,并对图像像素值进行归一化处理

[0019]进一步地,在步骤
S1013
中,所述场景图像

所述人脸图像及所述人脸位置二值掩码图像的尺寸调整至
224
×
224
,对图像像素值归一化至范围
[
‑1,
1]。
[0020]进一步地,所述步骤
S103
包括如下子步骤:
[0021]S1031
:构建所述场景显著性特征提取网络,所述场景显著性特征提取网络由一个第一
ResNet

50
卷积神经网络和两个瓶颈层构成;
[0022]S1032
:构建所述视线特征提取网络,所述视线特征提取网络由一个第二
ResNet

50
卷积神经网络和两个瓶颈层构成;
[0023]S1033
:构建所述特征融合网络,所述特征融合网络由两个卷积层

两个批归一化层和
Relu
激活函数构成;
[0024]S1034
:构建不确定度提取网络,所述不确定度提取网络由两个池化层

一个线性层

一个
Sigmoid
激活函数构成,所述不确定度提取网络的输出为不确定度;
[0025]S1035
:构建所述视点解码网络,所述视点解码网络由两个池化层

一个线性层

一个
Sigmoid
激活函数构成,所述视点解码网络的输出为视点位置预测坐标

[0026]进一步地,所述场景显著性特征提取网络的输入数据为预处理后的所述场景图像与所述人脸位置二值掩码图像沿通道方向叠加后的数据,所述输入数据先经过所述第一
ResNet

50
卷积神经网络的处理,然后再依次由两个瓶颈层处理,所述场景显著性特征提取网络的输出为场景显著性特征
f
s
,所述第一
ResNet

50
卷积神经网络的输入维度为
224
×
224
×
4。
[0027]进一步地,所述视线特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于不确定度的视点估计方法,其特征在于,所述方法包括以下步骤:
S101
:获取数据集,并对所述数据集进行预处理;
S103
:构建卷积神经网络,所述卷积神经网络包括场景显著性特征提取网络

视线特征提取网络

特征融合网络

时序信息提取网络及视点解码网络;
S105
:构建总神经网络,所述总神经网络实现视点位置预测坐标及其不确定度的输出;
S107
:设计损失函数,使所述总神经网络模型的所述损失函数最小化;
S109
:按照监督学习策略网络,根据所述损失函数计算视点坐标预测值与视点坐标标签真值的损失值,利用梯度反向传播算法完成对所述总神经网络模型的训练;
S111
:采用训练完成的所述总神经网络,对测试图像数据进行视点估计,并输出不确定度
。2.
如权利要求1所述的方法,其特征在于,在所述步骤
S101
中,所述数据集包括训练数据,所述训练数据包括包含受试者的场景图像和标注信息,根据所述标注信息,对单帧整张场景图像中受试者人脸进行裁剪,并根据所述受试者人脸在所述整张场景图像中的位置,生成人脸位置二值掩码图像
。3.
如权利要求2所述的方法,其特征在于,所述步骤
S101
中对所述数据集进行预处理包括如下子步骤:
S1011
:根据所述受试者人脸外接矩形框标注信息,对所述场景图像中的人脸图像进行裁剪;
S1012
:根据所述受试者人脸在所述场景图像中的位置,生成人脸位置二值掩码图像;
S1013
:将所述场景图像

所述人脸图像及所述人脸位置二值掩码图像的尺寸调整,并对图像像素值进行归一化处理
。4.
如权利要求3所述的方法,其特征在于,在步骤
S1013
中,所述场景图像

所述人脸图像及所述人脸位置二值掩码图像的尺寸调整至
224
×
224
,对图像像素值归一化至范围
[
‑1,
1]。5.
如权利要求3所述的方法,其特征在于,所述步骤
S103
包括如下子步骤:
S1031
:构建所述场景显著性特征提取网络,所述场景显著性特征提取网络由一个第一
ResNet

50
卷积神经网络和两个瓶颈层构成;
S1032
:构建所述视线特征提取网络,所述视线特征提取网络由一个第二
ResNet

50
卷积神经网络和两个瓶颈层构成;
S1033
:构建所述特征融合网络,所述特征融合网络由两个卷积层

两个批归一化层和
Relu
激活函数构成;
S1034
:构建不确定度提取网络,...

【专利技术属性】
技术研发人员:刘洪海王新明王志永张瀚林
申请(专利权)人:交浦科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1