一种基于渐进性视野锥的注视目标估计方法技术

技术编号：40769440 阅读：3 留言：0更新日期：2024-03-25 20:18

本发明专利技术公开了一种基于渐进性视野锥的注视目标估计方法，其步骤包括：1、先从目标人物的头部图片估计视线方向；2、利用深度图像构建以目标人物为中心的渐进性关系；3、根据视线方向和渐进性关系生成高质量的视野锥图像；4、结合视野锥图像、场景RGB图像和场景深度图提取潜在的视线目标的显著性特征；5、估计分块级的注视分布并与显著性特征结合，以丰富显著性特征映射到注视位置热图中的特征表示，6、利用优化的显著性特征来判断注视目标是否在图像内，并生成注视热图。本发明专利技术能快速准确地定位出图片中的目标人物的注视目标位置，基于渐进性关系生成的视野锥可以有效的消除与注视无关的背景，从而提高了注视目标估计的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理、计算机视觉领域，主要涉及一种基于渐进性视野锥的注视目标估计方法。

技术介绍

1、随着社会的进步和科技的发展，人们的社交互动方式也在不断变化和升级。在公共场所、学校、工作场所甚至家庭环境中，人们的注视行为和目标选择往往反映了他们的意图和情绪。因此能对注视目标进行估计的这种能力是计算机系统理解人们在场景中做什么及其意图的关键因素。注视目标估计，即通过分析和理解人们的视线方向和注视的焦点位置，已经成为计算机视觉领域中的一个重要研究课题。这种技术的应用不仅可以提高人机交互的自然性，还可以用于孤独症的早期诊断和治疗。例如，在社交互动中，通过理解和预测人们的注视目标，可以更好地理解他们的意图和情绪；在人机交互中，机器可以通过理解人类的注视目标来提供更自然、更直观的交互体验；因此，注视目标估计的研究和应用对于我们的社会生活具有重大的意义。

2、随着现代图像处理技术的发展，注视目标估计方法也取得了巨大的发展，但是仍面临以下几点问题：

3、一：现有的方法中，缺乏对场景的空间信息理解，因此不能真实的反映出目标对象与空间其他物体的位置关系，导致从而导致不能准确的估计出目标人物的注视位置。

4、例如2018年，dongze lian等作者在顶级国际会议springerasian conference oncomputer vision上发表的文章《believe it ornot,we know whatyouare looking at！》提出的一种注视目标估计方法，该方法结合多个尺度的平面

5、二：很多考虑到空间信息的注视目标估计算法，往往依赖于大量的先验知识，这种依赖性需要复杂的预训练和大量的数据来源，难以迁移到新场景，因此不利于实际场景中的应用。

6、例如2022年，jun bao等作者在顶级国际会议ieee conference on computervision and pattern recognition发表的文章《escnet:gaze target detection withthe understanding of 3dscenes》。这篇论文提出构建场景的3d点云信息作为场景的空间信息补充来进行注视目标估计，但是该方法需要额外计算资源(例如3d姿势数据集、密集人体姿势数据集)才能为场景生成较为可靠的3d点云信息，导致难以应用在现实场景中。

技术实现思路

1、本专利技术为解决上述现有方法存在的不足之处，提出了一种基于渐进性视野锥的注视目标估计方法，以期能不依赖过多的先验知识，并在视线锥中有效的反映场景的空间信息，从而能提高注视目标估计的准确性。

2、本专利技术为解决技术问题采用如下技术方案：

3、本专利技术一种基于渐进性视野锥的注视目标估计方法的特点在于，是按如下步骤进行：

4、步骤1、数据预处理：

5、步骤1.1、获取注视目标估计数据集，并将所述注视目标估计数据集中的任意第n张图片记为in，利用单目深度估计方法为第n张图片in生成对应的归一化的深度图像dn，1≤n≤n，n为所述注视目标估计数据集中的图片数目；

6、标定出第n张图片in中任一目标人物的人头位置的边界框pn，并根据边界框pn从第n张图片in中裁剪出对应的目标人物的人头图像cn；

7、步骤1.2、构建一个与第n张图片in的尺寸相同的二值图像bn，若第n张图片in中的像素点为边界框pn内的像素点，则将bn中相应位置的像素点设置为1，反之设置为0；

8、步骤1.3、利用式(1)将bn与dn进行配对，生成对应的目标人物的头部深度图像id_h，其中，任意第i行第j列像素点的取值

9、

10、式(1)中，b(i,j)表示bn中第i行第j列的像素值，d(i,j)表示dn中第i行第j列的像素值，表示边界框pn内所有像素索引集合；

11、步骤1.4、若第n张图片in中目标人物的注视对象不在in中，则令注视标签否则，令注视标签并标记出目标人物的注视目标的位置点从而以gn为中心，利用高斯核函数生成目标人物对应的注视热图并对注视热图进行分块处理，计算每个块中的最大像素值作为相应块的得分，从而得到第n张图片in的注视得分分布

12、步骤2、建立由视线相关特征提取器、显著性特征提取器、热图回归编解码器、帧内帧外分类器构成的网络模型f，其中，热图回归编解码器由卷积层和反卷积层构成，帧内帧外分类器由卷积层和全连接层构成；

13、步骤2.1、定义当前训练次数为t，并初始化t＝1；

14、步骤2.2、令第t次训练时的视线相关特征提取器记为并对cn进行处理，得到第t次训练时优化的视野锥图像

15、步骤2.3、令第t次训练时的显著性特征提取器记为将in、dn和输入所述第t次训练时的显著性特征提取器中进行处理，得到第t次训练时细致的场景显著性特征

16、步骤2.4、令第t次训练时的热图回归编解码器记为将输入第t次训练时的热图回归编解码器中进行处理，得到第t次训练时预测的注视热图

17、步骤2.5、令第t次训练时的帧内帧外分类器记为将输入第t次训练时的帧内帧外分类器中进行处理，得到第t次训练时注视目标在图像内的预测标签

18、步骤3、利用梯度下降法对第t次训练时的网络模型ft进行训练，得到第t次训练后的网络模型ft，并判断计算总损失函数是否收敛，若收敛，则表示第t次训练后的网络模型ft的参数εt为最优参数ε*，并以最优参数ε*所对应的网络模型作为最终用于估计注视目标位置的最优模型；否则，将第t次训练后的网络模型ft的作为第t+1次待训练的网络模型ft+1，并将t+1赋值给t，返回步骤2.2顺序执行。

19、本专利技术所述的一种基于渐进性视野锥的注视目标估计方法的特点也在于，是所述步骤2.2包括：

20、步骤2.2.1、将第n张图片in对应的目标人物的人头图像cn输入所述第t次训练时的视线相关特征提取器中进行处理，得到第t次训练时的视线相关特征c，h，w分别表示所述视线相关特征的通道数、长度、宽度；

21、步骤2.2.2、利用式(2)计算第t次训练时目标人物的平面凝视向量

22、

23、式(2)中，tanh(·)和relu(•)分别表示tanh激活函数和relu激活函数，和代表2个线性函数，表示自适应平均池化层；

24、步骤2.2.3、利用式(3)计算第t次训练时平面视野锥图像中任意第i行第j列的像素值其中，h0，w0表示平面视野锥图像的长度、宽度：

25、

26、式(3)中，(hx,hy)是二值图像b中目标人物的头部中心位置索引，α是视野锥的角度阈本文档来自技高网...

【技术保护点】

1.一种基于渐进性视野锥的注视目标估计方法，其特征在于，是按如下步骤进行：

2.根据权利要求1所述的一种基于渐进性视野锥的注视目标估计方法，其特征在于，是所述步骤2.2包括：

3.根据权利要求2所述的一种基于渐进性视野锥的注视目标估计方法，其特征在于，所述步骤2.3包括：

4.根据权利要求3所述的一种基于渐进性视野锥的注视目标估计方法，其特征在于，所述步骤3中的总损失函数是按如下步骤得到：

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述注视目标估计方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中所述任一注视目标估计方法的步骤。

【技术特征摘要】

1.一种基于渐进性视野锥的注视目标估计方法，其特征在于，是按如下步骤进行：

2.根据权利要求1所述的一种基于渐进性视野锥的注视目标估计方法，其特征在于，是所述步骤2.2包括：

3.根据权利要求2所述的一种基于渐进性视野锥的注视目标估计方法，其特征在于，所述步骤2.3包括：

4.根据权利要求3所述的一种基于渐进性视野锥的注视目标估计方法，其特征在于，所述步骤3中...

【专利技术属性】
技术研发人员：郭丹，刘飞扬，李坤，汪萌，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人