一种基于视觉和语义线索的凝视目标检测方法技术

技术编号：38147150 阅读：10 留言：0更新日期：2023-07-13 09:11

本公开的实施例公开了一种基于视觉和语义线索的凝视目标检测方法。该方法的一具体实施方式包括：输入一张包含单人或多人场景的RGB图像，将RGB图像缩放到特定尺寸；将缩放后完整图像输入到多人凝视估计模块，根据指定人的面部清晰度，使用不同策略估计出指定人的凝视方向；将指定人在图像中的位置和指定人的凝视方向输入视野预测模块，并生成高概率凝视区域内的包含凝视方向线索的加权视野图；将指定人的高概率凝视区域和高概率凝视区域对应的加权视野图输入场景显著性检测网络；将高概率凝视区域对应的显著性图和候选对象注意力图相乘得到凝视目标热图。该实施方式通过组合FOV引导的显著性图和对象候选图准确的推断出注视目标。注视目标。注视目标。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉和语义线索的凝视目标检测方法

[0001]本公开的实施例涉及计算机
，具体涉及一种基于视觉和语义线索的凝视目标检测方法。

技术介绍

[0002]眼神凝视是揭示人类行为的重要因素。传统研究侧重于估计人眼注视的方向。然而，为了调查人类更深层的意图，一个人正在看的位置，即凝视目标是一个更直观的渠道。因此，旨在估计单个(RGB)图像中的每个人在看什么的野外人类注视目标检测已成为计算机视觉领域的一项挑战性任务，并已作为一种有利可图的技术广泛应用于人机交互、社会意识分析和医学研究。
[0003]广泛的应用场景吸引了众多研究人员探索凝视目标检测任务的解决方案。然而，由于人类注视目标问题的模糊性和缺乏严格的标记数据集，现有的卷积方法结合了注视估计的结果和图像的视觉显著性信息，不能提供令人满意的结果。
[0004]最近的工作引入3D深度作为计算注视目标的附加信息。尽管已经实现了先进的性能，但仍然存在诸如低分辨率或被遮挡的人脸和高模糊场景等故障情况。总之，人类注视目标检测的研究现状受到信息缺乏和问题本身的模糊性的高度限制。

技术实现思路

[0005]本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0006]本公开的一些实施例提出了基于视觉和语义线索的凝视目标检测方法，来解决以上
技术介绍
部分提到的技术问题中的一项或多项。/>[0007]本公开提出了一种从粗到细的凝视目标检测方法，通过合并视野(FOV)、显著性和语义线索，从单个RGB图像中检测凝视目标。
[0008]本公开的基于视觉和语义线索的凝视目标检测方法由3个模块组成：1)FOV预测模块首先根据人类面部可见性使用不同策略预测人类注视方向，然后推断高概率目标区域，并生成包含FOV线索的加权FOV图。2)显著性检测模块首先提取加权FOV图中的特征，然后使用编码器
‑
解码器生成FOV引导的显著性图，合并FOV线索和显著性线索。3)语义对象检测模块检测人类感兴趣的对象，然后生成每个目标区域的对象候选图，其中包含语义线索的权重分布良好。最后，方法通过组合FOV引导的显著性图和对象候选图来推断准确的注视目标。
附图说明
[0009]结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理
解附图是示意性的，元件和元素不一定按照比例绘制。
[0010]图1是根据本公开的基于视觉和语义线索的凝视目标检测方法的一些实施例的流程图；
[0011]图2是根据本公开的基于视觉和语义线索的凝视目标检测方法的一些实施例的总流程图；
[0012]图3是根据本公开的基于视觉和语义线索的凝视目标检测方法的一些实施例的多人凝视估计的流程图
具体实施方式
[0013]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
[0014]另外还需要说明的是，为了便于描述，附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。
[0015]需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0016]需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
[0017]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
[0018]下面将参考附图并结合实施例来详细说明本公开。
[0019]图1示出了根据本公开的基于视觉和语义线索的凝视目标检测方法的一些实施例的流程100。该基于视觉和语义线索的凝视目标检测方法，包括以下步骤：
[0020]步骤101，输入一张包含单人或多人场景的RGB图像，将RGB图像缩放到特定尺寸，得到缩放后完整图像。
[0021]步骤102，将缩放后完整图像输入到多人凝视估计模块，根据指定人的面部清晰度，使用不同策略估计出指定人的凝视方向。
[0022]步骤103，将指定人在图像中的位置和指定人的凝视方向输入视野预测模块，得到指定人的在缩放后完整图像中的高概率凝视区域，并生成高概率凝视区域内的包含凝视方向线索的加权视野图。
[0023]步骤104，将指定人的高概率凝视区域和高概率凝视区域对应的加权视野图输入场景显著性检测网络。其中，上述场景显著性检测网络通过特征提取器提取凝视区域中的图像特征，使用编码器
‑
解码器生成视野引导的显著性图。
[0024]步骤105，将缩放后完整图像输入目标检测器，检测图像中所有活动相关对象，结合高概率凝视区域，生成高概率凝视区域内的候选对象注意力图。
[0025]步骤106，将高概率凝视区域对应的显著性图和候选对象注意力图相乘得到凝视目标热图。其中，上述凝视目标热图中的热力值最大的点即为推断的凝视目标。
[0026]参考图2，遵循人类的注视目标估计策略，本公开的方法将FOV、显著性和语义三个
方面的线索合并，最终定位注视目标。方法由三个模块组成：FOV预测模块、显著性检测模块和语义对象检测模块。如果面部清晰可检测，则FOV预测模块使用多人注视估计器预测图像中每个人的注视方向，如果不清晰，则使用多人姿势估计器进行伪注视估计。每个路径裁剪每个人的视野，并生成加权FOV，这不仅表示FOV中沿注视方向的锥形权重，还指示目标区域，该区域是包含FOV的最小矩形区域。显著性检测模块包含通过监督学习训练的编码器
‑
解码器，以预测加权FOV的显著性图。语义对象检测模块首先检测输入图像中的所有活动相关对象，然后包括加权FOV以生成每个人的对象候选图。最后，方法结合FOV引导的显著性图和对象候选图，对注视目标进行最终预测。
[0027]FOV预测模块旨在估计输入图像中每个人的加权FOV。该模块可分为两个阶段：凝视估计和加权视野图生成。
[0028]FOV预测模块的第一个阶段是注视估计，在这个阶段，我模块预测输入图像中每个人的注视。为了实现高效和鲁棒的多人注视估计，使用多人凝视估计器来估计预测的注视，多人姿势估计器来估计伪注视，然后根据检测到的人脸可见性使用适当的注视输出来处理不同的人脸可见性场景。
[0029本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于视觉和语义线索的凝视目标检测方法，包括：输入一张包含单人或多人场景的RGB图像，将RGB图像缩放到特定尺寸，得到缩放后完整图像；将缩放后完整图像输入到多人凝视估计模块，根据指定人的面部清晰度，使用不同策略估计出指定人的凝视方向；将指定人在图像中的位置和指定人的凝视方向输入视野预测模块，得到指定人的在缩放后完整图像中的高概率凝视区域，并生成高概率凝视区域内的包含凝视方向线索的加权视野图；将指定人的高概率凝视区域和高概率凝视区域对应的加权视野图输入场景显著性检测网络，其中，所述场景显著性检测网络通过特征提取器提取凝视区域中的图像特征，使用编码器
‑
解码器生成视野引导的显著性图；将缩放后完整图像输入目标检测器，检测图像中所有活动相关对象，结合高概率凝视区域，生成高概率凝视区域内的候选对象注意力图；将高概率凝视区域对应的显著性图和候选对象注意力图相乘得到凝视目标热图，其中，所述凝视目标热图中的热力值最大的点即为推断的凝视目标。2.根据权利要求1所述的方法，其中，针对自然场景下的凝视目标检测问题，由粗到精对凝视目标进行检测，通过合并视野、显著性和语义线索，从单个RGB图像中检测凝视目标。3.根据权利要求1所述的方法，其中，针对自然场景下的人脸特征可见性，使用不同策略预测人类凝视方向，具体来说，当人脸特征清晰可检测时，直接从面部特征估计凝视方向；当人脸存在背对、模糊、低分辨率或被遮挡的情况时，根据人体关键点之间的位置关系，估计出鼻子和耳朵的位置，确定出从双耳中点到鼻子的向量方...

【专利技术属性】
技术研发人员：陆峰，杨耀坤，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人