一种基于注意力追踪的物体描述方法技术

技术编号:35974584 阅读:58 留言:0更新日期:2022-12-17 22:42
本发明专利技术涉及一种基于注意力追踪的物体描述方法,其中包括基于视觉SLAM和视线追踪的注意力预测机制,和以注意力概率图为导向的物体描述。前者通过几何方法在三维地图中预测目标的关注区域,并映射到图像平面上得到一张热力图。后者使用该热力图赋予物体权值,并规定优先描述人眼注意力的区域。我们的物体描述算法在Visual Genome公开数据集上利用局部描述算法进行预训练,在清洗过的VG数据集上训练作为最终训练结果。我们模拟特殊群体(如孤独症儿童、脑退化症长者等)康复训练的场景制作数据集,并通过实验证明,该系统能实时自主定位用户的注意力区域,并准确描述区域内的物体。并准确描述区域内的物体。并准确描述区域内的物体。

【技术实现步骤摘要】
一种基于注意力追踪的物体描述方法


[0001]本专利技术涉及物体描述
,特别涉及一种基于注意力追踪的物体描述方法。

技术介绍

[0002]目前学术界和产业界在注意力追踪和物体描述都有较为成熟的研究,但两者的结合应用似乎还得不到重视,算法预测图像平面内人可能关注的区域,并通过图像描述有针对性地将这些物体表述出来,让语句更加接近于人的描述。目前大部分学者都关注在第一人称视角的图像描述上,很少有基于特定对象关注区域的图像描述的研究。一部分学者提出新的网络结构实现更高精度的追踪,但是方法的目标和注视物体必须同时出现在图片上,而很多情况因受限于相机的视野而无法达到该要求,这极大限制了算法的应用。一部分人为了摆脱相机视野的影响,他们提出了一个利用卷积式编解码结构来学习头部姿势和物体位置之间的空间关系的框架,但是该方法只能用特定范围内俯视图表示注视物体的位置,这会受到场景大小的限制。

技术实现思路

[0003]本专利技术提供一种基于注意力追踪的物体描述方法,借助了视线追踪获得的概率图描述特定对象的关注区域,实现第三人称视角的物体描述。采用几何方法估计注视物体,得益于空间关系的构建,实现了跨帧的注视估计,并克服复杂背景的干扰。
[0004]为了实现上述目的,本专利技术提供以下技术方案:
[0005]一种基于注意力追踪的物体描述方法,具体步骤如下:
[0006]S1、根据已知的视线追踪的结果,加入头部位姿估计,根据数据的置信度加权调整以得到稳定和精确的结果;
[0007]S2、找出地图内的可视点云S,并剔除掉所有被遮挡点云R,得到有效点云E;
[0008]S3、以点到视线距离为指引,通过构建高斯模型给有效点云E分配权值,并映射到图像平面上得到一张热力图;
[0009]S4、结合所得的热力图结果,在物体描述算法的模型测试阶段将注意力权值分配到图像上,并在网络选取候选框时作为得分标准,最后输出注意力权值较大区域的物体描述;
[0010]S5、采集若干段视频序列,作为物体描述的输入,通过实际的训练得到注意力预测的真实值。
[0011]优选的,步骤S1的具体过程为:已知目标的左右眼位置、视线方向、头部朝向、以及归一化置信度,计算人的最终视线起点和视线方向在三维空间的方程,并记录下视线的起点,再将直线方程从相机坐标系转化到世界坐标系上,并用参数方程表示该直线。
[0012]优选的,所述给有效点云E分配权值,规定权值的取值范围为0到1。在带权值的三维地图的基础上,使用相机模型投影到图像平面,并通过膨胀、滤波等图像处理技术将带权值的离散点转化为热力图。最后结合显著性检测的结果,对两张概率图进行乘算得到最终
的注意力预测结果。
[0013]优选的,所述步骤S4中修改了原有局部描述网络的测试阶段对候选框的判断标准,结合了视觉注意力系统的权重信息用以候选框的筛选,在计算各个区域候选框的权重时,为了保证不同区域大小的权重计算公平性,采用区域像素点平均权重作为最终得分,最后将场景中综合得分,最高的区域描述输出。
[0014]通过实施以上技术方案,具有以下技术效果:本专利技术提供的一种基于注意力追踪的物体描述方法,提出一种基于空间几何方法的注意力区域预测方法,该方法直接通过地图和视线的空间关系预测目标的注意力区域,解决目前很多方法容易受到复杂背景干扰的问题。提出一个以特定对象关注区域为导向的物体描述方法,它能根据注意力热力图有针对性地对目标感兴趣的区域做出表述。将视线追踪和物体描述结合,并将其作为意图理解和人机交互的重要手段,为服务对象提供更亲切的交互感受。
附图说明
[0015]图1为本专利技术提供的一种基于注意力追踪的物体描述方法的流程图;
[0016]图2为本专利技术提供的一种基于注意力追踪的物体描述方法的整体系统框架图;
[0017]图3为本专利技术提供的遮挡检测和可视区域估计分析示意图。
具体实施方式
[0018]为了更好的理解本专利技术的技术方案,下面结合附图详细描述本专利技术提供的实施例。
[0019]实施例一
[0020]如图1所示,可以理解,本实施例提供的一种基于注意力追踪的物体描述方法,具体步骤如下:
[0021]S1、根据已知的视线追踪的结果,加入头部位姿估计,根据数据的置信度加权调整以得到稳定和精确的结果;
[0022]S2、找出地图内的可视点云S,并剔除掉所有被遮挡点云R,得到有效点云E;
[0023]S3、以点到视线距离为指引,通过构建高斯模型给有效点云E分配权值,并映射到图像平面上得到一张热力图;
[0024]S4、结合所得的热力图结果,在物体描述算法的模型测试阶段将注意力权值分配到图像上,并在网络选取候选框时作为得分标准,最后输出注意力权值较大区域的物体描述;
[0025]S5、采集若干段视频序列,作为物体描述的输入,通过实际的训练得到注意力预测的真实值。
[0026]如图3所示,在本实施例中,已知目标的左右眼位置p
l
,p
r
和视线方向d
l
, d
r
,头部的朝向d
h
,和他们的归一化置信度α
e
,α
h
通过公式(1)计算人的最终视线:
[0027][0028]该式确定了视线在三维空间的方程,其中p(x0,y0,z0)为视线的起点, d(k,m,n)为
视线的方向。之后将直线方程从相机坐标系转化到世界坐标系上,并用参数方程(2)表示视线,值得注意的是视线是有方向的,所以参数t的取值范围应该始终大于0。
[0029][0030]接着需要找出地图内的可视点云,首先构建一个母线的倾斜角度为ε的圆台。规定在该圆台内的地图点为可视点云S,这些点云反映了人可能关注的区域。对于某个地图点p
i
,首先找出点到视线的垂足p
f
,随后计算点到直线的距离dist(p
i
,p
f
),和垂足到眼睛位置的距离dist(p
f
,p),最后通过式(3)判断该点是否属于可视点云S:
[0031][0032]可视点云s能反映人的注视区域,但是S中有部分点存在被遮挡的情况,即使满足上述条件,这些点对于目标而言也是不可视的。盲目地分配权值会导致误差增大,针对该问题还提出了一种解决方案,与上述方法相似,对于每一个可视点p
i
,以该点为顶点构建一个圆锥体,该圆锥体中心轴的方向与视线方向相同,母线的倾斜角度为θ。规定在该圆锥体内的点云为被遮挡点云R,见式(4):
[0033][0034]剔除R中所有的点,剩下的有效点云E反映的是目标真正的注视区域。
[0035]以点到视线距离为指引,通过构建高斯模型给有效点云S分配权值,其中距离视线越近的点权值越大,也代表着目标对该点的关注程度越高。为了方便处理,规定权值的取值范围为0到1。在这张带权值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力追踪的物体描述方法,其特征在于,具体步骤如下:S1、根据已知的视线追踪的结果,加入头部位姿估计,根据数据的置信度加权调整以得到稳定和精确的结果;S2、找出地图内的可视点云S,并剔除掉所有被遮挡点云R,得到有效点云E;S3、以点到视线距离为指引,通过构建高斯模型给有效点云E分配权值,并映射到图像平面上得到一张热力图;S4、结合所得的热力图结果,在物体描述算法的模型测试阶段将注意力权值分配到图像上,并在网络选取候选框时作为得分标准,最后输出注意力权值较大区域的物体描述;S5、采集若干段视频序列,作为物体描述的输入,通过实际的训练得到注意力预测的真实值。2.根据权利要求1所述的基于注意力追踪的物体描述方法,其特征在于,步骤S1的具体过程为:已知目标的左右眼位置、视线方向、头部朝向、以及归一化置信度,计算人的最终视线起点和视线方向在...

【专利技术属性】
技术研发人员:蒋子健陈功蒙顺政
申请(专利权)人:深圳无芯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1