当前位置: 首页 > 专利查询>浙江大学专利>正文

一种任务驱动的视觉注意力预测方法、装置和系统制造方法及图纸

技术编号:35141325 阅读:23 留言:0更新日期:2022-10-05 10:17
本发明专利技术公开了一种任务驱动的视觉注意力预测方法、装置和系统,通过基于自下而上的多低级视觉特征的融合和任务信息的引导来构建视觉注意力预测模型,使得模型能够实现更普通人群在信息浏览、导航、搜索等交互任务下的视觉注意力预测,提高基于任务状态下预测结果的准确度。准确度。准确度。

【技术实现步骤摘要】
一种任务驱动的视觉注意力预测方法、装置和系统


[0001]本专利技术属于计算机视觉
,具体涉及一种任务驱动的视觉注意力预测方法、装置和系统。

技术介绍

[0002]视觉注意力预测是指对图像或视频中不同位置受到视觉关注的概率预测,被应用到各领域。现有的视觉注意力预测大多着眼于人生理本能的注意力研究,如CN101980248A的中国专利技术专利公开了一种基于改进视觉注意力模型的自然场景目标检测方法,根据亮度、颜色和方向等一些低级视觉特征来预测自然场景检测目标。CN110251076B的中国专利技术专利公开了一种融合视觉注意力基于对比度的显著性预测方法,凸显色彩对人眼注意力的引导。CN110827193A的中国专利技术专利公开了一种基于多通道特征的全景视频显著性检测方法。这些方法所用到的低级和高级的视觉特征预测视觉注意力都是以自下而上的刺激驱动,没有涉及结合自上而下信息(例如任务和目标)的注意力预测。任务等主观意识在引导人的视觉注意力方面是非常重要的,研究任务驱动的注意力具有重要意义。
[0003]在应用层面,目前视觉注意力预测的应用仅针对特定人群,没有实现普通人群在信息浏览、导航、搜索等交互任务下的视觉注意力预测。CN114092900A的中国专利技术专利公开了一种驾驶员视觉注意力预测方法。将预处理之后的图像数据输入结合卷积神经网络和Transformer的注意力预测网络,训练得到注意力预测模型;将所述预处理图像输入所述注意力预测模型,输出得到注意力预测概率图。但是该技术没有提及到自上而下的驾驶员的认知层面,视觉注意力的预测会产生偏差,应用只局限于驾驶场景。CN111951637A的中国专利技术专利公开了一种任务情景相关联的无人机飞行员视觉注意力分配模式提取方法,对不同任务情景、不同疲劳等级下的飞行员注意力分配情形进行区分。但是该技术应用仅局限于无人机飞行驾驶场景。

技术实现思路

[0004]鉴于上述,本专利技术的目的是提供一种任务驱动的视觉注意力预测方法、装置和系统,通过结合自下而上刺激驱动与自上而下任务引导,实现普通人群在信息浏览、导航、搜索等交互任务下的在更加准确地预测人类视觉注意力。
[0005]为实现上述专利技术目的,实施例提供的一种任务驱动的视觉注意力预测方法,包括以下步骤:
[0006]获取图像序列,并对图像序列进行噪声数据清洗和数据增强,以作为样本数据;
[0007]构建训练系统,训练系统包括自下而上的特征融合模块、自上而下的任务引导模块、特征推理模块、解码器模块,其中,自下而上的特征融合模块用于对输入的图像序列进行多低级视觉特征的提取和融合得到视觉特征;自上而下的任务引导模块用于对输入的任务信息进行特征提取后与视觉特征融合再经重建得到重建特征,根据重建特征进行任务预测得到任务预测结果;特征推理模块用于对输入的视觉特征进行特征再提取得到新特征;
解码器模块用于对输入的新特征进行视觉注意力预测并输出注意力概率图;
[0008]构建损失函数,损失函数包括基于注意力概率图构建的预测损失、基于重建特征构建的重建约束损失、基于任务预测结果构建的任务约束损失;
[0009]根据样本数据和损失函数对训练系统进行参数优化,参数优化结束后,提取参数确定的自下而上的特征融合模块、时空推理模块以及解码器模块组成视觉注意力预测模型;
[0010]利用视觉注意力预测模型进行视觉主力预测。
[0011]在一个实施例的所述自下而上的特征融合模块对输入的图像序列从色彩、对比度、方向特征三个方面提取低级视觉特征,然后采用自我注意机制对三个方面的低级视觉特征进行对齐后再进行特征相加,得到视觉特征。
[0012]在一个实施例的所述自上而下的任务引导模块中,任务信息以图上标签的形式呈现,其中,任务标签包括用作粗粒度提示的任务标签、用作细粒度提示的子任务标签;采用BERT模型对图像上任务标签和子任务标签编码后再经过融合得到任务特征;视觉特征经过池化操作后再与任务特征融合得到融合特征;采用AVE模型对融合特征进行重建以得到重建特征;采用多分类模型对重建特征进行任务预测得到任务预测结果。
[0013]在一个实施例的所述特征推理模块中,采用VGG模型对输入的视觉特征进行特征再提取得到新特征。
[0014]在一个实施例中,所述基于注意力概率图构建的预测损失包括基于整图的预测损失和基于像素的预测损失具体表示为:
[0015][0016][0017]其中,a表示注意力概率图,表示注意力真值标签图,||
·
||1表示1

范数,a
ij
表示第i张图片第j个像素的注意力概率,表示第i张图片第j个像素的注意力真值标签,ω为注意力真值标签图中注意区域面积比,

表示点积操作,W和H分别表示图像的长和宽。
[0018]在一个实施例中,所述基于重建特征构建的重建约束损失表示为:
[0019][0020]其中,f
x
表示对输入的任务信息进行特征提取后与视觉特征融合得到的融合特征,f
x|z
表示重建特征,μ和σ分别表示根据融合特征f
x
学习得到的潜在特征fz的高斯分布的均值和方差;
[0021]所述基于任务预测结果构建的任务约束损失表示为:
[0022][0023]其中,y表示任务预测结果,表示任务真值,F
ce
(
·
)表示交叉熵损失的标准函数。
[0024]在一个实施例中,所述利用视觉注意力预测模型进行视觉主力预测,包括:
[0025]利用自下而上的特征融合模块对输入的图像进行多低级视觉特征的提取和融合得到视觉特征;
[0026]利用特征推理模块对输入的视觉特征进行特征再提取得到新特征;
[0027]利用解码器模块对输入的新特征进行视觉注意力预测并输出注意力概率图。
[0028]为实现上述专利技术目的,实施例提供了一种任务驱动的视觉主力预测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述存储器中存有通过上述任务驱动的视觉主力预测方法构建的视觉注意力预测模型;所述处理器执行所述计算机程序时实现以下步骤:
[0029]接收图像序列;
[0030]调用视觉注意力预测模型对图像序列进行注意力预测,包括:利用自下而上的特征融合模块对输入的图像进行多低级视觉特征的提取和融合得到视觉特征;利用特征推理模块对输入的视觉特征进行特征再提取得到新特征;利用解码器模块对输入的新特征进行视觉注意力预测得到注意力概率图;
[0031]输出注意力概率图并以热力图形式进行可视化呈现。
[0032]为实现上述专利技术目的,实施例提供了一种任务驱动的视觉主力预测系统,包括客户端和服务器,所述客户端用于通过页面接口接收输入的图像序列,并将图像序列传输至服务器;还用于对注意力概率图进行可视化呈现;
[0033]所述服务器挂载有上述任务驱动的视觉主力预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种任务驱动的视觉主力预测方法,其特征在于,包括以下步骤:获取图像序列,并对图像序列进行噪声数据清洗和数据增强,以作为样本数据;构建训练系统,训练系统包括自下而上的特征融合模块、自上而下的任务引导模块、特征推理模块、解码器模块,其中,自下而上的特征融合模块用于对输入的图像序列进行多低级视觉特征的提取和融合得到视觉特征;自上而下的任务引导模块用于对输入的任务信息进行特征提取后与视觉特征融合再经重建得到重建特征,根据重建特征进行任务预测得到任务预测结果;特征推理模块用于对输入的视觉特征进行特征再提取得到新特征;解码器模块用于对输入的新特征进行视觉注意力预测并输出注意力概率图;构建损失函数,损失函数包括基于注意力概率图构建的预测损失、基于重建特征构建的重建约束损失、基于任务预测结果构建的任务约束损失;根据样本数据和损失函数对训练系统进行参数优化,参数优化结束后,提取参数确定的自下而上的特征融合模块、时空推理模块以及解码器模块组成视觉注意力预测模型;利用视觉注意力预测模型进行视觉主力预测。2.根据权利要求1所述的任务驱动的视觉主力预测方法,其特征在于,所述自下而上的特征融合模块对输入的图像序列从色彩、对比度、方向特征三个方面提取低级视觉特征,然后采用自我注意机制对三个方面的低级视觉特征进行对齐后再进行特征相加,得到视觉特征。3.根据权利要求1所述的任务驱动的视觉主力预测方法,其特征在于,所述自上而下的任务引导模块中,任务信息以图上标签的形式呈现,其中,任务标签包括用作粗粒度提示的任务标签、用作细粒度提示的子任务标签;采用BERT模型对图像上任务标签和子任务标签编码后再经过融合得到任务特征;视觉特征经过池化操作后再与任务特征融合得到融合特征;采用AVE模型对融合特征进行重建以得到重建特征;采用多分类模型对重建特征进行任务预测得到任务预测结果。4.根据权利要求1所述的任务驱动的视觉主力预测方法,其特征在于,所述特征推理模块中,采用VGG模型对输入的视觉特征进行特征再提取得到新特征。5.根据权利要求1所述的任务驱动的视觉主力预测方法,其特征在于,所述基于注意力概率图构建的预测损失包括基于整图的预测损失和基于像素的预测损失具体表示为:示为:其中,a表示注意力概率图,表示注意力真值标签图,||
·
||1表示1

范数,a
ij
表示第i张图片第j个像素...

【专利技术属性】
技术研发人员:厉向东滕佳琪阴凯琳
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1