基于注意力感知特征的全景图像显著性预测方法及系统技术方案

技术编号:25272019 阅读:25 留言:0更新日期:2020-08-14 23:04
本发明专利技术提供了一种基于注意力感知特征的全景图像显著性预测方法及系统,包括:预测全景图像的前景注意力图和背景注意力图;计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;提取全景图像的全局特征,将所述全局特征与预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合,得到融合后的所述前景注意力图、所述背景注意力图;将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数加权融合,获得最终的预测结果。本发明专利技术在模拟人类视觉注意力机制方面具有较好的准确性。

【技术实现步骤摘要】
基于注意力感知特征的全景图像显著性预测方法及系统
本专利技术涉及图像显著性预测
,具体地,涉及一种基于注意力感知特征的全景图像显著性预测方法及系统,以及对应该方法的终端。
技术介绍
传统图像的显著性预测已是目前研究比较深入的课题,在过去几十年中研究人员们提出了多种显著性预测模型,这些显著性预测模型可以分为两类:基于传统手动特征提取的显著性预测模型和基于深度神经网络的显著性预测模型。其中,对于传统手动特征提取的显著性预测模型是受神经生物学机制启发,利用自下而上的计算模式提取各种低层次特征进行显著性预测,该类模型是由数据驱动的,一般显著性预测准确率较低。比较具有代表性的是Itti等人提出的视觉显著性模型,通过提取多尺度上的低层次特征并利用线性加权融合的方法得到最终的显著图。基于深度神经网络的显著性预测模型是采用目前主流的各种深度神经网络模型提取高层次语义特征进行显著性预测的,该类模型是受数据量的限制,需在大规模数据的条件下进行模型训练的。与第一类显著性预测模型相比,第二类模型往往得到的显著性预测准确率较高,更符合人类视觉注意力机制。然而,在使用基于深度神经网络的显著性预测模型对全景图像进行预测时,存在两个至关重要的问题:1)目前全景图像的数据集都是小规模的,不能支持基于深度神经网络的模型训练;2)在进行显著性预测时,由于全景图像包含有混杂的背景将会影响显著性预测的准确率。对于全景图像的数据集,目前最广泛使用的是Rai等人在2017年《Proceedingsofthe8thACMonMultimediaSystemsConference》发表的“ADatasetofHeadandEyeMovementsfor360DegreeImages”,该数据集共包含60幅全景图像,对于每一幅图像,平均有42个受试者参与观看,每幅图像观看25秒,在两幅图像之间有5秒的灰屏间隔。对于使用基于深度神经网络的模型进行训练,该数据量是不充足的。对于使用基于深度神经网络进行显著性预测的方法中,比较具有代表性的是Monroy等人在2018年《SignalProcessing:ImageCommunication》上发表的“SalNet360:Saliencymapsforomni-directionalimageswithCNN”,它通过微调传统2D图像的显著性预测模型解决全景图像的显著性预测问题;同时还有Pan等人在2018年《CVPRSceneUnderstandingWorkshop》上发表的“Salgan:Visualsaliencypredictionwithadversarialnetworks”,它通过引入对抗网络的对抗训练机制进行显著性预测,在进行训练时,应用设计的二元交叉熵和下采样显著图执行显著性预测。然而这两种方法都是启发式的,对于包含复杂背景的全景图像,不能得到准确的显著性预测结果。
技术实现思路
针对上述现有方法中存在的不足之处,本专利技术的目的是提供一种基于注意力感知特征的全景图像显著性预测方法、系统及终端。根据本专利技术的第一方面,提供一种基于注意力感知特征的全景图像显著性预测方法,包括:预测全景图像的前景注意力图和背景注意力图;计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;提取全景图像的全局特征,将所述全局特征与预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合,得到融合后的所述前景注意力图、所述背景注意力图;将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数加权融合,获得最终的预测结果。可选地,所述预测全景图像的前景注意力图和背景注意力图,是通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图。可选地,所述通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图,其中,在第一阶段进行预测的公式如下:其中,MPA是通过ResNet50网络预测得到的特征图,和表示两个独立的预测网络;F1和B1分别表示得到的前景注意力图和背景注意力图。在第二阶段,对第一阶段得到的前景注意力图和背景注意力图进行增强,其具体的计算如下:通过上式计算得到预测的前景注意力图Fatt和背景注意力图Batt,M是在第二阶段经过ResNet50网络得到的特征图;和表示第二阶段的两个独立的预测网络。可选地,所述计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,其中:利用所述前景注意力图、所述背景注意力图中每个像素的亮度值表示可视化分数;定义全局可视化分数分别表示所述前景注意力图、所述背景注意力图中每一部分的可视化分数,计算公式如下:其中,(x0,y0)和(x',y')分别表示在所述前景注意力图、所述背景注意力图中的像素点,p和q分别表示前景注意力图和背景注意力图中像素点的集合。可选地,所述提取全景图像的全局特征,是通过带有注意力机制的ResNet50网络执行的,其中,所述带有注意力机制的ResNet50网络:1)在ResNet50网络的最后一层添加一个16通道的1×1的卷积核;2)将输入全景图像的大小从224×224调整为256×128。可选地,所述将全局特征与预测的前景注意力图、背景注意力图使用逐元素乘的方式进行融合,包括:将预测的所述前景注意力图、所述背景注意力图和提取得到的所述全局特征利用哈达玛积操作进行特征融合;将融合后的特征送入所述带有注意力机制的ResNet50网络中得到注意力感知融合的特征向量。可选地,所述将融合后的特征送入所述带有注意力机制的ResNet50网络中得到注意力特征,计算公式如下:其中,μ∈{F,B}表示的是前景注意力图、背景注意力图,表示归一化后的注意力图,max(μ)表示是μ取最大值,f表示是在全局特征提取阶段得到的16通道的全局特征图,ο表示是对两个矩阵或张量进行逐元素乘操作,fa表示注意力感知融合的特征向量。可选地,所述将融合后的前景注意力图、背景注意力图与所述可视化分数加权融合,包括:将所述注意力感知融合的特征向量fa和所述可视化分数连接起来,送入1×1的卷积层中获得权重向量w;然后利用生成的权重向量w对融合后的前景注意力图和背景注意力图进行加权融合得到最终预测的显著图fatt:fatt=Conv(Concat(w,fa)),μ∈{F,B}其中,Conv表示卷积操作,Concat表示连接操作,F和B分别表示的是全景图像的前景注意力图、背景注意力图,w表示权重向量。根据本专利技术的第二方面,提供一种基于注意力感知特征的全景图像显著性预测系统,包括:注意力图模块,该模块预测全景图像的前景注意力图和背景注意力图;可视化分数模块,该模块计算所述注意力图模块预测的所述前景注意力图、所述背景注意力图中每本文档来自技高网
...

【技术保护点】
1.一种基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,包括:/n预测全景图像的前景注意力图和背景注意力图;/n计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;/n提取全景图像的全局特征,将所述全局特征与预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合,得到融合后的所述前景注意力图、所述背景注意力图;/n将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数加权融合,获得最终的预测结果。/n

【技术特征摘要】
1.一种基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,包括:
预测全景图像的前景注意力图和背景注意力图;
计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;
提取全景图像的全局特征,将所述全局特征与预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合,得到融合后的所述前景注意力图、所述背景注意力图;
将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数加权融合,获得最终的预测结果。


2.根据权利要求1所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述预测全景图像的前景注意力图和背景注意力图,是通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图。


3.根据权利要求2所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图,其中,
在第一阶段进行预测的公式如下:



其中,MPA是通过ResNet50网络预测得到的特征图,和表示两个独立的预测网络,F1和B1分别表示得到的前景注意力图和背景注意力图;
在第二阶段,对第一阶段得到的前景注意力图和背景注意力图进行增强,其具体的计算如下:



通过上式计算得到预测的前景注意力图Fatt和背景注意力图Batt;M是在第二阶段经过ResNet50网络预测得到的特征图;和表示在第二阶段的两个预测网络。


4.根据权利要求1所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,其中:利用所述前景注意力图、所述背景注意力图中每个像素的亮度值表示可视化分数;
定义全局可视化分数分别表示所述前景注意力图、所述背景注意力图中每一部分的可视化分数,计算公式如下:






其中,(x0,y0)和(x',y')分别表示在所述前景注意力图、所述背景注意力图中的像素点,p和q分别表示前景注意力图和背景注意力图中像素点的集合。


5.根据权利要求1所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述提取全景图像的全局特征,是通过改进的带有注意力机制的ResNet50网络执行的,其中,所述带有注意力机制的ResNet50网络:
在ResNet50网络的最后一层添加一个16通道的1×1的卷积核;
将输入全景图像的大小从2...

【专利技术属性】
技术研发人员:杨小康朱丹丹闵雄阔朱文瀚朱煜程翟广涛
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1