基于无监督学习的多视角显著性估计方法技术

技术编号:27292096 阅读:19 留言:0更新日期:2021-02-06 12:01
本发明专利技术涉及一种基于无监督学习的多视角显著性估计方法,属于视频图像处理领域。首先进行单视角背景建模,采用深层自动编码器对单视角背景进行学习,计算单视角显著性图;然后联合视角背景建模,对联合视角背景进行学习,计算联合视角显著性图;最后对单视角显著性图和联合视角显著性图进行多尺度显著性图融合。本发明专利技术方法仅需要采样场景无标记图像块来进行学习,结合了单视角与多视角下的显著性计算,可以更好的针对背景进行学习,减少背景的干扰,得到比基于显著性区域学习算法更高的预测精度。测精度。测精度。

【技术实现步骤摘要】
基于无监督学习的多视角显著性估计方法


[0001]本专利技术属于视频图像处理领域,涉及一种视频或图像多视角显著性估计算法,具体涉及一种基于无监督学习的多视角显著性估计方法。

技术介绍

[0002]显著性估计的本质在于预测输入图像或视频对应的显著性图来说明场景中各个区域被人们关注的概率。显著性估计是一个多学科交叉的研究领域,对于计算机视觉、神经科学、认知心理学、生物学等领域及学科都具有重要的研究意义。首先,视觉显著性估计是计算机视觉和人工智能领域的核心问题之一。将视觉显著性机制引入到计算机视觉等领域的模型算法中,能够使得现有算法更有效地筛选信息与分配计算资源,提高算法效率。其次,视觉显著性估计是人脑的基本功能之一,具有神经生理学的基础。对其研究可以为探索人脑工作机理的本质提供启发,同样对发展神经科学等方面起着重要作用。另外,视觉显著性估计起源于认知心理学,构建显著性计算模型可以更好地探索认知心理学中某些重要问题。
[0003]基于显著性估计的重要性,过去二十年中大量关于显著性的研究被提出,来探索显著性的生物性本质或计算模型与框架。在目前的研究中,绝大多数工作都集中于单一视角下的显著性计算,即给出一幅图像或一个视频的显著性估计结果。近年来,随着相机与监控设备的普及,多视角应用需求日益增加,也反过来激发了对于多视角显著性的研究意义,使得估计多视角显著性成为一个重要待解决问题。
[0004]尽管常规显著性估计方法可以分别预测各个单一视角下的人们感兴趣区域,但是却忽略了不同视角下场景间的竞争关系,例如来自一个视角的着火点(仅仅是具有明亮颜色的背景区域)可能比来自另一个视角的行人(高层语义区域)要重要得多。同时实际中研究的多视角场景通常包含多个传感器数量与更复杂的视角变换关系,显著性计算也更具挑战性。
[0005]现有研究中除了针对单一视角下的视觉显著性研究,也出现了多视角显著性估计算法。Fang等人(Y.Fang,J.Wang,M.Narwaria,P.Le Callet,and W.Lin,“Saliency detection for stereoscopic images,”IEEE Trans.Image Process.,vol.23,no.6,pp.2625-2636,Jun.2014.)提出一个针对双目左右视图的显著性估计算法,他们构建了一个针对显著性图的紧凑性度量来自适应地整合多个二维特征与深度特征。基于同样的特征整合模式,他们还提出一个针对立体视频的显著性估计算法(Y.Fang,C.Zhang,J.Li,J.Lei,M.P.Da Silva,and P.Le Callet,“Visual attention modeling for stereoscopic video:a benchmark and computational model,”IEEE Trans.Image Process.,vol.26,no.10,pp.4684-4696,Jun.2017.)。然而基于左右视图的显著性估计通常基于视觉源紧密放置的假设。此外,该显著性估计模型通常聚焦于两个视角下的计算。
[0006]为了解决包含任意个数传感器及更复杂视角变换情况下的显著性计算问题,多视角显著性估计模型被正式提出。相对于其他显著性研究,目前这一方面的工作还十分有限。
Ngau等(C.W.H.Ngau,L.-M.Ang,and K.P.Seng,“Multi camera visual saliency using image stitching,”in Proc.Int.Conf.Telecommun.Technol.Appl,Singapore,Jun.2011,pp.93-98.)首先对不同信号源的图像进行拼接,再利用现有单视角显著性算法为拼接后的图像计算显著性。Luo等(Y.Luo,M.Jiang,Y.Wong,and Q.Zhao,“Multi-camera saliency,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.37,no.10,pp.2057-2070,Jan.2015.)首先将不同视角下的图像变换到统一平面进行特征整合,再利用稀疏表示与字典学习的方式学习各个视角特征与显著性值之间的映射关系。在该项工作的学习过程中,需要依赖于大量眼动跟踪数据来学习各个视角下的显著性估计参数。现有多视角显著性估计方法存在以下不足:
[0007]1)现有多视角显著性估计算法通常依赖有标记的训练样本来进行模型参数的学习。但是,在很多情况下,针对多视角场景的眼动数据往往是较难获得的,因此这也限制了传统基于眼动数据学习多视角显著性估计算法的应用。
[0008]2)对于背景复杂的场景,之前的多视角显著性估计算法可能会受到背景的干扰,错误地将某些背景区域作为显著性前景。
[0009]3)基于眼动学习的传统多视角显著性估计算法通常倾向于输出小的显著性区域,更善于计算小目标场景下的显著性,而对于包含较大目标的场景则不能完整地突出显著性目标区域;对于后续应用,例如基于显著性估计的目标分割,则不能完整地突出显著性目标。
[0010]4)传统多视角显著性估计算法仅考虑了多视角间显著性的竞争,没有考虑单视角下显著性的计算。

技术实现思路

[0011]要解决的技术问题
[0012]为了避免上述现有技术的不足之处,本专利技术提出一种基于无监督学习的多视角显著性估计方法,从无标记场景自身的角度来挖掘不同视角在显著性计算中的竞争与联系。
[0013]技术方案
[0014]一种基于无监督学习的多视角显著性估计方法,其特征在于步骤如下:
[0015]步骤1:单视角背景建模
[0016]计算边界先验图:像素点x的边界先验P
boundary
(x)定义为该点所在图像块V
x
到虚拟背景点V
B
的最短路径:
[0017][0018]其中,w(V
i
,V
i+1
)表示顶点V
i
和顶点V
i+1
之间边的权重;n
x
是当前点x到V
B
的最短路径长度;
[0019]计算深度先验图:
[0020][0021]其中,是点x处归一化的深度值;
[0022]基于归一化的边界与深度先验图,计算单视角背景先验图:
[0023]P1(x)

1-P
boundary
(x)
·
P
depth
(x)
ꢀꢀꢀ
(3)
[0024]其中,P1(x)代表当前像素点x属于背景区域的概率;
[0025]步骤2:采用深层自动编码器对单视角背景进行学习
[0026]所述的深层自动编码器由共用中心层且结构对称的编码器与解码器两部分组成,中心层为二值神经元,其余所有神经元均为逻辑神经元;所述的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督学习的多视角显著性估计方法,其特征在于步骤如下:步骤1:单视角背景建模计算边界先验图:像素点x的边界先验P
boundary
(x)定义为该点所在图像块V
x
到虚拟背景点V
B
的最短路径:其中,w(V
i
,V
i+1
)表示顶点V
i
和顶点V
i+1
之间边的权重;n
x
是当前点x到V
B
的最短路径长度;计算深度先验图:其中,是点x处归一化的深度值;基于归一化的边界与深度先验图,计算单视角背景先验图:P1(x)

1-P
boundary
(x)
·
P
depth
(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,P1(x)代表当前像素点x属于背景区域的概率;步骤2:采用深层自动编码器对单视角背景进行学习所述的深层自动编码器由共用中心层且结构对称的编码器与解码器两部分组成,中心层为二值神经元,其余所有神经元均为逻辑神经元;所述的编码器由5层网络结构组成,相邻两层网络是全连接的关系,N0为输入层的神经元数量,其大小由输入图像块对应的向量维数决定;编码器神经元个数逐层减少,N
i
≥2N
i+1
,i=0,1,2,N3≥2N
c
,中心层神经元数量N
c
通常远小于输入层神经元数量N0;步骤3:单视角显著性图计算对于像素点x,首先提取其对应的大小为d
k
×
d
k
的图像块,并堆叠所有颜色通道数据来生成对应的向量表示s
k
(x);接下来,通过将图像块向量s
k
(x)输入到学习后的深层自动编码器中,其中表示尺度k下深层自动编码器的参数,来得到重构图像块向量最后,计算重构与实际图像块向量的l2范数来得到单视角下像素点x的显著性值性值步骤4:联合视角背景建模将不同视角下的输入变换到统一公共平面上来实现全局背景整合:先手动标定p组当前视角平面与对应公共平面中对应的网格参考点与再利用成对的标记点求解两个视角间投影关系对应的3
×
3非奇异矩阵Q:
对于每一个视角图像A
i
,根据式(5)来建立方程组求解其对应的变换矩阵Q
i
,并将A
i
通过变换变换到公共平面上接下来整合不同视角下的投影变换结果形成公共平面;删除重叠的区域,使得每个重叠区域仅保留一次;最后再根据式(3)进行联合背景建模,得到联合背景先验图P2(x);步骤5:联合视角背景学习通过已知几何变换来避免从未观察区域进行背景学习,再对剩下区域根据P2(x)值进行排序,估计出前80%的区域作为候选背景区域;基于候选背景区域,采样m
×
n个图像块训练样本来对深层自动编码器进行训练,n为视角图像数量;同样采用两阶段训练方式来训练深层自动编码器,利用预训练为深层自动编码器设定初值,再利用反向传播算法微调整个深层自动编码器参数得到联合背景建模下的深层自动编码器步骤6:联合视角显著性图计算在当前视角图像A

【专利技术属性】
技术研发人员:夏辰韩军伟郭雷
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1