【技术实现步骤摘要】
基于无监督学习的多视角显著性估计方法
[0001]本专利技术属于视频图像处理领域,涉及一种视频或图像多视角显著性估计算法,具体涉及一种基于无监督学习的多视角显著性估计方法。
技术介绍
[0002]显著性估计的本质在于预测输入图像或视频对应的显著性图来说明场景中各个区域被人们关注的概率。显著性估计是一个多学科交叉的研究领域,对于计算机视觉、神经科学、认知心理学、生物学等领域及学科都具有重要的研究意义。首先,视觉显著性估计是计算机视觉和人工智能领域的核心问题之一。将视觉显著性机制引入到计算机视觉等领域的模型算法中,能够使得现有算法更有效地筛选信息与分配计算资源,提高算法效率。其次,视觉显著性估计是人脑的基本功能之一,具有神经生理学的基础。对其研究可以为探索人脑工作机理的本质提供启发,同样对发展神经科学等方面起着重要作用。另外,视觉显著性估计起源于认知心理学,构建显著性计算模型可以更好地探索认知心理学中某些重要问题。
[0003]基于显著性估计的重要性,过去二十年中大量关于显著性的研究被提出,来探索显著性的生物性本质或计算模型与框架。在目前的研究中,绝大多数工作都集中于单一视角下的显著性计算,即给出一幅图像或一个视频的显著性估计结果。近年来,随着相机与监控设备的普及,多视角应用需求日益增加,也反过来激发了对于多视角显著性的研究意义,使得估计多视角显著性成为一个重要待解决问题。
[0004]尽管常规显著性估计方法可以分别预测各个单一视角下的人们感兴趣区域,但是却忽略了不同视角下场景间的竞争关系,例如来自一个视 ...
【技术保护点】
【技术特征摘要】
1.一种基于无监督学习的多视角显著性估计方法,其特征在于步骤如下:步骤1:单视角背景建模计算边界先验图:像素点x的边界先验P
boundary
(x)定义为该点所在图像块V
x
到虚拟背景点V
B
的最短路径:其中,w(V
i
,V
i+1
)表示顶点V
i
和顶点V
i+1
之间边的权重;n
x
是当前点x到V
B
的最短路径长度;计算深度先验图:其中,是点x处归一化的深度值;基于归一化的边界与深度先验图,计算单视角背景先验图:P1(x)
∝
1-P
boundary
(x)
·
P
depth
(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,P1(x)代表当前像素点x属于背景区域的概率;步骤2:采用深层自动编码器对单视角背景进行学习所述的深层自动编码器由共用中心层且结构对称的编码器与解码器两部分组成,中心层为二值神经元,其余所有神经元均为逻辑神经元;所述的编码器由5层网络结构组成,相邻两层网络是全连接的关系,N0为输入层的神经元数量,其大小由输入图像块对应的向量维数决定;编码器神经元个数逐层减少,N
i
≥2N
i+1
,i=0,1,2,N3≥2N
c
,中心层神经元数量N
c
通常远小于输入层神经元数量N0;步骤3:单视角显著性图计算对于像素点x,首先提取其对应的大小为d
k
×
d
k
的图像块,并堆叠所有颜色通道数据来生成对应的向量表示s
k
(x);接下来,通过将图像块向量s
k
(x)输入到学习后的深层自动编码器中,其中表示尺度k下深层自动编码器的参数,来得到重构图像块向量最后,计算重构与实际图像块向量的l2范数来得到单视角下像素点x的显著性值性值步骤4:联合视角背景建模将不同视角下的输入变换到统一公共平面上来实现全局背景整合:先手动标定p组当前视角平面与对应公共平面中对应的网格参考点与再利用成对的标记点求解两个视角间投影关系对应的3
×
3非奇异矩阵Q:
对于每一个视角图像A
i
,根据式(5)来建立方程组求解其对应的变换矩阵Q
i
,并将A
i
通过变换变换到公共平面上接下来整合不同视角下的投影变换结果形成公共平面;删除重叠的区域,使得每个重叠区域仅保留一次;最后再根据式(3)进行联合背景建模,得到联合背景先验图P2(x);步骤5:联合视角背景学习通过已知几何变换来避免从未观察区域进行背景学习,再对剩下区域根据P2(x)值进行排序,估计出前80%的区域作为候选背景区域;基于候选背景区域,采样m
×
n个图像块训练样本来对深层自动编码器进行训练,n为视角图像数量;同样采用两阶段训练方式来训练深层自动编码器,利用预训练为深层自动编码器设定初值,再利用反向传播算法微调整个深层自动编码器参数得到联合背景建模下的深层自动编码器步骤6:联合视角显著性图计算在当前视角图像A
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。