一种基于自监督学习的全景图像显著性预测方法技术

技术编号:36432525 阅读:23 留言:0更新日期:2023-01-20 22:45
本发明专利技术公开了一种基于自监督学习的全景图像显著性预测方法,包括以下步骤:S1、利用无标签ERP图像集训练编码器,包括以下子步骤:S11、将ERP图像投影到球面,得到图像组C

【技术实现步骤摘要】
一种基于自监督学习的全景图像显著性预测方法


[0001]本专利技术属于图像处理
,特别涉及一种基于自监督学习的全景图像显著性预测方法。

技术介绍

[0002]元宇宙产业的发展带动了全景图像的制造和消费。相较于传统的2D图像,全景图像可以为用户提供全视野的景象,带来沉浸式的体验。但由于人类的视野范围有限,导致传输过来的全景信息只有一小部分能被实际使用到,造成了码率上的浪费。而显著性图像中的亮斑代表着用户可能观看的区域,使得我们可以根据显著性图像进行码率分配,到达节省码率的目的。在深度学习网络被应用于显著性预测之前,研究者将图片进行分割,根据手工设计的特征来模拟人类视觉注意机制。而深度学习网络通过对标签图像进行学习,选择出更为适合显著性预测的特征,获得了更为精确且鲁棒的结果。
[0003]现阶段大多数的预测方法都关注于2D图像,较长的研究周期使得2D显著性预测模型和数据集更为完善。但是由于将全景图像投影到平面后,势必会带来的几何扭曲,导致了直接将2D模型应用到全景图像中的效果并不理想。并且由于发展的时间较短,全景图像的显著性标签极为有限,在不使用2D模型以及数据集辅助的情况下,模型很难选择出适合全景显著性预测的特征,来获得较好的结果。所以部分方法通过将全景图像投影成扭曲程度较小的小视野图像,通过2D模型进行预测得到结果后进行多视角融合,得到最终的预测结果。这类方法虽然拥有较高的准确度,但由于预测面数较多以及投影需要耗费较多的时间,使得实时预测变得困难。
[0004]公开号为CN14998310A的专利申请公开了一种基于图像处理的显著性检测方法及系统,首先获取预处理图像对应的滤波图像和HSV图像;基于滤波图像和HSV图像的各通道分量图像,获取各通道分量图像的多个超像素块及各超像素块的通道等级分布,由超像素块之间通道等级分布的差异性和超像素块之间中心点距离得到目标特征指标;由超像素块和目标特征指标建立显著性指标模型,得到第一显著指标值,修正各超像素块的第一显著指标值得到第二显著指标值;融合各通道分量图像的第二显著指标值得到超像素块的目标显著指标值。通过计算各通道分量图像各区域的显著指标值实现增强处理,完成对预处理图像中显著区域的检测提取,提高了检测精度和效率。该方法设计了两个不同的手工特征,来模拟人类注意力机制,由于我们对于该机制的了解有限,导致仅仅通过手工特征来对显著性区域进行检测会在某些场景下有着较为明显的精度下降,并且全景图像所拥有的几何扭曲会导致针对平面设计的特征失效。
[0005]公开号为CN107274419A的专利申请公开了一种基于全局先验和局部上下文的深度学习显著性检测方法,首先对彩色图像和深度图像进行超像素分割,基于每个超像素的紧凑性、独特性和背景性等中层特征,获得每个超像素的全局先验特征图,并进一步通过深度学习模型,得到全局先验显著图;然后,结合全局先验显著图和彩色图像与深度图像中的局部上下文信息,通过深度学习模型,得到初始显著图;最后,依据空间一致性和外观相似
性优化初始显著图,得到最终显著图。应用本专利技术,解决了传统显著性检测方法无法有效检测到复杂背景图像中的显著物体,还解决了现有的基于深度学习的显著性检测方法由于提取出的高层特征存在噪声而导致误检的问题。该方案在传统方法的基础上使用卷积神经网络对显著性特征进行提取,并且采用了不同的输入来保证所提取的特征的完整性,虽然有效的提升了预测的鲁棒性,但是其多种模型叠加的结构势必会导致误差的积累,从而使得精度下降,并且全景图像投影图在不同纬度中像素的长度并不相同,导致针对超像素的设计失效。
[0006]公开号为CN107346436A的专利申请公开了一种融合图像分类的视觉显著性检测方法,包括:利用包括图像编码网络、图像解码网络和图像辨识网络的视觉显著性检测模型,采用多尺度图像作为图像编码网络的输入,提取多分辨率下图像的特征作为编码特征向量F;固定所述图像编码网络中除最后两层外的权值,训练网络参数,得到原图像的视觉显著图;将F作为所述的图像解码网络的输入,对原图像对应的显著图做归一化处理;对图像解码网络输入F,通过上采样层和非线性sigmoid层最终得到生成的视觉显著图;利用图像辨识网络以原图像的视觉显著图和生成的视觉显著图作为输入,采用小卷积核的卷积层提取特征并池化处理,最后采用三个全连接层输出生成图的概率分布和分类标签的概率分布。实现了快速有效地对图像进行分析并做出判断的目的,在图像标注、监督和行为预测等实践中获得了节约人力物力成本、显著提高准确性等良好效果。该方案以多尺度图像为输入,采用卷积神经网络对多尺度特征进行提取,并且使用卷积神经网络对得到的特征进行解码,使得模型可以端到端的学习,但是模型并没有根据显著性进行特定的设计,导致模型精度有待提升,且直接将平面模型应用于全景图像会导致精度下降。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的不足,提供一种利用大量未标签的全景图像,对显著性模型中的编码器进行针对性训练,缓解显著性标签缺少所带来模型表现不佳的现象,并且在编码器训练过程中进行了全局与局部信息的融合,使得编码器可以学习到视野不同图像的特征的基于自监督学习的全景图像显著性预测方法。
[0008]本专利技术的目的是通过以下技术方案来实现的:一种基于自监督学习的全景图像显著性预测方法,包括以下步骤:
[0009]S1、利用无标签ERP图像集训练编码器,包括以下子步骤:
[0010]S11、格式转换:将ERP图像投影到球面,得到CMP图像组C
i
和标签P
i
,i=1,

,6;
[0011]S12、对C
i
进行随机打乱得到c
i
,并根据c
i
的原始位置对P
i
进行更新得到代理任务的标签
[0012]S13、进行编码器训练,构建全局特征提取网络与局部特征提取网络并将全局特征和局部特征作为输入,通过特征融合学习这两者的特征,对全局特征提取网络的模型参数进行更新;
[0013]S2、进行解码器训练:解码器g
θ
:被构造用于预测最终的显著性结果
[0014]S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。
[0015]所述步骤S13中,全局特征提取网络与局部特征提取网络分别为:
[0016]E

>F
E
[0017][0018]其中F
E
是全局特征,是局部特征,E表示ERP图像;

>代表特征提取网路的推理过程,全局特征提取网络与局部特征提取网络均采用VGG16去掉尾部5层后的模型;
[0019]然后将得到的全局特征F
E
和局部特征一起联合输入到特征融合网络;
[0020]所述特征融合网络包括特征变换和点乘操作两个部分:首先将F
E
和经过两本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督学习的全景图像显著性预测方法,其特征在于,包括以下步骤:S1、利用无标签ERP图像集训练编码器,包括以下子步骤:S11、格式转换:将ERP图像投影到球面,得到CMP图像组C
i
和标签P
i
,i=1,

,6;S12、对C
i
进行随机打乱得到c
i
,并根据c
i
的原始位置对P
i
进行更新得到代理任务的标签S13、进行编码器训练,构建全局特征提取网络与局部特征提取网络并将全局特征和局部特征作为输入,通过特征融合学习这两者的特征,对全局特征提取网络的模型参数进行更新;S2、进行解码器训练:解码器g
θ
:被构造用于预测最终的显著性结果S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。2.根据权利要求1所述的一种基于自监督学习的全景图像显著性预测方法,其特征在于,所述步骤S13中,全局特征提取网络与局部特征提取网络分别为:分别为:其中F
E
是全局特征,是局部特征,E表示ERP图像;

>代表特征提取网路的推理过程,全局特征提取网络与局部特征提取网络均采用VGG16去掉尾部5层后的模型;然后将得到的全局特征F
E
和局部特征一起联合输入到特征融合网络;所述特征融合网络包括特征变换和点乘操作两个部分:首先将F
E
和经过两个权重不共享的全连接层得到r
E
和然后通过下面的方程进行变换:Q
E
=r
E
W
QQ
其中W
Q
、W
V
和W
K

【专利技术属性】
技术研发人员:叶茂邹子壮
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1