一种基于卷积神经网络的360度图像显著目标检测方法技术

技术编号:34533541 阅读:13 留言:0更新日期:2022-08-13 21:27
本发明专利技术公开了一种基于卷积神经网络的360度图像显著目标检测方法,包括如下步骤:S1、图像转换;S2、搭建特征金字塔网络;S3、采用四个特征聚合模块,每个模块由一个特征转换子模块完成立方体投影特征向等距形特征转换并与原等距形图像特征组合后,使用一个空洞卷积池化金字塔子模块实现特征的优化,从而得到多层次的聚合特征;S4、将多层次的聚合特征连接并馈送到注意力集成模块,通过推断空间和通道注意机制自适应地选择可靠空间和通道信息与原特征融合得到最终特征并完成显著目标检测。该方法使用图像映射关系基于等距形360度图像构建对应的立方体投影图像,使用双种类图像作为输入解决了单一等矩形图像输入造成的球面到平面投影的不良失真问题。面投影的不良失真问题。面投影的不良失真问题。

【技术实现步骤摘要】
一种基于卷积神经网络的360度图像显著目标检测方法


[0001]本专利技术涉及计算机视觉
,具体指一种基于卷积神经网络的360度图像显著目标检测方法。

技术介绍

[0002]360度图像,即360度全景图像,是一种利用拍照设备对现有场景进行多角度环视拍摄后,再使用计算机进行后期处理后得到的图像,是一种三维虚拟的场景展示技术。其作为一种全新的展现形式,具有广阔的应用场景,如旅游景点、酒店宾馆的全方位展示,自动驾驶对路况环境的全方位分析,以及VR影视娱乐的开发等均离不开360度图像技术的发展。而对360图像中显著目标的检测,将有利于快速锁定场景中的行人、目标建筑,在不同领域均有着较高的研究意义。
[0003]自然场景中显著目标的检测和分割,通常被称为显著目标检测,其旨在捕捉图像中最具有视觉吸引力的目标,可应用于图像视频分割、图像理解、语义分割、图像目标重定等广泛视觉领域。近年来,随着卷积神经网络的不断发展,在有限视野场景下,常规的图像显著目标检测模型已经取得了较高的性能。然而,360度全景图像作为一种新颖的图像表现形式。目前,常见的两种方式分别是通过等距形投影或立方体投影的形式将全局对象信息以二维图像展现出来。
[0004]其中,等距形投影作为将360度全景图像存储为标准2D图像最常用的方法之一,以单一的二维平面显示了真实3D世界的全方位图像信息,但也因为球面到平面的投影失真伪造了真实的语义信息。目前,尽管已经有众多学者通过提出多种非卷积网络算法来处理这些错误信息,但对于现有的大部分基于卷积神经网络的显著目标检测模型而言,其仍无法从扭曲的语义信息中准确突出图像中的显著目标,这是由于卷积神经网络对规则网格数据敏感而对扭曲数据不敏感的特性所导致的。
[0005]与等距形投影相比,立方体投影是通过切割360度全景图像为立方体的六个面,以6个方位(上、下、左、右、前、后)的图像来展现全局信息,使用这种数据的显著目标检测方法虽然仅引入了较少的几何失真,但由于立方体图像每个面连接处存在不连续性,导致其结果往往不能很好地显示边缘细节。
[0006]由此可见,等距形投影和立方体投影这两种形式尽管能将全局对象信息以二维图像展现出来,但也不可避免地会引入球面到平面的投影失真。从而导致直接采用常规的目标检测模型将可能无法准确地突出这些图像中的显著目标。

技术实现思路

[0007]本专利技术根据现有技术的不足,提出一种基于卷积神经网络的360度图像显著目标检测方法,使用图像映射关系基于等距形360度图像构建对应的立方体投影图像,使用双种类图像作为输入,从而解决了单一等矩形图像输入造成的球面到平面投影的不良失真问题。
[0008]为了解决上述技术问题,本专利技术的技术方案为:
[0009]一种基于卷积神经网络的360度图像显著目标检测方法,包括如下步骤:
[0010]S1、图像转换
[0011]S1

1、创建等距形360度图像的数据集;
[0012]S1

2、建立图像转换模块;
[0013]S1

3、读取数据集中的等距形360度图像后,利用图像转换模块生成对应的立方体投影图像;
[0014]S2、搭建特征金字塔网络,对等距形360度图像以及转化后得到的立方体投影图像进行特征提取,得到等距形360度图像特征和立方体投影特征;
[0015]S3、采用四个完全相同的特征聚合模块,每个模块由一个特征转换子模块完成立方体投影特征向等距形特征转换,并与等距形360度图像的特征进行组合,然后使用一个空洞卷积池化金字塔子模块实现特征的优化,从而得到多层次的聚合特征;
[0016]S4、将多层次的聚合特征连接并馈送到注意力集成模块,通过推断空间和通道注意机制自适应地选择可靠空间和通道信息与原特征融合得到最终特征并完成显著目标检测。
[0017]作为优选,所述步骤S1

2中,利用等距形投影与立方体投影的映射关系将等距形360度图像生成对应的立方体投影图像。
[0018]作为优选,所述等距形投影与立方体投影的映射关系的表达式如下:
[0019]q
i
=R
fi
·
p
i
[0020][0021][0022]其中,θ
fi
、φ
fi
代表等距形投影下的经纬度,是q坐标的x,y,z分量,R
fi
表示旋转矩阵,f
i
为已知某个成像平面,p
i
为已知成像平面f
i
上的一点,x,y,z表示p
i
的三维坐标,
[0023]作为优选,所述特征金字塔网络输入的图像数据包括等距形360度图像和立方体投影图像,所述等距形360度图像和与其对应的立方体投影图像形成一个图像样本。
[0024]作为优选,所述特征金字塔网络搭建的方法为:采用FPN作为主干网络,其中自下而上通路是基于Resnet

50搭建。
[0025]作为优选,所述步骤S2中,特征提取方法为:
[0026]对每个图像样本的七张输入图像,即等距形投影图像和立方体投影图像的上、下、左、右、前、后六个面图像,均采用特征金字塔网络进行特征提取,得到等距形图像特征和立方体投影特征,
[0027]在特征金字塔网络中每个独立的FPN特征提取模块的上层Resnet作为前馈Backbone的一部分,每一级往上用步长step=2进行降采样,用输出的2至5级特征参与预测,conv2~5的输出层,最后一个残差block层,作为FPN的特征,分别对应于输入图片的下
采样倍数为4,8,16,32,下层自顶向下的过程通过上采样的方式将最右侧的小特征图放大到与其左侧特征图一样的大小,最终和上层特征融合后逐层输出得到各层特征结果F1~4。
[0028]作为优选,所述步骤S3中,通过四个完全相同的特征聚合模块输出四组特征的集合。
[0029]作为优选,所述特征转换子模块的转换方法为:利用等距形图像特征和立方体投影特征之间的映射关系,将6个立方体投影特征转换为等距形投影特征。并与使用原等距形图像提取得到的特征进行组合得到最终的混合特征。
[0030]作为优选,所述空洞卷积池化金字塔子模块的优化方法为:对于给定的输入以不同采样率的空洞卷积并行采样,将得到的结果拼接到一起,扩大通道数,然后再通过1*1的卷积将通道数降低到预期的数值,相当于以多个比例捕捉图像的上下文,其核心在于使用多个不同尺寸滑动窗口池对上层的卷积层获得的特征图进行采样,将分别得到的结果进行合并就会得到固定长度的输出,从而输出多层次的聚合特征。
[0031]本专利技术具有以下的特点和有益效果:
[0032]使用图像映射关系基于等距形360度图像构建对应的立方体投影图像,使用双种类图像作为输入解决了单一等矩形图像输入造成的球面到平面投影的不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络的360度图像显著目标检测方法,其特征在于,包括如下步骤:S1、图像转换S1

1、创建等距形360度图像的数据集;S1

2、建立图像转换模块;S1

3、读取数据集中的等距形360度图像后,利用图像转换模块生成对应的立方体投影图像;S2、搭建特征金字塔网络,对等距形360度图像以及转化后得到的立方体投影图像进行特征提取,得到等距形360度图像特征和立方体投影特征;S3、采用四个完全相同的特征聚合模块,每个特征聚合模块由一个特征转换子模块完成立方体投影特征向等距形特征转换,并与等距形360度图像特征进行组合,然后使用一个空洞卷积池化金字塔子模块实现组合特征的优化,从而得到多层次的聚合特征;S4、将多层次的聚合特征连接并馈送到注意力集成模块,通过推断空间和通道注意机制自适应地选择可靠空间和通道信息与原特征融合得到最终特征并完成显著目标检测。2.根据权利要求1所述的基于卷积神经网络的360度图像显著目标检测方法,其特征在于,所述步骤S1

2中,利用等距形投影与立方体投影的映射关系将等距形360度图像生成对应的立方体投影图像。3.根据权利要求2所述的基于卷积神经网络的360度图像显著目标检测方法,其特征在于,所述等距形投影与立方体投影的映射关系的表达式如下:q
i
=R
fi
·
p
ii
其中,θ
fi
、φ
fi
代表等距形投影下的经纬度,是q坐标的x,y,z分量,R
fi
表示旋转矩阵,f
i
为已知某个成像平面,p
i
为已知成像平面f
i
上的一点,x,y,z表示p
i
的三维坐标,4.根据权利要求1所述的基于卷积神经网络的360度图像显著目标检测方法,其特征在于,所述特征金字塔网络输入的图像数据包括等距形360度图像...

【专利技术属性】
技术研发人员:周晓飞罗晨浩张继勇李世锋周振何帆
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1