基于非对称深度卷积神经网络的多视角深度预测方法技术

技术编号:23191915 阅读:25 留言:0更新日期:2020-01-24 16:37
本公开揭示了一种基于非对称深度卷积神经网络的多视角深度预测方法,包括:构建一种非对称深度卷积神经网络;结合参考图像,将相邻图像构造为平面扫描卷;在现有数据集上预先训练第一神经网络;使用第一神经网络的模型参数进一步初始化第二神经网络这一非对称深度卷积神经网络;最终通过第二神经网络完成多视角深度预测。本公开允许输入任意数量和任意分辨率的不同视角的图像,减少了繁琐的手工操作,也减少限制约束,从而实现了对多目图像所产生的不同视角图像的深度的高精度预测。

【技术实现步骤摘要】
基于非对称深度卷积神经网络的多视角深度预测方法
本公开属于计算机视觉
,具体涉及基于非对称深度卷积神经网络的多视角深度预测方法。
技术介绍
挖掘图像所包含的深度信息可以生成准确的深度图,目前深度预测研究已应用于3D重建领域并取得了显著成果。与深度学习方法相比,传统的图像深度预测方法需要大量的资源和大量繁琐的手工操作,如立体匹配和手工标记等。目前,基于深度学习的图像深度预测方法主要利用单目图像进行预测。而基于深度学习的多视角深度预测方法不仅可以减少繁琐的人工操作,而且可以减少限制条件。特别是对于结构简单、没有结构等细节场景的预测,比传统方法更准确、更稳定。将卷积神经网络应用于视觉重建问题,早期的工作主要是集中在利用图像的相似性进行立体匹配,最近的研究使用端到端的学习进行立体重建,然而,这些方法对相机的相对位姿或输入图像的数量有限制,或者会产生粗略的体积重构。
技术实现思路
为了解决上述技术问题,本公开揭示了一种基于非对称深度卷积神经网络的多视角深度预测方法,包括如下步骤:S100、定义第一图像序列,其中,所述第一图像序列具备如下特征:所述第一图像序列不限制其中的图像数量、所述图像序列中的各个图像的分辨率是否相同不受限制、所述图像序列中的图像至少包括针对某一确定场景的多张不同视角的图像;S200、任意选取所述第一图像序列中的一张图像作为所述确定场景中的参考图像;S300、计算出图像序列中其余图像与参考图像的重叠率,并选取重叠率最高的N张作为所有的相邻图像,N最小能够取1;然后,对于N张相邻图像中的每一张相邻图像,根据参考图像对相邻图像在每个视差级别上进行WarpAffine仿射变换,并将仿射变换后的相邻图像存储在一个平面扫描卷中,以此构造出包括有张仿射变换后的相邻图像的平面扫描卷;S400、构建第一神经网络,所述第一神经网络包括由前向后依次连接的:特征融合模块、第一视差预测核心模块、特征聚合模块,其中:特征融合模块,用于将参考图像和所述平面扫描卷中的仿射变换后的相邻图像的每一视差级别的特征融合并输出融合后的特征图,其中,所述特征融合模块包括由前向后依次连接的四个5*5卷积层;第一视差预测核心模块,用于根据前一个模块所输出的融合后的特征图进行特征提取和对视差信息进行预测,其中,所述第一视差预测核心模块包括由前向后依次连接的两个卷积层,其中一个卷积层用于特征提取,另一个卷积层用于对视差信息进行预测以预测每个视差级别上的信息;特征聚合模块,用于利用最大池化对前一个模块所预测的每个视差级别上的信息进行聚合以得到深度图,其中,所述特征聚合模块包括依次连接的一个池化层和两个卷积层,经过所述两个卷积层生成聚合后的特征图,所述聚合后的特征图经过全连通条件随机场优化得到1通道的视差图,求倒数得到所述确定场景中的所述参考图像的深度图;S500、对于所述第一神经网络,将学习率设置为10-5,限制L2范式不超过1.0,并且:按照上述步骤S100所定义的第一图像序列,在第一数据集上选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以预先训练所述第一神经网络;训练迭代320000次后,保存所述第一神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第一神经网络并保存模型参数,并且:训练第一神经网络所采用的损失函数的公式为:其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;S600、构建第二神经网络,所述第二神经网络为所述非对称深度卷积神经网络;并且,所述第二神经网络:原样采用第一神经网络中的特征融合模块和特征聚合模块,但采用第二视差预测核心模块替换所述第一神经网络中的第一视差预测核心模块,以此形成由前向后依次连接的:特征融合模块、第二视差预测核心模块、特征聚合模块,并且:其中,所述第二视差预测核心模块由前向后依次为:第1至第6特征提取卷积块,第1至第5视差预测卷积块,且所述6个特征提取卷积块与5个视差预测卷积块之间的非对称使得所述第二神经网络构造为非对称深度卷积神经网络,其中,所述第二视差预测核心模块通过第1至第6特征提取卷积块进行特征提取,通过第1至第5视差预测卷积块对视差信息进行预测;S700、对于所述第二神经网络,将学习率设置为10-6,限制L2范式不超过0.1,利用步骤S500中所保存的第一神经网络的模型参数初始化第二神经网络,并且:按照上述步骤S100所定义的第一图像序列,在第二数据集上、以及在属于可选而非必选的第三数据集上,从中选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以用于训练所述第二神经网络,训练迭代320000次后,保存所述第二神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第二神经网络并保存模型参数,并且:训练第二神经网络所采用的损失函数的公式为:其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;S800、以待预测的另外某一确定场景的多张不同视角的图像作为第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入,通过步骤S700训练所得的第二神经网络,求得该确定场景中的所述参考图像的深度图。以此,本公开实现了一种不限制图像数量,也不限制图像分辨率的多视角深度预测方法。这使得本公开能够使用一个深度神经网络模型实现场景的多视角深度预测,提升了深度预测的准确性和鲁棒性,获得较为清晰的深度图。即使图像是RGB图像,也不受限制,也就是说,本公开能够用于拟合RGB图像和视差图之间的关系,然后将拟合出来的视差图转换为深度图。此外,本公开所述的非对称结构卷积神经网络中的每一卷积层都可以进一步优先使用非线性激活函数,利用非线性的激活函数给本公开所述的非对称卷积神经网络引入非线性,使其拥有拟合非线性的能力。例如拟合RGB图像和视差图之间的关系,然后将拟合出来的视差图转换为深度图。附图说明后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:图1方法流程图;图2本专利技术使用的深度卷积神经网络结构图;图3a、图3b为测试结果效果图,其中,图3a为原图,图3b为深度图。具体实施方式为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图1至图3a、图3b,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特本文档来自技高网...

【技术保护点】
1.一种基于非对称深度卷积神经网络的多视角深度预测方法,包括如下步骤:/nS100、定义第一图像序列,其中,所述第一图像序列具备如下特征:所述第一图像序列不限制其中的图像数量、所述图像序列中的各个图像的分辨率是否相同不受限制、所述图像序列中的图像至少包括针对某一确定场景的多张不同视角的图像;/nS200、任意选取所述第一图像序列中的一张图像作为所述确定场景中的参考图像;/nS300、计算出图像序列中其余图像与参考图像的重叠率,并选取重叠率最高的N张作为所有的相邻图像,N最小能够取1;然后,对于N张相邻图像中的每一张相邻图像,根据参考图像对相邻图像在每个视差级别

【技术特征摘要】
1.一种基于非对称深度卷积神经网络的多视角深度预测方法,包括如下步骤:
S100、定义第一图像序列,其中,所述第一图像序列具备如下特征:所述第一图像序列不限制其中的图像数量、所述图像序列中的各个图像的分辨率是否相同不受限制、所述图像序列中的图像至少包括针对某一确定场景的多张不同视角的图像;
S200、任意选取所述第一图像序列中的一张图像作为所述确定场景中的参考图像;
S300、计算出图像序列中其余图像与参考图像的重叠率,并选取重叠率最高的N张作为所有的相邻图像,N最小能够取1;然后,对于N张相邻图像中的每一张相邻图像,根据参考图像对相邻图像在每个视差级别上进行WarpAffine仿射变换,并将仿射变换后的相邻图像存储在一个平面扫描卷中,以此构造出包括有张仿射变换后的相邻图像的平面扫描卷;
S400、构建第一神经网络,所述第一神经网络包括由前向后依次连接的:特征融合模块、第一视差预测核心模块、特征聚合模块,其中:
特征融合模块,用于将参考图像和所述平面扫描卷中的仿射变换后的相邻图像的每一视差级别的特征融合并输出融合后的特征图,其中,所述特征融合模块包括由前向后依次连接的四个5*5卷积层;
第一视差预测核心模块,用于根据前一个模块所输出的融合后的特征图进行特征提取和对视差信息进行预测,其中,所述第一视差预测核心模块包括由前向后依次连接的两个卷积层,其中一个卷积层用于特征提取,另一个卷积层用于对视差信息进行预测以预测每个视差级别上的信息;
特征聚合模块,用于利用最大池化对前一个模块所预测的每个视差级别上的信息进行聚合以得到深度图,其中,所述特征聚合模块包括依次连接的一个池化层和两个卷积层,经过所述两个卷积层生成聚合后的特征图,所述聚合后的特征图经过全连通条件随机场优化得到1通道的视差图,求倒数得到所述确定场景中的所述参考图像的深度图;
S500、对于所述第一神经网络,将学习率设置为10-5,限制L2范式不超过1.0,并且:按照上述步骤S100所定义的第一图像序列,在第一数据集上选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以预先训练所述第一神经网络;训练迭代320000次后,保存所述第一神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第一神经网络并保存模型参数,并且:
训练第一神经网络所采用的损失函数的公式为:



其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S600、构建第二神经网络,所述第二神经网络为所述非对称深度卷积神经网络;并且,所述第二神经网络:原样采用第一神经网络中的特征融合模块和特征聚合模块,但采用第二视差预测核心模块替换所述第一神经网络中的第一视差预测核心模块,以此形成由前向后依次连接的:特征融合模块、第二视差预测核心模块、特征聚合模块,并且:
其中,
所述第二视差预测核心模块由前向后依次为:第1至第6特征提取卷积块,第1至第5视差预测卷积块,且所述6个特征提取卷积块与5个视差预测卷积块之间的非对称使得所述第二神经网络构造为非对称深度卷积神经网络,其中,所述第二视差预测核心模块通过第1至第6特征提取卷积块进行特征提取,通过第1至第5视差预测卷积块对视差信息进行预测;
S700、对于所述第二神经网络,将学习率设置为10-6,限制L2范式不超过0.1,利用步骤S500中所保存的第一神经网络的模型参数初始化第二神经网络,并且:按照上述步骤S100所定义的第一图像序列,在第二数据集上、以及在属于可选而非必选的第三数据集上,从中选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以用于训练所述第二神经网络,训练迭代320000次后,保存所述第二神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第二神经网络并保存模型参数,并且:
训练第二神经网络所采用的损失函数的公式为:



其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S800、以待预测的另外某一确定场景的多张不同视角的图像作为第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描...

【专利技术属性】
技术研发人员:裴炤田龙伟汶得强张艳宁马苗汪西莉陈昱莅武杰杨红红
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1