当前位置: 首页 > 专利查询>广州大学专利>正文

基于重参数化的三阶段双目深度估计的方法及装置制造方法及图纸

技术编号:38331879 阅读:17 留言:0更新日期:2023-07-29 09:14
本发明专利技术公开了基于重参数化的三阶段双目深度估计的方法及装置,本发明专利技术通过提供的基于重参数化模块的特征提取器、分阶段构建成本量、二维卷积的代价聚合网络和TensorRT优化模型,实现在边缘设备上获得高精度的视差估计结果。果。果。

【技术实现步骤摘要】
基于重参数化的三阶段双目深度估计的方法及装置


[0001]本专利技术涉及双目深度估计领域,尤其是涉及一种基于重参数化的三阶段双目深度估计的方法及装置。

技术介绍

[0002]从双目相机获取的立体图像对中进行深度估计是三维重建的关键一步,其在三维建模、机器人、无人机、增强现实和自动驾驶等领域有着广泛的应用。给定一对立体图像,立体匹配的目的是在左右图像的像素之间建立紧密的对应关系。不同于传统立体匹配算法,近年来,自然语言处理领域的Transformer和计算机视觉领域的结合,催生出视觉Transformer并且迅速崛起,已经有赶超卷积神经网络的势头,依靠深度学习的立体匹配算法已经在精度方面得到显著提升。然而,这也带来了大量的计算成本,使得基于深度学习的立体匹配算法在计算速度和延迟上无法媲美传统的立体匹配算法,因而很多算法只能存在于实验室中,不能落地在实际应用当中。
[0003]基于有监督学习的端到端双目深度估计神经网络是在最近五年才发展起来的,发展到现在,网络的结构已基本定型,大体可分为:体征提取、成本量构建、代价聚合和视差回归等这几步。对于特征提取,虽然视觉Transformer在精度上比卷积神经网络有优势,但是其严重依赖庞大的数据集和高性能显卡,使得基于Transformer的深度估计算法仍处在高速发展的阶段,而以往的基于卷积神经网络的深度估计算法仍具备巨大的优势,并没有衰减的势头,反而因为Transformer网络的崛起,使得人们不断通过实验验证推敲过往卷积神经网络中大量不合理的实验方式。因而催生出将训练和推理分开的工作模式,为了让分开的两种工作模型达到同等的实验效果,相关研究人员提出了重参数化的概念并赋予卷积神经网络超越Transformer网络的性能,让卷积神经网络再次伟大。对于成本量构建,已有成熟的方法主要围绕距离,或者分组相关来构建成本量。不同于以往的全距离构建成本量旨在为每个视差级别生成一个单通道距离图,现有的距离会在每个视差级别生成多个通道的距离图,并为每个通道匹配相关量或加上注意力机制等,弥补了以往全距离所丢失的很多特征信息;而分组相关则多出一个维度来分出的若干组成本量,进而获得多个成本量计算方案,最后将多个方案汇总为一个分组相关成本量。虽然做法新颖,效果显著,但无法大大超越改进后的距离方式构建的成本量。对于代价聚合和视察回归,现有的方法大多采用深层的三维卷积、沙漏模型、或者简单的三维卷积外加微调模块等形式。具体地,深层的三维卷积计算较为复杂,对于边缘设备来说,计算和内存消耗过高,因此不适合边缘设备上的部署;而沙漏模型是一种编码器

解码器的架构,一般利用三维卷积结合中间监督进行重复的由精到粗,再由粗到精的处理,由于沙漏模型由许多三维卷积层组成,计算量大,因此也不适合应用在轻量化的网络;而三维卷积外加微调模块虽然可以弥补以上两种方式的缺点,但是仍旧是采用三维卷积的方式,因此仍旧可以采用二维卷积加以尝试以替换掉三维卷积计算量大,效果不显著的缺点。而现有的二维卷积方法无法做到与三维卷积方案相媲美的结果,因此仍旧有改进的空间。

技术实现思路

[0004]本专利技术的目的在于提供一种基于重参数化的三阶段双目深度估计的方法及装置,旨在解决基于重参数化的三阶段双目深度估计。
[0005]本专利技术提供一种基于重参数化的三阶段双目深度估计的方法,包括:
[0006]S1、利用基于MobileOne重参数化模块的特征提取器将输入图像对做特征提取,获得相对于输入图像1/4、1/8和1/16分辨率的特征图;
[0007]S2、使用获得的1/16分辨率特征图来构建分组相关成本量;
[0008]S3、分组相关成本量通过带有三维卷积的代价聚合网络后,得到聚合后的匹配成本量;
[0009]S4、聚合后的匹配成本量通过基于方差的视差回归网络生成1/16分辨率的粗估计视差图,并通过双线性插值上采样成全尺寸,得到第一阶段视差图;
[0010]S5、第一阶段1/16分辨率的粗估计视差图通过双线性插值上采样成1/8分辨率的视差图,并通过视差范围不确定性估计网络生成视差样本,使用该视差样本、左图特征和扭曲的右图像特征构建距离相关成本量,距离相关成本量通过带有二维卷积的代价聚合网络后,得到聚合后的匹配成本量,聚合后的匹配成本量通过基于方差的视差回归网络生成1/8分辨率的微粗估计视差图,并再次通过双线性插值上采样成全尺寸,得到第二阶段视差图;
[0011]S6、重复S5得到1/4分辨率的精估计视差图,并通过双线性插值上采样成全尺寸,得到第三阶段视差图;
[0012]S7、在大型虚拟数据集SceneFlow上进行预训练,然后在混合的KITTI2012和KITTI 2015训练集上进行微调,并在KITTI的验证集上进行验证结果,最后将结果上传至KITTI官网进行测试,使用Adam优化器进行优化模型;
[0013]S8、利用TensorRT对优化后的模型进行推理加速。
[0014]本专利技术实施例还提供一种基于重参数化的三阶段双目深度估计的装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法的步骤。
[0015]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述方法的步骤。
[0016]采用本专利技术实施例,通过提供的基于重参数化模块的特征提取器、分阶段构建成本量、二维卷积的代价聚合网络和TensorRT优化模型,能够在边缘设备上获得高精度的视差估计结果。
[0017]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0018]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术基于重参数化的三阶段双目深度估计的方法的整体框架示意图;
[0020]图2是本专利技术基于重参数化的三阶段双目深度估计的方法的特征提取器示意图;
[0021]图3是本专利技术基于重参数化的三阶段双目深度估计的方法的重参数模块内部结构示意图;
[0022]图4是本专利技术基于重参数化的三阶段双目深度估计的方法的代价聚合网络示意图;
[0023]图5是本专利技术基于重参数化的三阶段双目深度估计的系统示意图。
具体实施方式
[0024]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于重参数化的三阶段双目深度估计的方法,其特征在于,包括:S1、利用基于MobileOne重参数化模块的特征提取器将输入图像对做特征提取,获得相对于输入图像1/4、1/8和1/16分辨率的特征图;S2、使用获得的1/16分辨率特征图来构建分组相关成本量;S3、分组相关成本量通过带有三维卷积的代价聚合网络后,得到聚合后的匹配成本量;S4、聚合后的匹配成本量通过基于方差的视差回归网络生成1/16分辨率的粗估计视差图,并通过双线性插值上采样成全尺寸,得到第一阶段视差图;S5、第一阶段1/16分辨率的粗估计视差图通过双线性插值上采样成1/8分辨率的视差图,并通过视差范围不确定性估计网络生成视差样本,使用该视差样本、左图特征和扭曲的右图像特征构建距离相关成本量,距离相关成本量通过带有二维卷积的代价聚合网络后,得到聚合后的匹配成本量,聚合后的匹配成本量通过基于方差的视差回归网络生成1/8分辨率的微粗估计视差图,并再次通过双线性插值上采样成全尺寸,得到第二阶段视差图;S6、重复S5得到1/4分辨率的精估计视差图,并通过双线性插值上采样成全尺寸,得到第三阶段视差图;S7、在大型虚拟数据集SceneFlow上进行预训练,然后在混合的KITTI 2012和KITTI 2015训练集上进行微调,并在KITTI的验证集上进行验证结果,最后将结果上传至KITTI官网进行测试,使用Adam优化器进行优化模型;S8、利用TensorRT对优化后的模型进行推理加速。2.根据权利要求1所述的方法,其特征在于,所述S1具体包括:利用基于MobileOne重参数化模块的特征提取器将输入图像对做特征提取,获得相对于输入图像1/4、1/8和1/16分辨率的特征图;特征提取器第一步通过步长为2,填充为3的7
×
7卷积层对特征图进行卷积,使得特征图的尺寸减小为相对于原始输入图像1/2,再通过四个连续的MobileOne重参数化模块;第二步通过步长为2的2
×
2卷积层将特征图的尺寸减小为相对于原始输入图像1/4,再通过两个连续的MobileOne重参数化模块;重复第二步的操作直至特征图的尺寸减小为相对于原始输入图像1/16,期间不断增大特征通道的大小,MobileOne重参数化模块的步骤包括:第一步通过三个分支,分别为重参数化跳连分支、重参数化卷积分支和重参数化尺度分支,重参数化跳连分支使用了一个BN层;重参数化卷积分支是k个带有一个3
×
3卷积层和一个BN层的模块;重参数化尺度分支使用了一个3
×
3卷积层和一个BN层;之后三个分支相加汇入一个RELU激活函数;第二步从第一步RULU激活函数输出,通过两个分支,分别为重参数化跳连分支和重参数化卷积分支,重参数化跳连分支使用了一个BN层;重参数化卷积分支是k个带有一个3
×
3卷积层和一个BN层的模块;之后两个分支相加汇入一个RELU激活函数输出最终结果。3.根据权利要求2所述的方法,其特征在于,所述S2具体包括:将左图特征和右图特征划分为若干组,然后逐组计算相关图,这可以获得多个相关成本量匹配方案,最后将该匹配方案合并成一个分组相关成本量,分组相关成本量Cgwc的具体公式分别为:
其中,<
·

·
>表示计算两个特征之间的内积,d表示视差,x和y...

【专利技术属性】
技术研发人员:严一尔夏树辉
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1