当前位置: 首页 > 专利查询>上海大学专利>正文

面向多视角视觉系统的深度估计方法、电子设备及介质技术方案

技术编号:35533727 阅读:18 留言:0更新日期:2022-11-09 14:58
本发明专利技术公开了一种面向多视角视觉系统的深度估计方法、电子设备及介质,涉及多视角视觉系统深度估计技术领域,该方法主要包括将目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中,得到用于估计场景深度值的视差图;其中,面向多视角图像修复的深度估计模型包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。本发明专利技术能够准确估计场景深度值,为无人系统实现高精度场景深度估计提供可靠技术。场景深度估计提供可靠技术。场景深度估计提供可靠技术。

【技术实现步骤摘要】
面向多视角视觉系统的深度估计方法、电子设备及介质


[0001]本专利技术涉及多视角视觉系统深度估计
,特别是涉及一种面向多视角视觉系统的深度估计方法、电子设备及计算机可读存储介质。

技术介绍

[0002]近年来,随着计算机、无线通讯等技术的飞速发展以及人工智能方法在各个领域的成功应用,以无人车、无人机和无人艇为代表的无人系统顺应时代发展的浪潮,愈发成为重点研究对象。无人系统对未知场景的感知需要借助各种传感器,如激光雷达、毫米波雷达和视觉传感器等。考虑到各种传感器本身存在的优缺点以及保障无人系统的稳定性和安全性,无人系统通常会搭载多种不同类型的传感器实现场景的全方位感知。同时,为了获得丰富的场景结构信息以增强场景信息的还原能力,无人系统通常需要搭载视觉传感器。
[0003]由于视觉传感器的透镜长期与外界接触,其镜头表面极容易被沙尘、水渍等污渍遮挡而导致场景信息缺失,这些外界不可控因素极大降低相机的成像质量,导致无人系统对外界复杂环境的感知出现偏差,影响无人系统决策的正确性,甚至导致事故的发生。为了保障视觉系统数据采集的准确性和高场景还原性,采用基于多视角的图像修复方法对污损图像进行修复。然而,经过修复的图像无法提供自身与环境中物体间的距离信息,容易导致无人系统与周围环境发生碰撞。为了避免与场景发生碰撞,无人系统需要实时测量自身与场景中的物体的距离,从而与场景中的物体保持一定的距离。因此,需要一种在多视角图像修复的基础上测量无人系统与场景中物体的距离的方法。

技术实现思路

[0004]为了解决具有多视角的无人系统与场景中物体的距离测量问题,本专利技术提供了一种面向多视角视觉系统的深度估计方法、电子设备及介质。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]第一方面,本专利技术提供了一种面向多视角视觉系统的深度估计方法,包括:
[0007]获取经过修复的目标视角图像和辅助视角图像;
[0008]将所述目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中,得到视差图;所述视差图用于估计场景深度值;
[0009]所述面向多视角图像修复的深度估计模型包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。
[0010]可选地,所述基于可变形卷积和空洞金字塔卷积的特征提取模块为U型网络结构;所述U型网络结构的主干部分为编码器

解码器结构;
[0011]所述编码器

解码器结构包括依次连接的编码器、连接层以及解码器;
[0012]所述编码器包括多个编码层,所述解码器包括多个解码层,且每个所述编码层和所述解码层均嵌入有与可变形卷积结合的残差模块;所述连接层嵌入有膨胀率递增的空间
金字塔卷积。
[0013]可选地,所述编码器用于对所述目标视角图像和所述辅助视角图像进行处理,得到编码器输出结果;
[0014]所述连接层用于采用膨胀率递增的空间金字塔卷积对所述编码器输出结果并行处理,并将并行处理后得到的不同支路的输出结果沿通道方向进行拼接融合,得到融合结果;
[0015]所述解码器用于对所述融合结果进行处理,得到不同分辨率的目标视角特征图和辅助视角特征图。
[0016]可选地,所述基于多尺度结构的匹配代价计算模块,用于将所述基于可变形卷积和空洞金字塔卷积的特征提取模块输出的多对特征图分别进行初始匹配代价计算,得到多个初始匹配代价体;
[0017]所述初始匹配代价体的个数与所述特征图的对数相同,且每对所述特征图均包括目标视角特征图以及所述目标视角特征图对应的辅助视角特征图;其中,不同对的特征图对应不同的分辨率,不同的所述初始匹配代价体对应不同的尺度。
[0018]可选地,所述初始匹配代价体的计算过程为:
[0019]当搜索的视差k为0时,将所述目标视角特征图以及对应的所述辅助视角特征图逐通道进行对应元素相乘,构建视差为0的单视差代价体;
[0020]当搜索的视差k大于0且小于最大视差值时,将所述目标视角特征图在宽度方向上的像素与所述目标视角特征图对应的所述辅助视角特征图在宽度方向上的像素的相似性,并基于所述相似性构建视差为k的单视差代价体;
[0021]将不同视差的单视差代价体组合,得到初始匹配代价体。
[0022]可选地,所述基于自注意力机制的多尺度代价聚合模块用于对所述基于多尺度结构的匹配代价计算模块输出的不同尺度的初始匹配代价体进行代价聚合操作,得到多个聚合代价体特征图;
[0023]所述基于自注意力机制的多尺度代价聚合模块至少包括三个分支,其中,第一分支和第二分支均包括依次连接的编码器、自注意力机制模块以及解码器,第三分支包括依次连接的编码器和解码器;
[0024]所述编码器由步长为2的堆叠的残差3D卷积模块串联而成;所述解码器由上采样率为2的堆叠的3D转置卷积串联而成。
[0025]可选地,所述自注意力机制模块,用于:
[0026]利用三个不共享参数的1
×
1的3D卷积核对经过所述编码器处理的初始匹配代价体进行预处理,得到三个代价体Q、代价体K、代价体V;
[0027]将所述代价体Q、所述代价体K和所述代价体V分别进行维度变换得到代价体Q

、代价体K

和代价体V


[0028]对所述代价体Q

和所述代价体K

进行矩阵乘法处理,得到代价体所有取样点的相关关系描述矩阵S;
[0029]利用softmax函数将所述相关关系描述矩阵S横向方向的数值映射为权重序列,得到代价注意力图S


[0030]将所述代价体V

与所述代价注意力图S

进行矩阵乘法操作,得到加权后的代价
体;
[0031]采用维度变换还原加权后的代价体的维度,得到输出结果O,并将所述输出结果O输入至所述解码器。
[0032]可选地,所述视差回归操作模块,用于:
[0033]采用三线性插值法将所述基于自注意力机制的多尺度代价聚合模块输出的降采样率为k的聚合代价体特征图放大k倍;
[0034]采用softmax函数对放大后的聚合代价体特征图进行归一化操作,得到权重化的代价体;
[0035]将所述权重化的代价体沿着所述权重化的代价体的视差维度与离散的视差搜索范围[0,D
max
/k)内进行加权求和,得到最终的视差图;D
max
为视差搜索范围的最大值。
[0036]第二方面,本专利技术提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据第一方面所述的面向多视角视觉系统的深度估计方法。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向多视角视觉系统的深度估计方法,其特征在于,包括:获取经过修复的目标视角图像和辅助视角图像;将所述目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中,得到视差图;所述视差图用于估计场景深度值;所述面向多视角图像修复的深度估计模型包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。2.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述基于可变形卷积和空洞金字塔卷积的特征提取模块为U型网络结构;所述U型网络结构的主干部分为编码器

解码器结构;所述编码器

解码器结构包括依次连接的编码器、连接层以及解码器;所述编码器包括多个编码层,所述解码器包括多个解码层,且每个所述编码层和所述解码层均嵌入有与可变形卷积结合的残差模块;所述连接层嵌入有膨胀率递增的空间金字塔卷积。3.根据权利要求2所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述编码器用于对所述目标视角图像和所述辅助视角图像进行处理,得到编码器输出结果;所述连接层用于采用膨胀率递增的空间金字塔卷积对所述编码器输出结果并行处理,并将并行处理后得到的不同支路的输出结果沿通道方向进行拼接融合,得到融合结果;所述解码器用于对所述融合结果进行处理,得到不同分辨率的目标视角特征图和辅助视角特征图。4.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述基于多尺度结构的匹配代价计算模块,用于将所述基于可变形卷积和空洞金字塔卷积的特征提取模块输出的多对特征图分别进行初始匹配代价计算,得到多个初始匹配代价体;所述初始匹配代价体的个数与所述特征图的对数相同,且每对所述特征图均包括目标视角特征图以及所述目标视角特征图对应的辅助视角特征图;其中,不同对的特征图对应不同的分辨率,不同的所述初始匹配代价体对应不同的尺度。5.根据权利要求4所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述初始匹配代价体的计算过程为:当搜索的视差k为0时,将所述目标视角特征图以及对应的所述辅助视角特征图逐通道进行对应元素相乘,构建视差为0的单视差代价体;当搜索的视差k大于0且小于最大视差值时,将所述目标视角特征图在宽度方向上的像素与所述目标视角特征图对应的所述辅助视角特征图在宽度方向上的像素的相似性,并基于所述相似性构建视差为k的单视差代价体;将不同视差的单视差代价体组合,得到初始匹配代价体。6.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述基...

【专利技术属性】
技术研发人员:李恒宇许晓俊刘靖逸谢永浩王曰英谢少荣罗均
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1