System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于立体匹配以及双目深度估计领域。
技术介绍
1、随着社会的不断进步和人工智能技术的快速发展,自主智能机器人受到了广泛关注。移动机器人作为自主智能机器人的一种,应用领域众多,如仓储物流、自动驾驶、服务机器人等。以往的机器人的工作一般是按照预先设置好的轨迹,在已知环境中的效果较好,但对于未知的环境往往难以处理。机器人如何感知新的环境成为一个非常重要的问题。
2、视觉在人类对于环境场景中信息的获取上有着极为重要的作用,大概占总信息获取量的百分之七十五以上。通过视觉,人类可以知道所处环境的三维相关信息,从而可以判断该环境中所有物体的形状、大小和位置等信息,所以将视觉传感器应用于机器人是一个必不可少的环节,亦即机器视觉。机器视觉的目标是通过相机模拟人的眼睛来认知并探索世界,其最重要亦为最基本的一步是对外部世界信息的获取,视觉传感器主要有单目相机、双目相机和rgb-d相机。单目相机无法单独地从一幅图像中恢复出周围环境的尺度信息,rgb-d相机在室外环境中容易受到光照环境的影响,而双目相机可以做到通过数学方法得到准确的尺度信息,使其可以克服rgb-d相机在获得尺度信息时容易受到光线的影响,以及单目相机产生的尺度不一致的问题。
3、然而,现阶段双目视觉领域仍有不少问题亟待解决,例如对于实时性的研究还不够,尤其是如何在实时条件下达到足够的精度,大量算法精度虽高却是舍弃了速度带来的,stereonet虽然足够快但精度相比后来的算法较低,使得算法能真切实际地应用在所需要的场景中;同时对于多尺度特征以及多尺度、多种类
技术实现思路
1、本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
2、为此,本专利技术的目的在于提出一种基于多尺度多种类代价体积的实时立体匹配方法,用于精确地恢复原图大小的视差图结果。
3、为达上述目的,本专利技术第一方面实施例提出了一种基于多尺度多种类代价体积的实时立体匹配方法,包括:
4、获取左右rgb图像;
5、将所述左右rgb图像输入端到端视差预测模型;其中所述端到端视差预测模型包括特征提取模块、代价体积构建模块、代价聚合模块、视差预测模块和视差细化模块;
6、输出视差预测结果。
7、另外,根据本专利技术上述实施例的一种基于多尺度多种类代价体积的实时立体匹配方法还可以具有以下附加的技术特征:
8、进一步地,在本专利技术的一个实施例中,所述将所述左右rgb图像输入端到端视差预测模型,包括:
9、通过所述特征提取模块从所述左右rgb图像中获取三个尺度的特征图;
10、通过所述代价体积构建模块在所述三个尺度上分别融合左右rgb图像的特征图,获得所述三个尺度大小的代价体积;
11、通过所述代价聚合模块对最小尺度的代价体积用3d卷积进行聚合;
12、通过所述视差预测模块从聚合后的结果中回归得到粗视差图;
13、通过所述视差细化模块对所述粗视差图使用双线性上采样和卷积来放大和优化视差值。
14、进一步地,在本专利技术的一个实施例中,所述通过所述特征提取模块从所述左右rgb图像中获取三个尺度的特征图,包括:
15、将输入的大小为h×w×3的rgb图像,通过步长为3的7×7卷积,其中苏所述7×7卷积的batchnorm和relu激活函数缩小尺度至三分之一大小、通道数调整为32,获得三分之一尺度的第一层特征图,大小为h/3×w/3×128;
16、将所述第一层特征图经过4个瓶颈结构,其中所述4个瓶颈结构只有第1个步长为2、输入通道数为128、输出通道数为256,其余3个步长均为1、输入通道数和输出通道数均为256,所有瓶颈内部通道数均为64,获得第二层特征图,大小为h/6×w/6×256;
17、将所述第二层特征图经过6个瓶颈结构,其中所述6个瓶颈结构只有第1个步长为2、输入通道数为256、输出通道数为512,其余5个步长均为1、输入通道数和输出通道数均为512,所有瓶颈内部通道数均为128,且所述6个瓶颈结构中的卷积为可变形卷积,获得第三层特征图,大小为h/12×w/12×512;
18、在自底向上获得三个尺度的特征图后,还包括:
19、将所述第三层特征图经过1×1卷积将通道数从512调整到128,然后经过3×3卷积、batchnorm和relu激活函数构成特征金字塔网络的第一层输出;将所述第二层特征图经过1×1卷积将通道数从256调整到128后,和所述第一层输出经过2倍的最邻近上采样后直接相加,再经过3×3卷积、batchnorm和relu激活函数构成第二层输出;
20、将所述第三层特征图经过1×1卷积将通道数保持在128后,和所述第二层输出经过2倍的最邻近上采样后直接相加,再经过3×3卷积、batchnorm和relu激活函数构成第三层输出;此时特征金字塔网络的输出仍为三个同样尺度的特征图,即1/3、1/6、1/12,但通道数均调整至128。
21、进一步地,在本专利技术的一个实施例中,所述通过所述代价体积构建模块在所述三个尺度上分别融合左右rgb图像的特征图,获得所述三个尺度大小的代价体积,包括:
22、对三个尺度上最低分辨率的特征图通过作差法构建四维的代价体积,对另外两对分辨率的特征图则使用相关性法做内积分别获得三维的代价体积。
23、进一步地,在本专利技术的一个实施例中,所述通过所述代价聚合模块对最小尺度的代价体积用3d卷积进行聚合,包括:
24、将最低分辨率的四维代价体积输入多个3d卷积块去滤波代价体积;
25、将滤波代价体积得到的结果输入不带batchnorm和激活函数的单独卷积层,通道数为1,即在每个像素处每个候选视差产生一维输出。
26、进一步地,在本专利技术的一个实施例中,所述通过所述视差预测模块从聚合后的结果中回归得到粗视差图,包括:
27、选择软argmin方法从聚合后的结果中回归得到粗视差图。
28、进一步地,在本专利技术的一个实施例中,所述通过所述视差细化模块对所述粗视差图使用双线性上采样和卷积来放大和优化视差值,包括:
29、使用三次上采样分层次地细化视差图,其中第一次的输入通道数为36,包含缩小到h/6×w/6×3的原rgb图像、放大至h/6×w/6的粗视差图和h/6×w/6×32大小的代价体积;第二次的输入通道数为68,包含缩小到h/3×w/3×3的原rgb图像、放大至h/6×w/6×1的粗视差图和h/3×w/3×64大小的代价体积;第三次拼接rgb原图和视差图,输入通道数为4;
30、其中,每次对输入首先通过3×3卷积层将输出通道数调整为32,然后通过6个残差块,同样采用3×3卷积,batchnorm和leaky relu激活函数,通道数保持32,步长均为1。
本文档来自技高网...
【技术保护点】
1.一种基于多尺度多种类代价体积的实时立体匹配方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述将所述左右RGB图像输入端到端视差预测模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述通过所述特征提取模块从所述左右RGB图像中获取三个尺度的特征图,包括:
4.根据权利要求2所述的方法,其特征在于,所述通过所述代价体积构建模块在所述三个尺度上分别融合左右RGB图像的特征图,获得所述三个尺度大小的代价体积,包括:
5.根据权利要求2所述的方法,其特征在于,所述通过所述代价聚合模块对最小尺度的代价体积用3D卷积进行聚合,包括:
6.根据权利要求2所述的方法,其特征在于,所述通过所述视差预测模块从聚合后的结果中回归得到粗视差图,包括:
7.根据权利要求2所述的方法,其特征在于,所述通过所述视差细化模块对所述粗视差图使用双线性上采样和卷积来放大和优化视差值,包括:
8.根据权利要求1所述的方法,其特征在于,所述输入端到端视差预测模型采用平滑L1损失函数进行训练。
>9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8中任一所述的基于多尺度多种类代价体积的实时立体匹配方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任意一项所述的基于多尺度多种类代价体积的实时立体匹配方法。
...【技术特征摘要】
1.一种基于多尺度多种类代价体积的实时立体匹配方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述将所述左右rgb图像输入端到端视差预测模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述通过所述特征提取模块从所述左右rgb图像中获取三个尺度的特征图,包括:
4.根据权利要求2所述的方法,其特征在于,所述通过所述代价体积构建模块在所述三个尺度上分别融合左右rgb图像的特征图,获得所述三个尺度大小的代价体积,包括:
5.根据权利要求2所述的方法,其特征在于,所述通过所述代价聚合模块对最小尺度的代价体积用3d卷积进行聚合,包括:
6.根据权利要求2所述的方法,其特征在于,所述通过所述视差预测模块从聚合...
【专利技术属性】
技术研发人员:张金会,吕千一,张亚凯,魏嘉桐,蔡吉山,李思杭,孟焕,邵之玥,赵凯,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。