用于基于立体视觉的3D对象检测与分割的方法和装置制造方法及图纸

技术编号:37724310 阅读:18 留言:0更新日期:2023-06-02 00:26
提供了一种用于3D对象检测与分割的方法、装置和系统。该方法包括以下步骤:基于由多个相机捕获的多视图图像来提取多视图2D特征;基于多视图2D特征来生成3D特征体;以及基于3D特征体来执行深度估计、语义分割和3D对象检测。本公开的方法、装置和系统较快、计算友好、灵活,并且较实用于部署在车辆、无人机、机器人、车辆、移动设备或移动通信设备上。移动设备或移动通信设备上。移动设备或移动通信设备上。

【技术实现步骤摘要】
【国外来华专利技术】用于基于立体视觉的3D对象检测与分割的方法和装置


[0001]本公开总体上涉及图像模式识别,更具体地,涉及一种用于基于立体视觉的三维(3D)对象检测与分割的方法和装置。

技术介绍

[0002]3D环境的感知在机器人技术中至关重要,尤其是在自动驾驶、无人机和无人地面车辆中。为了获得3D信息,研究了基于单目(monocular)视觉系统、立体视觉系统和LiDAR(光检测和测距)点云的方法,但尚未完全应用。单目视觉系统在最近的NN(神经网络)技术的帮助下发展迅速,但很难估计准确的3D信息。立体视觉,包括多视图立体视觉,是一个经典的计算机视觉主题,它可以使用核线(epipolar)几何给出较准确的3D信息。与基于相机的视觉系统并行,各种NN模型也已经被设计用于从由LiDAR设备获得的点云中检测3D对象。
[0003]CNN(卷积神经网络)技术一直在帮助近年来发展迅速的那三类方法。2D CNN广泛应用于基于单目的算法,并且是2D对象检测和分割中的主导技术。3D CNN是在基于LiDAR的方法中检测或分割3D对象的常见选择。在立体视觉方法中,CNN技术在深度估计和3D对象检测方面显示出其巨大潜力,但在同步3D对象检测和分割方面几乎没有得到充分研究。
[0004]现有技术中的一些解决方案高度依赖由LiDAR捕获的精确3D信息,并以端到端的方式提供点云序列中的3D检测、跟踪和运动预测。例如,语义SLAM(同时定位和映射)方法(其侧重于构建具有语义标签的高分辨率地图)只能执行语义分割,并且主要基于单目视觉系统。
>[0005]一些技术相应地在单目视觉、立体视觉和LiDAR系统中执行3D对象检测。例如,SMOKE是一种单个单目3D对象检测器,它在KITTI数据集上得到验证,具有9.76%的AP(平均精度)。DSGN网络是最近用于可以实现52.18%的AP的立体视觉系统的3D对象检测器。
[0006]由于缺乏深度维度,已知的基于视觉的2D感知很难扩展到那些3D应用。可以提供精确3D坐标的LiDAR既不适合大规模生产,也不能像相机那样捕获视觉特征。因此,立体视觉系统在满足各种自主机器人和车辆的3D感知需求方面具有巨大潜力。
[0007]此外,没有很多能够同时检测和分割3D对象的现有方法。具有较快速度和较多功能的3D对象检测和分割系统是先进的自主机器人和车辆的未来需求。
[0008]因此,需要改进用于基于立体视觉的3D对象检测和分割的方法和装置。

技术实现思路

[0009]为了克服上述问题,并克服在阅读和理解现有技术时显而易见的局限性,本公开的实施例提供了一种用于3D对象检测和分割的方法、装置和系统。
[0010]根据本公开的第一方面,提供了一种用于3D对象检测和分割的方法。该方法包括:基于由多个相机捕获的多视图图像来提取多视图2D特征;基于多视图2D特征来生成3D特征体;以及基于3D特征体来执行深度估计、语义分割和3D对象检测。
[0011]根据本公开的第二方面,提供了一种用于3D对象检测和分割的装置。该装置包括:
多视图2D特征提取模块,被配置为基于由多个相机捕获的多视图图像来提取多视图2D特征;3D特征体生成模块,被配置为基于多视图2D特征来生成3D特征体;以及3D对象检测与分割模块,被配置为基于3D特征体来执行深度估计、语义分割和3D对象检测。
[0012]根据本公开的第三方面,提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质存储指令,这些指令在由一个或多个处理器执行时使处理器执行如上所述的方法。
[0013]根据本专利技术的第四方面,提供了一种包括上述装置的车辆或移动通信设备。
[0014]根据本专利技术的第五方面,提供了一种用于3D对象检测和分割方法。该方法包括:接收由多个相机捕获的多视图图像;使用经训练的神经网络用于:基于多视图图像来提取多视图2D特征,基于多视图2D特征来生成3D特征体,以及基于3D特征体来执行深度估计、语义分割和3D对象检测。
[0015]根据本公开的第六方面,提供了一种用于3D对象检测和分割的装置。该装置包括:至少一个处理器;至少一个存储器,包括计算机程序代码;其中至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使装置至少:接收由多个相机捕获的多视图图像;并且使用至少存储在至少一个存储器中的经训练的神经网络来基于多视图图像提取多视图2D特征,基于多视图2D特征生成3D特征体,以及基于3D特征体执行深度估计、语义分割和3D对象检测。
[0016]本公开提供的方法、装置和系统涉及用于各种车辆、机器人、无人机、船舶、移动设备和/或移动通信设备的视觉感知系统。它基于混合的2D和3D CNN模型设计来估计深度、对像素进行分类(语义分割)、检测3D对象并在立体视觉中分割3D实例,这是使用传统CNN模型无法完成的。与大多数现有的基于LiDAR点云的3D对象检测器相对照,根据本公开实施例的系统是基于立体视觉系统(包括双目(binocular)立体和多视图立体)。不同于现有的2D对象检测和分割方法在图像坐标系上给出结果,本公开的方法、装置和系统直接在笛卡尔坐标系上输出3D检测和分割结果。
[0017]从系统集成的角度来看,本专利技术的方法、装置和系统比现有技术更实用、更灵活、更具扩展性。用于3D检测和分割的统一CNN模型设计可引起快速推理,并使其可以集成到应用中,诸如实时自主应用。本公开的解决方案可以灵活地检测任何高度的3D对象实例,而不是像大多数现有方法那样仅仅检测地面上的对象。此外,公开的CNN模型是端到端可训练的。
[0018]本公开的其他方面、特征和优点从以下详细描述中显而易见,仅通过示出多个特定实施例和实现,包括预期用于执行本公开的最佳模式。本公开还能够有其他和不同的实施例,并且在不脱离本公开的精神和范围的情况下,可以在各种明显的方面修改其若干细节。因此,附图和描述应被视为本质上是说明性的,而不是限制性的。
附图说明
[0019]本公开的示例性实施例以示例的方式而非以限制的方式在附图中示出:
[0020]图1示出了根据本公开的实施例的用于基于立体视觉的3D对象检测和分割的总体CNN架构的示例图;
[0021]图2示出了根据本专利技术实施例的基于立体视觉的3D对象检测和分割方法的示例性
流程图;
[0022]图3示出了根据本公开实施例的用于基于立体视觉的3D对象检测和分割在车辆中的示例性应用;
[0023]图4示出了根据本公开实施例的用于基于立体视觉的3D对象检测和分割在终端设备或客户端设备中的另一种应用;以及
[0024]图5示出了根据本公开实施例的用于实现用于基于立体视觉的3D对象检测和分割的方法的示例性计算机系统或装置。
具体实施方式
[0025]本公开包括本文中明确公开的任何新特征或特征的组合或其任何概括。当结合附图阅读上述描述时,本公开的上述示例性实施例的各种修改和适配对于相关领域的技术人员来说可能变得显而易见。本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于3D对象检测与分割的方法,包括:基于由多个相机捕获的多视图图像来提取多视图2D特征;基于所述多视图2D特征来生成3D特征体;以及基于所述3D特征体来执行深度估计、语义分割和3D对象检测。2.根据权利要求1所述的方法,其中基于由所述多个相机捕获的所述多视图图像提取所述多视图2D特征由两个或更多个具有特征提取的ResNet

FPN网络执行。3.根据权利要求2所述的方法,其中所述ResNet

FPN网络中的每个ResNet

FPN网络包括ResNet网络和对应的FPN网络,并且被配置为基于由所述多个相机中的相应一个相机捕获的多视图图像来提取多视图2D特征。4.根据权利要求3所述的方法,其中所述ResNet

FPN网络中的每个ResNet

FPN网络的所述ResNet网络包括多个卷积层组,所述ResNet

FPN网络中的每个ResNet

FPN网络的所述对应的FPN网络包括多个卷积层组,所述ResNet网络的每个卷积层组的输出连接到所述对应的FPN网络的对应卷积层组的输入,以用于处理具有与所述ResNet网络的所述卷积层组相同的分辨率的特征图。5.根据权利要求4所述的方法,其中所述ResNet

FPN网络中的每个ResNet

FPN网络的所述ResNet网络的第一卷积层组没有用于处理所述特征图的所述对应的FPN网络的对应的卷积层组,所述特征图具有与对应的所述ResNet网络的所述第一卷积层组相同的分辨率。6.根据权利要求1所述的方法,其中基于所述多视图2D特征来生成所述3D特征体还包括:基于提取的所述多视图2D特征来生成3D特征体金字塔;以及基于所述3D特征体金字塔来生成最终版本的所述3D特征体。7.根据权利要求6所述的方法,其中基于提取的所述多视图2D特征来生成所述3D特征体金字塔还包括:基于提取的所述多视图2D特征,生成2D特征金字塔,其中所述2D特征金字塔包括多个2D特征元素,所述2D特征元素中的每个2D特征元素是由相应的FPN网络输出以用于处理具有相同分辨率的特征图的提取的多视图2D特征集合,并且所述提取的多视图2D特征的数目与所述多个相机的数目相对应;将所述多个2D特征元素中的每个2D特征元素转换为所述3D特征体;以及基于所述3D特征体来生成所述3D特征体金字塔,其中所述3D特征体金字塔包括多个3D特征体元素,所述多个3D特征体元素中的每个3D特征体元素是从所述2D特征金字塔的相应2D特征元素转换的所述3D特征体。8.根据权利要求7所述的方法,其中所述多个2D特征元素中的每个2D特征元素到所述3D特征体的所述转换还包括:从图像视锥坐标系到世界3D坐标系对所述2D特征元素中的每个2D特征元素应用逆投影;以及基于所述2D特征元素中的每个2D特征元素的所述世界3D坐标,并且基于所述多个相机中的相应一个相机的内参和外参矩阵,通过应用平面扫描算法来构造所述3D特征体。9.根据权利要求6所述的方法,其中基于所述3D特征体金字塔来生成最终版本的所述3D特征体还包括:
通过使用与所述3D特征体元素的相同分辨率相对应的3D沙漏网络,来处理所述3D特征体元素中的每个3D特征体元素;以及聚合所述3D沙漏网络,以生成所述最终版本的所述3D特征体。10.根据权利要求1所述的方法,其中由并行连接并且共享所述3D特征体作为输入的深度估计网络、语义分割网络和3D对象检测网络,基于所述3D特征体来执行所述深度估计、所述语义分割和所述3D对象检测。11.根据权利要求10所述的方法,其中所述深度估计网络包括:3D卷积层组,被配置为生成3D特征图;软最大值层,被配置为基于所述3D特征图来输出不同深度尺度的深度估计;以及软极参层,被配置为根据不同深度尺度的所述深度估计生成加权深度估计。12.根据权利要求10所述的方法,其中所述语义分割网络包括:整形层组,被配置为将所述3D特征体的所述深度特征转换为非维度特征;2D卷积层,被配置为基于所述3D特征体的残差二维特征以及所述非维度特征来输出分割类型;以及软最大值层,被配置为输出针对所述多视图图像中的每个像素的所述分割类型。13.根据权利要求12所述的方法,其中所述2D卷积层还被配置为:基于所述3D特征体的所述残差二维特征、以及所述非维度特征、和由所述深度估计网络的所述软最大值层输出作为另一个非维度特征的所述深度估计,来输出分割类型。14.根据权利要求10所述的方法,其中所述3D对象检测网络被配置为生成所述3D对象的分类、质心预测和形状回归。15.根据权利要求14所述的方法,其中所述3D对象检测网络是以无锚方式。16.根据权利要求14所述的方法,其中所述3D对象检测网络还包括3D沙漏网络,以首先处理所述3D特征体。17.根据权利要求1所述的方法,还包括后处理步骤以提供3D实例分割结果。18.根据权利要求2至17中任一项所述的方法,其中所述网络中的所有网络的参数基于训练数据被训练。19.根据权利要求18所述的方法,其中用于所述ResNet

FPN网络的所述参数被彼此共享。20.根据权利要求1至19中任一项所述的方法,其中所述方法在以下至少一项上被实现:车辆、无人机、机器人、移动设备或移动通信设备。21.一种用于3D对象检测与分割的装置,包括:多视图2D特征提取模块,被配置为基于由多个相机捕获的多视图图像来提取多视图2D特征;3D特征体生成模块,被配置为基于所述多视图2D特征来生成3D特征体;以及3D对象检测与分割模块,被配置为基于所述3D特征体来执行深度估计、语义分割和3D对象检测。22.根据权利要求21所述的装置,其中所述多视图2D特征提取模块包括两个或更多个具有特征提取的ResNet

FPN网络。23.根据权利要求22所述的装置,其中所述ResNet

FPN网络中的每个ResNet

FPN网络
包括ResNet网络和对应的FPN网络,并且被配置为基于由所述多个相机中的相应一个相机捕获的多视图图像来提取多视图2D特征。24.根...

【专利技术属性】
技术研发人员:孙汉卿
申请(专利权)人:诺基亚技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1