三维对象检测制造技术

技术编号：34759711 阅读：9 留言：0更新日期：2022-08-31 18:58

根据本公开的实现，提出了一种用于三维对象检测的方案。在该方案中，从关于三维对象的点云数据中提取多个点的特征表示。基于多个点的特征表示，确定一组候选三维对象的初始特征表示。基于多个点的特征表示和一组候选三维对象的初始特征表示，通过确定一组候选三维对象之间的自相关性以及多个点和一组候选三维对象之间的互相关性，来生成三维对象的检测结果。以此方式，该方案能够在无需将点聚合到候选对象中的情况下，仅基于点云中的各个点与候选三维对象之间的相关性以及候选三维对象之间的相关性来定位和标识三维场景中的三维对象。象。象。

全部详细技术资料下载

【技术实现步骤摘要】
三维对象检测

技术介绍

[0001]三维对象检测用于在三维场景中定位并识别场景中包含的三维对象，例如行人、车辆、物品等。目前，三维对象检测在诸如自动驾驶、机器人控制、增强现实等应用中发挥重要作用。在常规的三维对象检测方法中，通常利用不规则的、稀疏的点云来描述三维场景以及场景中的三维对象。因此，很难将基于规则网格的二维对象检测方法直接应用到三维对象检测中。基于此，需要能够针对三维场景来进行对象检测的方法。

技术实现思路

[0002]根据本公开的实现，提出了一种用于三维对象检测的方案。在该方案中，从关于三维对象的点云数据中提取多个点的特征表示，每个点的特征表示包括点的位置信息和外观特征。基于多个点的特征表示，确定一组候选三维对象的初始特征表示。每个候选三维对象的初始特征表示包括候选三维对象的位置特征和外观特征。基于多个点的特征表示和一组候选三维对象的初始特征表示，通过确定一组候选三维对象之间的自相关性以及多个点和一组候选三维对象之间的互相关性，来生成三维对象的检测结果。以此方式，该方案能够在无需将点聚合到候选对象中的情况下，仅基于点云中的各个点与候选三维对象之间的相关性以及候选三维对象之间的相关性来定位和标识三维场景中的三维对象。
[0003]提供
技术实现思路
部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。
附图说明
[0004]图1示出了能够实施本公开的多个实现的计算设备的框图；r/>[0005]图2示出了根据本公开的实现的用于三维对象检测的系统架构图；
[0006]图3示出了根据本公开的实现的利用第一注意力模块生成第一组候选检测结果的过程的示意图；
[0007]图4示出了根据本公开的实现的从至少一组候选检测结果中确定检测结果的过程的示意图；以及
[0008]图5示出了根据本公开的实现的用于三维对象检测的方法的流程图；
[0009]这些附图中，相同或相似参考符号用于表示相同或相似元素。
具体实施方式
[0010]现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本公开的范围的任何限制。
[0011]如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解
读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0012]如本文所使用的，“神经网络”能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而延长网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。CNN是一种类型的神经网络，包括一个或多个卷积层，用于对各自的输入执行卷积操作。CNN可以用于在各种场景中，特别适合于处理图像或视频数据。在本文中，术语“神经网络”、“网络”和“神经网络模型”可替换地使用。
[0013]如上所述，由于通常利用不规则的、稀疏的点云来描述三维场景以及三维对象，因此难以将基于规则网格的二维对象检测方法直接应用到三维对象检测中。基于此，一些针对三维对象检测的方法被提出。在常规的三维对象检测方法中，通常需要利用点聚合(point grouping)步骤来将点云中的特定点聚合到对应的候选对象中。然后，可以根据属于每个候选对象的点来计算相应对象的特征，从而实现在三维场景中定位和标识三维对象。然而，点聚合通常需要人工设置的规则来实现。这些人工规则虽然能够在一定程度上描述点与对象之间的关系，但是并不十分准确。因此，基于人工设置的规则的三维对象检测方法的检测效果需要进一步提升。此外，基于点聚合的三维对象检测方法不能充分地利用点云数据中包含的信息。
[0014]以上讨论了在常规的三维对象检测方案中存在的一些问题。根据本公开的实现，提出了一种用于三维对象检测的方案，旨在解决上述问题以及其他潜在问题中的一个或多个。在该方案中，从关于三维对象的点云数据中提取多个点的特征表示，每个点的特征表示包括点的位置信息和外观特征。基于多个点的特征表示，确定一组候选三维对象的初始特征表示。每个候选三维对象的初始特征表示包括候选三维对象的位置特征和外观特征。基于多个点的特征表示和一组候选三维对象的初始特征表示，通过确定一组候选三维对象之间的自相关性以及多个点和一组候选三维对象之间的互相关性，来生成三维对象的检测结果。以下进一步结合附图来详细描述该方案的各种示例实现。
[0015]图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。
[0016]在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算
设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。
[0017]处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。
[0018]计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(RO本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法，包括：从关于三维对象的点云数据中提取多个点的特征表示，每个点的特征表示包括所述点的位置信息和外观特征；基于所述多个点的特征表示，确定一组候选三维对象的初始特征表示，每个候选三维对象的初始特征表示包括所述候选三维对象的位置特征和外观特征；以及基于所述多个点的特征表示和所述一组候选三维对象的初始特征表示，通过确定所述一组候选三维对象之间的自相关性以及所述多个点和所述一组候选三维对象之间的互相关性，来生成所述三维对象的检测结果。2.根据权利要求1所述的方法，其中生成所述三维对象的检测结果包括：利用至少一个注意力模块，生成所述一组候选三维对象的至少一组候选检测结果；以及从所述至少一组候选检测结果中确定所述三维对象的所述检测结果。3.根据权利要求2所述的方法，其中所述至少一个注意力模块包括第一注意力模块，并且利用所述至少一个注意力模块生成所述至少一组候选检测结果包括：基于所述多个点的特征表示和所述一组候选三维对象的初始特征表示，利用所述第一注意力模块来生成所述至少一组候选检测结果中的第一组候选检测结果。4.根据权利要求3所述的方法，其中生成所述第一组候选检测结果包括：基于所述多个点的特征表示和所述一组候选三维对象的初始特征表示，利用所述第一注意力模块中的自注意力模块，确定所述一组候选三维对象之间的自相关性；基于所确定的自相关性，将所述一组候选三维对象的初始特征表示更新为所述一组候选三维对象的第一组中间特征表示；基于所述第一组中间特征表示和所述多个点的特征表示，利用所述第一注意力模块中的互注意力模块，确定所述一组候选三维对象与所述多个点之间的互相关性；基于所确定的互相关性，将所述第一组中间特征表示更新为所述一组候选三维对象的第一组候选特征表示；以及基于所述第一组候选特征表示，生成所述第一组候选检测结果。5.根据权利要求3所述的方法，其中所述至少一个注意力模块还包括第二注意力模块，并且利用所述至少一个注意力模块生成所述至少一组候选检测结果还包括：基于所述多个点的特征表示和所述第一组候选特征表示，利用所述第二注意力模块来生成所述至少一组候选检测结果中的第二组候选检测结果。6.根据权利要求5所述的方法，其中生成所述第二组候选检测结果包括：基于所述多个点的特征表示和所述第一组候选特征表示，利用所述第二注意力模块中的自注意力模块，确定所述一组候选三维对象之间的自相关性；基于所确定的自相关性，将所述第一组候选特征表示更新为所述一组候选三维对象的第二组中间特征表示；基于所述第二组中间特征表示和所述多个点的特征表示，利用所述第二注意力模块中的互注意力模块，确定所述一组候选三维对象与所述多个点之间的互相关性；基于所确定的互相关性，将所述第二组中间特征表示更新为所述一组候选三维对象的第二组候选特征表示；以及
基于所述第二组候选特征表示，生成所述第二组候选检测结果。7.根据权利要求1所述的方法，其中确定一组候选三维对象的初始特征表示包括：基于所述多个点的特征表示，生成与所述多个点对应的多个候选三维对象的初始特征表示；以及从所述多个候选三维对象的初始特征表示中选择所述一组候选三维对象的初始特征表示。8.根据权利要求1所述的方法，其中所述检测结果指示所述三维对象的位置坐标、几何尺寸、颜色、形状和种类中的至少一项。9.一种电子设备，包括：处理单元；以及存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时，使得所述设备执行动作，所述动作包括：从关于三维对象的点云数据中提取多个点的特征表示，每个点的特征表示包括所述点的位置信息和外观特征；基于所述多个点的特征表示，确定一组候选三维对象的初始特征表示，每个候选三维对象的初始特征表示包括所述候选三维对象的位置特征和外观特征；以及基于所述多个点的特征表示和所述一组候选三维对象的初始特征表示，通过确定所述一组候选三维对象之间的自相关性以及所述多个点和所述一组候选三维对象之间的互相关性，来生成所述三维对象的检测结果。10.根据权利要求9所述的设备，其中生成所述三维对象的检测结果包括：利用至少一个注意...

【专利技术属性】
技术研发人员：张拯，胡瀚，曹越，刘泽，童欣，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人