通过动态物体建模实现基于单目的四维物体检测方法技术

技术编号:37505065 阅读:11 留言:0更新日期:2023-05-07 09:41
本发明专利技术公开一种通过动态物体建模实现基于单目的四维物体检测方法。该方法包括:针对目标图像,以当前帧和前序帧的图片作为输入,提取语义特征,并预测潜在的障碍物位置和速度;提取当前帧的鸟瞰图特征;估计物体的位移,以及前序帧和后序帧的位移,提取前序帧的鸟瞰图特征,获得时序鸟瞰图特征;将多帧的观测信息进行融合,得到出时序上耦合的物体位置和速度,作为预测的物体信息;利用预测的物体信息,通过循环迭代更新物体检测的位置和速度,进而输出当前帧周围障碍物的位置、尺寸、类别以及对应的速度信息,作为检测结果;基于所述检测结果联合进行物体检测和跟踪。本发明专利技术能够更准确的预测物体位置,并同时实现动态障碍物的时序跟踪。序跟踪。序跟踪。

【技术实现步骤摘要】
通过动态物体建模实现基于单目的四维物体检测方法


[0001]本专利技术涉及人工智能
,更具体地,涉及一种通过动态物体建模实现基于单目的四维物体检测方法。

技术介绍

[0002]三维物体检测旨在定位出周围的障碍物,并输出物体的三维位置,尺寸,朝向,以及类别信息。目前,三维物体检测在自动驾驶系统中通常充当前端感知的角色。三维物体检测通过定位出周围的障碍物,并利用跟踪算法将物体在不同时序中关联起来,以此交由后端预测和规划模块进行障碍物未来位置的预测以及自动驾驶车辆决策。
[0003]由于价格便宜,基于单目相机的三维物体检测是目前自动驾驶的主流选择之一。虽然基于单目的检测器具有更稠密以及富有语义的场景信息(如像素),但是无法直接预测物体的三维位置信息。
[0004]在单目情况下,单视角的三维建模是一个歧义的问题:一组成像结果可以是来自不同的物体位置以及物体信息。因此,基于单目的三维建模效果相对受限。相对而言,如果在有多视角观测的情况下,可以通过多视角建模来反推出物体的三维信息。在自动驾驶环境下,虽然单帧的观测只有一个视角的结果,但是可以通过联合多帧的观测构成多视角的结果,以此获得更准确的物体三维信息。
[0005]在现有技术中,单目检测方案主要分为基于Perspective

view(PV,透视图)主视图的三维物体检测和基于Bird

eye

view(BEV,俯视图)鸟瞰图的物体检测。对于基于Perspective

view主视图的三维物体检测,检测器首先利用卷积网络建模物体特征,然后在二维层面上预测物体的二维位置、深度以及相关的尺寸信息等。这种基于PV的三维物体检测能很好地与二维检测器相结合,并且网络结构相对简单。然而,由于是在二维层面进行特征建模,因而不能够很好的结合时序特征来进行物体检测。对于基于鸟瞰图的物体检测,检测器首先抽取二维特征并将特征转换到三维空间,然后直接在三维空间上进行三维物体检测。基于三维空间的特征表达,近期一些研究也可以利用前后帧来做时序信息的融合,以缓解单目的深度预测歧义的问题,并得到更准确的物体定位结果。虽然基于鸟瞰图的物体检测能够更直接的输出预测结果,但是训练时预先定义了检测器的检测距离,导致不能根据实际使用场景做相应的改变。此外,现有方案虽然融合了前后帧的特征,但是其时序特征主要受限于动态物体,普遍不能很好的应对自动驾驶场景里更重要的动态物体。
[0006]综上,现有技术主要存在以下缺陷:
[0007]1)基于PV的检测器不能很好地建模时序上的特征,这是由于仅在二维层面上建模特征,很难直接在几何层面上将前后帧的特征相结合。因此,目前基于PV的方法通过时序建模对检测器提升有限。
[0008]2)目前基于BEV的检测器需要在训练阶段预先定义BEV特征图的大小以及范围。因此,其检测距离也在训练时就已经定义,不能因场景使用而改变检测范围。
[0009]3)目前基于BEV的时序建模方法通常是简单地将前后帧特征图直接拼接起来,忽
略了动态物体在前后帧的位置偏移。因此,这种建模方法得到的时序特征不能很好地反映动态物体的位置信息。
[0010]4)基于单目的感知方案通常采用检测与跟踪分离的架构,此外物体跟踪方案在物体前后帧关联上通常需要额外的特征建模。因此,目前还缺乏一种能够较好的联合物体检测与跟踪的感知方案。

技术实现思路

[0011]本专利技术的目的是克服上述现有技术的缺陷,提供一种通过动态物体建模实现基于单目的四维物体检测方法。该方法包括以下步骤:
[0012]步骤S1:针对目标图像,以当前帧和前序帧的图片作为输入,利用深度学习模型提取图片的语义特征,并预测潜在的障碍物位置信息和速度信息;
[0013]步骤S2:基于所述潜在的障碍物位置信息和速度信息,在潜在区域周围以固定栅格大小建模物体的鸟瞰图特征,以提取出当前帧的鸟瞰图特征;
[0014]步骤S3:利用所述潜在的障碍物位置信息和速度信息估计物体的位移,以及前序帧和后序帧的位移,进而提取出前序帧的鸟瞰图特征,获得时序鸟瞰图特征;
[0015]步骤S4:基于所述时序鸟瞰图特征,将多帧的观测信息进行融合,得到出时序上耦合的物体位置信息和速度信息,作为预测的物体信息;
[0016]步骤S5:利用所述预测的物体信息代替步骤S1的输入,通过循环迭代更新物体检测的位置和速度,进而输出当前帧周围障碍物的位置、尺寸、类别以及对应的速度信息,作为检测结果;
[0017]步骤S6:基于所述检测结果联合进行物体检测和跟踪。
[0018]与现有技术相比,本专利技术的优点在于,针对现有单目三维检测算法在时序建模上无法处理动态障碍物的问题,提出了一种基于循环的动态物体建模方式,并设计了基于单目相机的三维物体检测以及跟踪算法。此外,本专利技术在建模时序特征时,同时考虑了物体的位置以及速度,能够更准确的预测物体位置,并同时实现动态障碍物的时序跟踪。
[0019]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0020]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0021]图1是根据本专利技术一个实施例的通过动态物体建模实现基于单目的四维物体检测方法的流程图;
[0022]图2是根据本专利技术一个实施例的目标检测及跟踪的过程示意图;
[0023]附图中,Preceding frames

前序帧;Current frame

当前帧;Conv

卷积;Video sequence

视频序列;Local volume

本地数据;Fusion

融合;Refined Boxes&Object Motion

改进框和物体运动;Candidate Boxes&Object Motion

候选框和物体运动;Recurrent refinement

循环迭代;Joint detection and tracking

联合检测和跟踪。
具体实施方式
[0024]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0025]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0026]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0027]在这里示出和讨论的所有例子中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通过动态物体建模实现基于单目的四维物体检测方法,包括以下步骤:步骤S1:针对目标图像,以当前帧和前序帧的图片作为输入,利用深度学习模型提取图片的语义特征,并预测潜在的障碍物位置信息和速度信息;步骤S2:基于所述潜在的障碍物位置信息和速度信息,在潜在区域周围以固定栅格大小建模物体的鸟瞰图特征,以提取出当前帧的鸟瞰图特征;步骤S3:利用所述潜在的障碍物位置信息和速度信息估计物体的位移,以及前序帧和后序帧的位移,进而提取出前序帧的鸟瞰图特征,获得时序鸟瞰图特征;步骤S4:基于所述时序鸟瞰图特征,将多帧的观测信息进行融合,得到出时序上耦合的物体位置信息和速度信息,作为预测的物体信息;步骤S5:利用所述预测的物体信息代替步骤S1的输入,通过循环迭代更新物体检测的位置和速度,进而输出当前帧周围障碍物的位置、尺寸、类别以及对应的速度信息,作为检测结果;步骤S6:基于所述检测结果联合进行物体检测和跟踪。2.根据权利要求1所述的方法,其特征在于,在步骤S1中,所述潜在的障碍物位置信息和速度信息利用基于透视图的物体检测器进行预测。3.根据权利要求1所述的方法,其特征在于,步骤S3包括...

【专利技术属性】
技术研发人员:连庆王泰庞江淼林达华
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1