System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于跨层级特征交互和可学习池化的三维单目标跟踪方法技术_技高网

基于跨层级特征交互和可学习池化的三维单目标跟踪方法技术

技术编号:40917426 阅读:2 留言:0更新日期:2024-04-18 14:43
本发明专利技术公开了一种基于跨层级特征交互和可学习池化的三维单目标跟踪方法,包括如下步骤:S1、构建连续两帧点云t和t‑1的数据集,通过点云体素化、共享权重的三维稀疏卷积和体素特征压缩,得到多尺度BEV特征和S2、基于特征和进行跨层级特征交互,生成增强的BEV特征表示和并级联两帧特征,得到S3、将输入到可学习池化模块中,计算得到全局特征线索S4、基于全局特征信息进行预测。该方法所提的跨层级特征交互模块和可学习的池化模块可以沟通不同尺度的BEV特征并获取准确的运动线索,能够有效地提高跟踪地准确率。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,具体指一种基于跨层级特征交互和可学习池化的三维单目标跟踪方法


技术介绍

1、由于点云数据面对光照条件、恶劣天气和遮挡的鲁棒性,基于三维点云的单目标跟踪技术显示出巨大的潜力,在自动驾驶,视频监控等多方面任务中起着关键作用。给定初始状态,三维单目标跟踪技术旨在在一系列点云序列中跟踪特定的目标。

2、目前主流的三维点云单目标跟踪范式包括外观匹配范式和运动中心范式,两者均是通过直接输入原始点云数据,依靠逐点的特征表示来跟踪目标。外观匹配范式采用一个共享权重的骨干网络对目标模板和搜索区域点云进行特征提取,通过逐点的外观匹配技术来确定目标点,最后基于预测头实现对目标的定位。尽管基于外观匹配范式的跟踪器在公开的跟踪基准上表现优异,但是在实际场景中由于物体外观的变化、干扰物的存在以及点云的稀疏性等因素,跟踪器难以生成高质量的目标候选框,从而导致跟踪预测的结果不准确;运动中心范式则利用分割网络对相邻视频帧的点云进行前景点和背景点的识别,然后通过运动建模方法和细化模块估计目标位置。虽然基于运动中心范式的跟踪器能够在干扰物较多的场景下更好的定位目标,但是简单的点云分割忽视了背景点提供的重要的语义线索,同时基于多层感知机的运动建模网络难以生成准确的运动线索。


技术实现思路

1、本专利技术针对现有技术的不足,提出一种三维点云单目标跟踪方法,该方法将无序的点云转换到鸟瞰图(bird’s eye view,bev)表示,并提出跨层级特征交互模块和可学习的池化模块来融合不同尺度的bev特征并获取准确的运动线索,以提高跟踪的准确率。

2、为了解决上述技术问题,本专利技术的技术方案为:

3、一种基于跨层级特征交互和可学习池化的三维单目标跟踪方法,具体包括以下步骤:

4、步骤1、构建连续两帧点云t和t-1的多尺度bev特征和首先通过动态的体素化操作将两帧无序的点排列成均匀间隔的网格,并使用权重共享的三维稀疏卷积模块提取非空体素特征。每个三维稀疏卷积的步幅为2,经过3次稀疏卷积后,体素特征的空间分辨率依次被下采样为2倍、4倍、8倍。为了得到密集的特征表示,合并每个尺度体素特征的高度维度和特征维度,得到t和t-1两帧点云的多尺度bev特征和其中hl和wl为第l(1≤l≤l)个尺度的bev特征尺寸,c为特征通道数。

5、步骤2、基于不同尺度的bev特征和本专利技术创新性地将目标检测领域中多尺度可变形注意力机制应用到三维单目标跟踪中,并提出跨层级特征交互模块,以有效地沟通不同尺度的特征,生成增强的bev特征表示和此外,本专利技术通过简单地级联来融合t和t-1帧的bev特征ft和ft-1,以此保护相邻视频帧中物体的空间相似性,得到

6、具体如下:

7、1)首先,将尺度l的特征和通过展平和级联操作构成跨层级特征交互模块的输入其中i=hl×wl,为向量i的长度,c为向量i的特征维度。基于位置编码器对每个输入进行位置编码,并与i相加得到一组查询向量公式如下:

8、q=i+pe(i)                           (1)

9、其中,pe(.)为可学习的位置编码器。

10、2)输入至跨层级特征交互模块中,设置n_heads=h为注意力机制的头数,n_levels=l为特征向量图的尺度数,n_points=p为每个查询向量q预测的偏移点数,即每个q对应的键(k),值(v)数。q通过线性映射得到偏移量o,表示每个q对应在输入坐标向量图中的x,y的坐标偏移量。将归一化后的偏移量o与归一化后的输入坐标向量图r相加,得到每个q的采样点的位置即每个q对应在l个尺度的坐标向量图中的p个键(k)和值(v)的位置坐标,公式如下:

11、s=norm(r)+norm(linear(q))                 (2)

12、其中表示将l个尺度的坐标向量图的像素中心点分别都映射到l个坐标向量图中,linear(·)为线性映射,norm(.)为归一化操作。

13、3)基于采样点的位置s,在l个尺度的输入特征向量图中获取每个q对应的p个采样点的位置的特征,作为值(v),其中d为v的特征维度。

14、4)接下来,将q通过线性映射和view获取注意力权重,并通过softmax(·)得到最终权重分数公式如下:

15、w=softmax(view(linear(q)))                     (3)

16、5)最后,将注意力权重w与值v相乘,同时对尺度数l和偏移点数p进行求和,得到最终的输出公式如下:

17、

18、6)将输出还原为t和t-1两帧的bev特征,即增强的bev特征和在特征维度上级联t和t-1两帧具有相同尺度的bev特征,得到

19、步骤3、经过跨层级特征交互模块后,得到特征将其输入到可学习池化模块中,计算得到全局特征线索本专利技术提出的可学习池化模块是基于可学习查询lq的注意机制来计算全局特征信息,它能够避免非最大像素特征信息的损失,并有效的关注重要像素点的特征,以提供准确的运动线索。

20、具体如下:

21、1)首先,将特征通过卷积层构成输入基于特征维度进行最大池化和平均池化操作,将c个特征通道的h×w的特征压缩为单特征通道的特征和级联mit,t-1和ait,t-1,经过一个1*1的卷积层学习参数,并通过softmax(·)函数获取h×w个像素点的注意力权重权重a与输入相乘得到加权的特征图公式如下:

22、mit,t-1=maxpool(it,t-1)  (5)

23、ait,t-1=avgpool(it,t-1)  (6)

24、sit,t-1=softmax(conv([mit,t-1,ait,t-1]))*it,t-1  (7)

25、其中maxpool(·),avgpool(.)分别为最大池化函数和平均池化函数。

26、2)将sit,t-1通过线性层映射为输入向量构建全局可学习查询并设置输入到全局注意力模块中,得到最终的特征输出公式如下:

27、lpft,t-1=msag(lq,key,value)                 (8)

28、其中msag(.)为全局的注意力模块。

29、步骤4、将特征压缩,并通过一系列多层感知机预测相邻两帧t和t-1之间目标的中心平移偏移量(δx,δy,δz)以及角度偏移量δθ,得到最终目标在t帧时的边界框bt,公式如下:

30、(δx,δy,δz,δθ)=mlp(lpft,t-1)          (9)

31、bt=transform(bt-1,(δx,δy,δz,δθ))          (10)

32、其中mlp(.)为多层感知机。

33、本专利技术具有以下的特点和有益效果:

本文档来自技高网...

【技术保护点】

1.一种基于跨层级特征交互和可学习池化的三维单目标跟踪方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于跨层级特征交互和可学习池化的三维单目标跟踪方法,其特征在于,所述步骤S2中增强多尺度BEV特征的方法为:

3.根据权利要求2所述的基于跨层级特征交互和可学习池化的三维单目标跟踪方法,其特征在于,所述步骤S2中,通过跨层级特征交互模块增强特征的方法为:

4.根据权利要求2或3所述的基于跨层级特征交互和可学习池化的三维单目标跟踪方法,其特征在于,所述L为3。

5.根据权利要求4所述的基于跨层级特征交互和可学习池化的三维单目标跟踪方法,其特征在于,所述可学习池化模块采用基于可学习查询lq的注意机制来计算全局特征信息。

6.根据权利要求5所述的基于跨层级特征交互和可学习池化的三维单目标跟踪方法,其特征在于,所述步骤S3中,通过可学习池化模块计算全局特征信息:

【技术特征摘要】

1.一种基于跨层级特征交互和可学习池化的三维单目标跟踪方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于跨层级特征交互和可学习池化的三维单目标跟踪方法,其特征在于,所述步骤s2中增强多尺度bev特征的方法为:

3.根据权利要求2所述的基于跨层级特征交互和可学习池化的三维单目标跟踪方法,其特征在于,所述步骤s2中,通过跨层级特征交互模块增强特征的方法为:

4.根据权利要...

【专利技术属性】
技术研发人员:何志伟许安琪聂佳浩高明裕吕旭冬董哲康杨宇翔
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1