【技术实现步骤摘要】
一种多模态数据的处理方法及相关装置
[0001]本申请实施例涉及人工智能
(Artificial Intelligence
,
AI)
,尤其涉及一种多模态数据的处理方法及相关装置
。
技术介绍
[0002]在可靠的自动驾驶系统中,感知三维
(3
‑
dimension
,
3D)
空间中的物理世界是至关重要的
。
随着自动驾驶领域的传感器变得更加先进,以一种统一的方式集成从不同传感器
(
如摄像头和激光雷达
)
捕获的互补信号是必要的
。
[0003]从多传感器系统获取的数据在根本上以不同的模态表示:例如,摄像头捕捉到语义丰富的图像,而激光雷达在
3D
空间中获取具有精确几何信息的点云
。
集成这些互补的传感器信号是实现鲁棒的
3D
感知的理想解决方案
。
然而,由于原始数据表示的巨大差异,开发有效的融
【技术保护点】
【技术特征摘要】
1.
一种多模态数据的处理方法,其特征在于,包括:获取第一图像和点云数据;将所述第一图像转换为图像特征序列,以及将所述点云数据转换为点云特征序列,所述图像特征序列和所述点云特征序列均包括多个向量,且所述图像特征序列和所述点云特征序列中所包括的向量的维度相同;通过特征提取网络分别对所述图像特征序列和所述点云特征序列进行处理,得到对应于所述图像特征序列的第一特征序列以及对应于所述点云特征序列的第二特征序列;对所述第一特征序列和所述第二特征序列进行融合处理,得到融合特征,所述融合特征用于执行环境感知任务
。2.
根据权利要求1所述的方法,其特征在于,所述对所述第一特征序列和所述第二特征序列进行融合处理,得到融合特征,包括:基于所述点云数据中的点在图像空间中的投影位置,将所述第二特征序列中的向量融合至所述第一特征序列中,得到第一融合序列,其中所述第二特征序列中的向量在所述点云数据中具有对应的点;基于所述第一图像中的图像块在点云空间的映射位置,将所述第一特征序列中的向量融合至所述第二特征序列中,得到第二融合序列,所述第一特征序列中的向量在所述第一图像中具有对应的图像块;对所述第一融合序列和所述第二融合序列进行融合处理,得到所述融合特征
。3.
根据权利要求2所述的方法,其特征在于,所述基于所述点云数据中的点在图像空间中的投影位置,将所述第二特征序列中的向量融合至所述第一特征序列中,包括:将所述点云数据中的点投影至所述图像空间,得到所述点云数据中的点在所述第一图像中的投影位置;将所述第一特征序列中的第一向量调整为所述第一向量与所述第二特征序列中的第二向量的融合结果;其中,所述第二向量所对应的点的投影位置位于所述第一向量所对应的图像块中
。4.
根据权利要求2或3所述的方法,其特征在于,所述基于所述第一图像中的图像块在点云空间的映射位置,将所述第一特征序列中的向量融合至所述第二特征序列中,包括:将所述第一图像中的图像块映射至所述点云空间,得到所述第一图像中的图像块在所述点云空间中的映射位置;将所述第二特征序列中的第三向量调整为所述第三向量与所述第一特征序列中的第四向量的融合结果;其中,所述第三向量所对应的图像块的映射位置位于所述第四向量所对应的点所处的立方体空间中
。5.
根据权利要求4所述的方法,其特征在于,所述将所述第一图像中的图像块映射至所述点云空间,包括:基于所述点云数据中的点在所述第一图像中的投影位置,确定距离所述第一图像中的第一图像块最近的至少一个投影位置;基于所述至少一个投影位置对应的点的深度,确定所述第一图像块在所述点云空间的映射位置
。
6.
根据权利要求2‑5任意一项所述的方法,其特征在于,所述对所述第一融合序列和所述第二融合序列进行融合处理,得到所述融合特征,包括:将所述第一融合序列和所述第二融合序列分别转换至鸟瞰视角
BEV
空间,得到第一
BEV
特征和第二
BEV
特征;融合所述第一
BEV
特征和所述第二
BEV
特征,得到所述融合特征
。7.
根据权利要求1‑6任意一项所述的方法,其特征在于,所述将所述第一图像转换为图像特征序列,包括:将所述第一图像划分为多个图像块;通过第一特征转换器将所述多个图像块中的每个图像块转换为向量,得到由所述多个图像块对应的多个向量排列构成的所述图像特征序列
。8.
根据权利要求1‑7任意一项所述的方法,其特征在于,所述将所述点云数据转换为点云特征序列,包括:基于所述点云数据划分得到多个立方体空间,所述多个立方体空间中的每个立方体空间包括所述点云数据中的一个或多个点;基于所述每个立方体空间中所包括的点,通过第二特征转换器将所述多个立方体空间中的每个立方体空间转换为向量,得到由所述多个立方体空间对应的多个向量排列构成的所述点云特征序列
。9.
根据权利要求1‑8任意一项所述的方法,其特征在于,所述第一图像和所述点云数据是在同一个场景下采集得到的
。10.
根据权利要求1‑9任意一项所述的方法,其特征在于,所述第一图像和所述点云数据的采集场景为以下的任意一个场景:自动驾驶场景
、
机器人行驶场景以及智能巡检场景
。11.
一种多模态数据的处理装置,其特征在于,包括:获取模块,用于获取第一图像和点云数据;处理模块,用于将所述第一图像转换为图像特征序列,以及将所述点云数据转换为点云特征...
【专利技术属性】
技术研发人员:李傲雪,汪海洋,汤昊,王立威,李震国,
申请(专利权)人:北京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。