基于跨模态Transformer的点云语义分割方法技术

技术编号:38274539 阅读:11 留言:0更新日期:2023-07-27 10:27
一种基于跨模态Transformer的点云语义分割方法,属于语义分割技术领域。方法注重将相机图像密集视觉信息引导到点云语义分割任务中,以完成点云语义分割任务。先将三维点云按照坐标系变换关系统一到相机图像坐标系下,然后透视投影得到三维点云的二维表示,接着计算提取得到多尺度特征图,再进行跨模态注意力融合,将相机图像与投影的点云图像进行特征级融合,最后上采样图像并进行分类,将分类结果根据逆投影变换关系投影到三维点云上即可完成点云语义分割任务。利用Transformer自注意机制来建立跨模态间特征依赖关系,结合图像和点云两个模态的特征信息,增强了模型的特征表达能力,并设计了边界性损失函数,强调语义物体的边界,从而提高了物体分割的边界精度。从而提高了物体分割的边界精度。从而提高了物体分割的边界精度。

【技术实现步骤摘要】
基于跨模态Transformer的点云语义分割方法


[0001]本专利技术涉及语义分割
,尤其涉及一种基于跨模态Transformer的点云语义分割方法,适合用于有获取环境信息、感知环境需求的应用场景中,如自动驾驶或道路监控。

技术介绍

[0002]随着深度学习技术的高速发展,计算机在越来越多的领域中的发展潜力被挖掘出来。场景理解是许多应用的基础任务,如自动驾驶、自主机器人和增强现实。场景理解可以为高级应用(如自动驾驶汽车)提供具备细粒度的环境信息,而它的重要任务之一是语义分割,语义分割指为输入数据中的每个数据点分配一个类别标签。近年来,随着三维采集设备更新换代和成本降低,越来越多的研究人员将精力投入到三维场景语义分割的研究当中。
[0003]点云数据是通过激光雷达扫描器通过发射激光、接收反射激光来主动获取外界环境的空间的一种三维数据信息,具有稀疏性、离散性、无结构性的特点。在点云领域,与图像领域的发展相似,传统点云语义提取方法设计为针对点云描述子的手工设计特征,不具有可学习性,进而对具体任务的适应性不强,效果难以满足实际需求。随着深度学习技术的发展,近年来涌现了很多代表性的工作,点云分类网络PointNet是开创性研究成果。以及PointNet++成为了后续工作的典范。
[0004]跨模态融合是将多个种类的数据进行融汇整合,以达到增强特征表达,提高模型性能的目的,尤其可克服因单一模态数据带来的固有缺陷。具体到点云和相机图像两类数据,点云数据具备空间尺度、深度等三维信息,但缺乏物体纹理、颜色信息;相机图像则包含丰富的纹理、颜色信息,但图像容易受环境因素影响,图像质量易受损。因此,点云数据和图像数据两者相辅相成。进行跨模态的信息交互融合,可以进一步提高三维场景理解的研究水平。然而,由于点云和图像数据间存在着固有的数据格式差异以及领域差距,如何有效融合这两类数据进行三维场景语义提取任务仍是具有挑战性的问题。

技术实现思路

[0005]技术问题:本专利技术的目的在于克服跨模态融合的程度低的问题,有效提高跨模态融合能力,借助Transformer全局依赖性建模机制,提供一种为点云提供互补信息、丰富隐式特征空间分布、增强模型的特征表达能力、提高物体分割的边界精度的基于跨模态Transformer的点云语义分割方法。
[0006]技术方案:为实现本专利技术的目的,本专利技术一种基于跨模态Transformer的点云语义分割方法,包括以下步骤:
[0007]S1、针对给定场景的三维点云和相应视野范围的相机彩色图像根据旋转矩阵R、平移矩阵T,将三维点云透视投影变换转换到二维平面上,将三维点云中共计N个点的各自4个维度数据,外加计算得到的距离
共5个维度数据,组合成为二维图像N为点云数量,H为图像高度,W为图像宽度;
[0008]S2、将投影得到的二维图像和相机彩色图像分别经过基于ResNet网络处理之后分别得到4个尺度特征图和l为尺度索引,I表示二维图像经过ResNet得到的特征图,S表示相机彩色图像经过ResNet得到的特征图;
[0009]S3、得到多尺度特征图和之后,取l=1尺度的特征图和输入到Transformer中进行特征跨模态自注意,得到跨模态图像特征F
1C

[0010]S4、针对步骤S3得到的跨模态图像特征F
1C
,进行双线性插值上采样步骤和CNN卷积网络处理,得到l=1尺度的最终特征图其中,H为图像高度,W为图像宽度;
[0011]S5、同理,将步骤S2中l=2,3,4尺度的特征图逐步经过步骤S3、S4处理得到最终特征图记作特征图组
[0012]S6、得到特征图组后,将所有特征图在维度上相连接,通过卷积层得到概率体T,对概率体沿维度方向进行softmax运算来归一化概率以得到分割结果图P0;
[0013]S7、计算分割结果图和真实值之间的损失,根据得到的损失值训练整个网络,直到达到限定次数,此时得到的分割结果图就是最终的分割图,选取最大概率处的维度值为预测的类别值,根据反透视投影过程得到三维点云的分割结果。
[0014]步骤S1中,所述的三维点云的透视投影变换成二维图像方法如下:
[0015]S11、取出给定的三维点云的前三个维度坐标值x、y和z,以其中一个点p为例,添加第四个维度,进行齐次坐标化,得到坐标p=(x,y,z,1)
T

[0016]S12、将得到的齐次坐标p=(x,y,z,1)
T
,根据透视投影变换将点云坐标系坐标转换成相机坐标系坐标,透视投影变换公式为:
[0017][0018]其中,是相机内参矩阵,坐标系变换矩阵,是旋转修正矩阵,得到p点的相机坐标系坐标写作
[0019]S13、将得到的相机坐标系坐标归一化,得到作为对应于三维点云中p点的二维平面坐标;对三维点云中所有点进行步骤S11、S12、S13的处理;
[0020]S14、将原本三维点云的4个通道信息和距离信息共计5个维度信息作为透视投影转换得到的二维图像的维度信息,最终得到二维图像H为图像高度,W为图像宽度。
[0021]步骤S2中,所述4个尺度特征图和的提取方法如下:
[0022]S21、将给定的点云投影二维图像和相机彩色图像分别输入到ResNet网络中进行预处理,在ResNet网络的基础上使用CNN卷积层各自提取出4个尺度特
征图和具体为:对S1阶段处理得到的图像和分别经过ResNet网络得到的4个尺度特征图,共计8个特征图,最终得到的特征图和由大到小依次为:由大到小依次为:和
[0023]步骤S3中,所述的特征跨模态自注意的计算方法如下:
[0024]S31、对步骤S2得到的特征图和以融合尺度l=1特征图和为例,输入到Transformer中进行特征跨模态自注意计算,计算步骤如下:
[0025](1)对于输入的图像特征和均通过linear embedding将通道数从256变为C,此时得到初始输入特征,分别记作g
I
和g
S
,g
I
表示由得到的初始输入特征,g
S
表示由得到的初始输入特征;
[0026](2)将得到的g
I
和g
S
输入到Transformer中进行处理:g
I
和g
S
首先经过归一化层和自注意计算后与g
I
相加得到再将得到的经过归一化层和多层感知机处理后与自身相加,最终得到跨模态特征输出F
lC
,公式如下:
[0027][0028][0029][0030]其中,LN表示归一化层,linear表示线性映射层,MLP表示多层感知机,a、b、c分别指代输入的三个参数,分别为LN(g
S
)、LN(g
I
)和LN(g
I
);F
1C
为尺度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态Transformer的点云语义分割方法,其特征在于,该方法包括以下步骤:S1、针对给定场景的三维点云和相应视野范围的相机彩色图像根据旋转矩阵R、平移矩阵T,将三维点云透视投影变换转换到二维平面上,将三维点云中共计N个点的各自4个维度数据,外加计算得到的距离共5个维度数据,组合成为二维图像N为点云数量,H为图像高度,W为图像宽度;S2、将投影得到的二维图像和相机彩色图像分别经过基于ResNet网络处理之后分别得到4个尺度特征图和l为尺度索引,I表示二维图像经过ResNet得到的特征图,S表示相机彩色图像经过ResNet得到的特征图;S3、得到多尺度特征图和之后,取l=1尺度的特征图和输入到Transformer中进行特征跨模态自注意,得到跨模态图像特征F
1C
;S4、针对步骤S3得到的跨模态图像特征F
1C
,进行双线性插值上采样步骤和CNN卷积网络处理,得到l=1尺度的最终特征图其中,H为图像高度,W为图像宽度;S5、同理,将步骤S2中l=2,3,4尺度的特征图逐步经过步骤S3、S4处理得到最终特征图记作特征图组S6、得到特征图组后,将所有特征图在维度上相连接,通过卷积层得到概率体T,对概率体沿维度方向进行softmax运算来归一化概率以得到分割结果图P0;S7、计算分割结果图和真实值之间的损失,根据得到的损失值训练整个网络,直到达到限定次数,此时得到的分割结果图就是最终的分割图,选取最大概率处的维度值为预测的类别值,根据反透视投影过程得到三维点云的分割结果。2.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法,其特征在于:步骤S1中,所述的三维点云的透视投影变换成二维图像方法如下:S11、取出给定的三维点云的前三个维度坐标值x、y和z,以其中一个点p为例,添加第四个维度,进行齐次坐标化,得到坐标p=(x,y,z,1)
T
;S12、将得到的齐次坐标p=(x,y,z,1)
T
,根据透视投影变换将点云坐标系坐标转换成相机坐标系坐标,透视投影变换公式为:其中,是相机内参矩阵,坐标系变换矩阵,是旋转修正矩阵,得到p点的相机坐标系坐标写作S13、将得到的相机坐标系坐标归一化,得到作为对应于三维点云中p点的二维平面坐标;对三维点云中所有点进行步骤S11、S12、S13的处理;S14、将原本三维点云的4个通道信息和距离信息共计5个维
度信息作为透视投影转换得到的二维图像的维度信息,最终得到二维图像H为图像高度,W为图像宽度。3.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法,其特征在于:步骤S2中,所述4个尺度特征图和的提取方法如下:S21、将给定的点云投影二维图像和相机彩色图像分别输入到ResNet网络中进行预处理,在ResNet网络的基础上使用CNN卷积层各自提取出4个尺度特征图和具体为:对S1阶段处理得到的图像和分别经过ResNet网络得到的4个尺度特征图,共计8个特征图,最终得到的特征图和由大到小依次为:大到小依次为:和4.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法,其特征在于,步骤S3中,所述的特征跨模态自注意的计算方法如下:S31、对步骤S2得到的特征图和以融合尺度l=1特征图和为例,输入到Transformer中进行特征跨模态自注意计算,计算步骤如下:(1)对于输入的图像特征和均通过linear embedding将通道数从256变为C,此时得到初始输入特征,分别记作g
I
和g
S
,g
I
表示由得到的初始输入特征,g
S
表示由得到的初始输入特征;(2)将得到的g
I
和g
S
输入到Transformer中进行处理:g
I
和g
S
首先经过归一化层和自注意计算后与g
I
相加得到再将得到的经过归一化层和多层感知机处理后与自身相加,最终得到跨模态特征输出F
lC
,公式如下:,公式如下:,公式如下:其...

【专利技术属性】
技术研发人员:周勇解泽明赵佳琦
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1