【技术实现步骤摘要】
一种基于多模态对比学习的深度特权语义分割方法
[0001]本专利技术属于计算机视觉
的一种深度特权语义分割方法,尤其是涉及了一种基于多模态对比学习的深度特权语义分割方法。
技术介绍
[0002]随着传感器的发展,RGB
‑
D语义分割近年来吸引了越来越多的研究兴趣。RGB
‑
D语义分割利用RGB图像及其对应深度图像,为图像中的每一个像素标注语义类别从而起到分割场景的效果。由于深度图像提供了RGB图像所没有的几何信息,RGB
‑
D语义分割方法在光照条件变化大和色彩纹理差异小的情况下有更加鲁棒的性能,故在自动驾驶和机器人视觉等领域具有潜在应用价值。
[0003]如Chen等人发表《Computer Vision
‑‑
ECCV 2020:16th European Conference,Glasgow,UK,August 23
‑‑
28,2020,Proceedings,Part XI 16》在的《Bi
‑
dir ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态对比学习的深度特权语义分割方法,其特征在于,包括如下步骤:1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像,由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集;2)将所需的训练集进行分批次处理后,按批次地将RGB图像及对应的深度图像输入多模态对比学习语义分割网络中,多模态对比学习语义分割网络由RGB图像分支、深度图像分支和对比学习模块构成,RGB图像分支通过对比学习模块与深度图像分支相连,接着分别计算RGB图像分支和深度图像分支的语义分割损失,还计算对比学习模块的跨模态对比损失,然后根据RGB图像分支和深度图像分支的语义分割损失和跨模态对比损失计算多模态总损失,基于多模态总损失训练多模态对比学习语义分割网络,获得训练好的多模态对比学习语义分割网络;其中,RGB图像分支包括RGB特征编码器、RGB语义解码器和RGB投影模块,RGB特征编码器的输出分别输入RGB语义解码器和RGB投影模块中,RGB投影模块与对比学习模块相连,RGB特征编码器和RGB语义解码器构成RGB语义分割基础网络,RGB语义解码器的输出作为RGB语义分割基础网络的输出;3)将待分割的RGB图像输入训练好的多模态对比学习语义分割网络的RGB语义分割基础网络中进行语义分割,获得语义分割后的RGB图像。2.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述深度图像分支包括深度特征编码器、深度语义解码器和深度投影模块,深度特征编码器的输出分别输入深度语义解码器和深度投影模块中,深度投影模块与对比学习模块相连。3.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述RGB投影模块和深度投影模块的结构相同,具体为:由第一卷积层、一个批归一化层、一个激活函数层和第二卷积层依次连接组成。4.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述步骤2)中RGB投影模块输出多个RGB像素嵌入特征,深度投影模块输出多个深度像素嵌入特征,每一批次的多个RGB像素嵌入特征和深度像素嵌入特征输入对比学习模块中,对比学习模块中对当前批次的多个RGB像素嵌入特征和深度像素嵌入特征进行样本采样,获得当前批次的正负难样本集合并输出,具体为:S1:随机采样每一批次中所有RGB图像的P个像素位置,提取多个深度像素嵌入特征中对应P个像素位置的像素特征并作为当前批次的深度随机像素特征;S2:当前批次的各张深度图像中,对每张深度图像的多个深度像素嵌入特征中属于同一类别的像素特征进行池化,获得当前深度图像的各个类别下的深度中心像素特征,遍历当前批次的剩余深度图像,进行类别像素特征池化,最终获得当前批次的深度中心像素特征;S3:利用RGB
‑
D感知的锚点样本采样方法对当前批次的多个RGB像素嵌入特征进行锚点样本选择,获得当前批次的锚点样本集合;S4:根据当前批次的锚点样本集合,利用挖掘部分难样本的正负样本采样方法对当前批次的深度随机像素特征和深度中心像素特征进行正负样本选择,获得当前批次的正负样本集合,通过衡量锚点样本集合与正负样本集合的相似度进行对比学习,获得当前批次的正负难样...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。