一种应对RGB-D模态缺失的多模态Transformer语义分割算法制造技术

技术编号：40596886 阅读：3 留言：0更新日期：2024-03-12 21:59

一种应对RGB‑D模态缺失的多模态Transformer语义分割算法，为应对多模态图像场景下存在的模态缺失问题设计了多模态自编码模型模态缺失自蒸馏方法和模态混合缺失的训练策略。预训练阶段的模态缺失自蒸馏方法可应对模态缺失情况，对齐缺失模态与完整模态的潜在表征，进而缺失模态可获得更好的重构结果，并提升模态缺失情况下在语义分割任务上的表现。对于下游语义分割任务，通过模态混合缺失的训练策略模拟实际的随机模态缺失场景，使模型通过同一参数来应对各种模态情况。基于设计的多模态Transformer训练流程，模型有效的提升在RGB‑D模态缺失的多模态Transformer语义分割任务上的性能表现和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习、多模态数据融合、图像自编码、语义分割领域，涉及rgb-d多模态特征融合网络multi-modal vit、图像自编码器multi-modalmae、应对缺失模态的蒸馏算法self-distillation和视觉transformer等，具体为一种应对rgb-d模态缺失的多模态transformer语义分割算法。

技术介绍

1、在计算机视觉领域，语义分割任务是建立场景理解与场景感知等高级任务的核心基础。语义分割任务一般被定义为像素级别的分类任务，即对于每个像素分配给其对应的类别标签。有许多工作在语义分割领域来进行探索，以全卷积神经网络为代表的工作有deeplab系列，其通过扩大神经网络的感受野来增强全局的空间信息从而得到更加精准的分割结果，同时也为后续工作给出了对于图像进行语义分割任务的经典思路。而后来随着transformer结构从nlp迁移到cv领域的相关工作(vision trasnformer)的出现，越来越多的工作致力于探索全注意力机制的语义分割网络结构，其中最具有代表性的当属maskformer以及mask2former，这些工作凭借出色的模型效果证实transformer结构在语义分割任务上的优越性。

2、同时，相较于单模态图像数据而言，多模态图像数据如rgb-d通过不同模态信息之间的互补和交互，可以在语义分割任务上获得出更加出色的结果。对于多模态数据，如今的工作侧重于不同模态数据的融合，一般可以分为前融合、后融合。前融合的方式往往先对不同模态数据进行融合交互，不同模态的特征提取和

3、与此同时，缺失模态的鲁棒性在多模态任务中已经成为关注的重要领域。如余梓彤等人的多模态人脸防欺诈工作visual prompt flexible-modal face anti-spoofing，闫俊杰等人的自动驾驶相关工作cross modal transformer:towards fast and robust3d object detection。这些研究表明，在测试时，当缺失某些模态时，任务性能可能会显著下降。md kaykobad reza等人近期研究的robust multimodal learning with missingmodalities via parameter-efficient adaptation工作着手于不同缺失模态下的语义分割任务，然而其应对模态缺失的方法采用的依旧是同一模型分别针对不同的模态缺失情况来分别进行训练，不仅消耗大量计算资源，而且模型无法做到同一套参数来应对各种缺失情况，而我们的方法对不同的模态缺失情况是统一训练、参数共享的，在节省计算资源的同时还可以充分提升模型应对不同情形的鲁棒性和性能表现。

技术实现思路

1、为了解决rgb-d多模态分割任务中的模态缺失问题，提高模型对各种模态输入情况的鲁棒性，本专利技术在多模态自编码模型的预训练阶段设计了一种有效的模态缺失自蒸馏方法；在模型微调阶段，我们设计了一种模态混合缺失的训练策略)用于更好地应对模态的混合缺失情况。通过预训练和微调，我们的模型在完整模态下表现出色，并且在任意模态缺失的情况下，其性能也明显优于当前先进方法在单模态下进行针对性训练的结果。这一方法通过一套参数应对各种模态缺失情况，不仅节省计算资源，而且显著提升了在多模态语义分割任务上模型的鲁棒性，为实际应用中面对多模态数据的复杂场景提供了可靠的解决方案。

2、本专利技术的技术方案：

3、一种应对rgb-d模态缺失的多模态transformer语义分割算法，包含多模态自编码模型模态缺失自蒸馏方法、模态混合缺失的训练策略以及基于上述两个方法所设计的多模态transformer训练流程；

4、多模态自编码模型模态缺失自蒸馏过程应用于多模态图像预训练阶段，预训练分为两个阶段，阶段1为完整模态的预训练过程，具体步骤如下：

5、步骤1：取完整模态样本irgb、id、is，其中rgb表示彩色图像、d表示深度图像、s表示语义分割真值；irgb、id、is经过各自模态的输入适配器进行下采样同时映射到同一模态特征维度得到i表示适配器的输出；其中各自适配器由一个卷积核为16×16，步长为16的下采样卷积层和将特征通道映射为768维的线性层组成，语义分割模态在进入各自适配器前通过类别嵌入调整模态通道；

6、步骤2：步骤1得到的不同模态的特征经在token维度展平，之后进行随机掩码操作，得到未被掩码的特征m表示未被掩码；不同模态的特征在token维度连接在一起，得到编码器的输入

7、步骤3：特征输入进编码器进行不同模态的自注意力和交叉注意力的交互得到编码器输出为其中，编码器为vit-b，共12层encoderblocks，注意力头数为8；

8、步骤4：拆分回不同模态的潜在表征对不同模态利用masked token来填充被掩码位置，之后通过多模态注意力层和重构恢复头得到rgb、d、s模态的重构结果xrgb、xd和xs；其中，多模态注意力层不同分支的作为注意力层的输入q，作为所有模态的k和v；重构结果与整模态样本irgb、id、is计算损失，进行pixel-level的重构训练；其中，多模态注意力层包含将潜在特征从768调整为256的线性层、1层交叉注意力层和2层自注意力层，重构恢复头将多模态注意力层的输出从256调整为768；

9、步骤1～4进行n轮；所使用的损失函数对于rgb模态而言为均方误差损失，对于深度图d模态使用绝对值误差损失，对于语义分割模态使用交叉熵损失；使得模型首先学习并获取完整模态下各个模态的潜在表征；

10、阶段2为缺失模态的蒸馏过程，具体步骤如下：

11、步骤5：通过最后一次完整模态的前向传播至多模态注意力层的结果获得的各个模态的潜在表征，输出结果trgb、td和ts作为缺失训练的真值；

12、步骤6：对于缺失d模态样本irgb,is以及缺失rgb模态的样本id,is，输入对应模态需要保持与步骤5完整模态样本irgb,id,is相同的掩码方式，不同的缺失情况样本经过与步骤1～4相同的网络结构，但是仅获取在其多模态注意力层的输出表征t*，其中*∈{rgb-s,d-s}；缺失情况与第n轮完整模本文档来自技高网...

【技术保护点】

1.一种应对RGB-D模态缺失的多模态Transformer语义分割算法，其特征在于，该多模态Transformer语义分割算法包含多模态自编码模型模态缺失自蒸馏方法、模态混合缺失的训练策略以及基于上述两个方法所设计的多模态Transformer训练流程；

【技术特征摘要】

1.一种应对rgb-d模态缺失的多模态transformer语义分割算法，其特征在于，该多模态transformer语义分割算法...

【专利技术属性】
技术研发人员：王一帆，赵志达，李佳，王立君，卢湖川，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人