【技术实现步骤摘要】
本专利技术涉及多模态学习、图像处理和自动驾驶,并特别涉及一种基于模态调和的多模态模型训练方法及装置。
技术介绍
1、现实世界中的数据通常在各个领域遵循多模态(例如文本、视频和音频),包括基于图数据的数据挖掘分类、用于图像分类的计算机视觉处理。因此,多模态学习最近在深度学习界受到了极大的研究关注。多模态学习中的主流范式通常采用联合学习策略,其中大量研究主要集中于将模态特定特征融合到共享表示中,然后将其用于各种下游任务。
2、虽然多模态学习取得了巨大成功,但大量的实验观察和最近的理论分析指出,当前的多模态学习范式会产生模态竞争现象,其中多模态学习模型被部分模态控制。模态竞争描述了在处理包含多种感官信息的任务时,某些模态可能因其信息量或特征的显著性而主导学习过程,导致其他模态的潜力未能得到充分利用。以一个典型的场景为例,当模型面对一个充满噪声的街道,同时接收到语音和图像信息时,如果图像信息的丰富度超过了音频信息,模型可能会倾向于从图像中提取特征,从而在多模态学习中占据主导地位。这种偏向性可能会抑制音频模态的优化,进而影响整个多模态
...【技术保护点】
1.一种基于模态调和的多模态模型训练方法,其特征在于,包括:
2.如权利要求1所述的基于模态调和的多模态模型训练方法,其特征在于,该多模态模型为多模态语义分割任务,输入数据模态是RGB图像和深度图,该类别标签为语义分割结果。
3.如权利要求1或2所述的基于模态调和的多模态模型训练方法,其特征在于,该交替训练步骤包括:
4.一种基于模态调和的多模态模型训练装置,其特征在于,包括:
5.如权利要求4所述的基于模态调和的多模态模型训练装置,其特征在于,该多模态模型为多模态语义分割任务,输入数据模态是RGB图像和深度图,该类别标
...【技术特征摘要】
1.一种基于模态调和的多模态模型训练方法,其特征在于,包括:
2.如权利要求1所述的基于模态调和的多模态模型训练方法,其特征在于,该多模态模型为多模态语义分割任务,输入数据模态是rgb图像和深度图,该类别标签为语义分割结果。
3.如权利要求1或2所述的基于模态调和的多模态模型训练方法,其特征在于,该交替训练步骤包括:
4.一种基于模态调和的多模态模型训练装置,其特征在于,包括:
5.如权利要求4所述的基于模态调和的多模态模型训练装置,其特征在于,该多模态模型为多模态语义分割任务,输入数据模...
【专利技术属性】
技术研发人员:许倩倩,华聪,包世龙,杨智勇,黄庆明,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。