一种基于模态调和的多模态模型训练方法及装置制造方法及图纸

技术编号:42953445 阅读:45 留言:0更新日期:2024-10-11 16:10
本发明专利技术提出一种基于模态调和的多模态模型训练方法和装置,包括:获取已标注类别标签的多模态数据,并将其转化为符合模型结构输入的指定形式,得到训练数据。构建包括多个学习器的多模态模型,每个学习器对应一种模态,用于提取对应模态数据的特征,根据各学习器提取的特征进行分类,通过分类结果和该类别标签构建损失函数,依次交替训练每一个模态的学习器,以完成对该多模态模型的训练;将待分类多模态数据输入训练完成后的多模态模型,得到每个学习器的输出特征,融合所有该输出特征,得到该待分类多模态数据的分类结果。

【技术实现步骤摘要】

本专利技术涉及多模态学习、图像处理和自动驾驶,并特别涉及一种基于模态调和的多模态模型训练方法及装置


技术介绍

1、现实世界中的数据通常在各个领域遵循多模态(例如文本、视频和音频),包括基于图数据的数据挖掘分类、用于图像分类的计算机视觉处理。因此,多模态学习最近在深度学习界受到了极大的研究关注。多模态学习中的主流范式通常采用联合学习策略,其中大量研究主要集中于将模态特定特征融合到共享表示中,然后将其用于各种下游任务。

2、虽然多模态学习取得了巨大成功,但大量的实验观察和最近的理论分析指出,当前的多模态学习范式会产生模态竞争现象,其中多模态学习模型被部分模态控制。模态竞争描述了在处理包含多种感官信息的任务时,某些模态可能因其信息量或特征的显著性而主导学习过程,导致其他模态的潜力未能得到充分利用。以一个典型的场景为例,当模型面对一个充满噪声的街道,同时接收到语音和图像信息时,如果图像信息的丰富度超过了音频信息,模型可能会倾向于从图像中提取特征,从而在多模态学习中占据主导地位。这种偏向性可能会抑制音频模态的优化,进而影响整个多模态学习模型的综合性能。本文档来自技高网...

【技术保护点】

1.一种基于模态调和的多模态模型训练方法,其特征在于,包括:

2.如权利要求1所述的基于模态调和的多模态模型训练方法,其特征在于,该多模态模型为多模态语义分割任务,输入数据模态是RGB图像和深度图,该类别标签为语义分割结果。

3.如权利要求1或2所述的基于模态调和的多模态模型训练方法,其特征在于,该交替训练步骤包括:

4.一种基于模态调和的多模态模型训练装置,其特征在于,包括:

5.如权利要求4所述的基于模态调和的多模态模型训练装置,其特征在于,该多模态模型为多模态语义分割任务,输入数据模态是RGB图像和深度图,该类别标签为语义分割结果。<...

【技术特征摘要】

1.一种基于模态调和的多模态模型训练方法,其特征在于,包括:

2.如权利要求1所述的基于模态调和的多模态模型训练方法,其特征在于,该多模态模型为多模态语义分割任务,输入数据模态是rgb图像和深度图,该类别标签为语义分割结果。

3.如权利要求1或2所述的基于模态调和的多模态模型训练方法,其特征在于,该交替训练步骤包括:

4.一种基于模态调和的多模态模型训练装置,其特征在于,包括:

5.如权利要求4所述的基于模态调和的多模态模型训练装置,其特征在于,该多模态模型为多模态语义分割任务,输入数据模...

【专利技术属性】
技术研发人员:许倩倩华聪包世龙杨智勇黄庆明
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1