当前位置: 首页 > 专利查询>清华大学专利>正文

基于模态内和模态间的多模态课程学习方法技术

技术编号:39834000 阅读:19 留言:0更新日期:2023-12-29 16:17
本申请提供了一种基于模态内和模态间的多模态课程学习方法

【技术实现步骤摘要】
基于模态内和模态间的多模态课程学习方法、装置和设备


[0001]本申请涉及多模态学习
,特别涉及一种基于模态内和模态间的多模态课程学习方法

装置和设备


技术介绍

[0002]多模态学习是一种为多模态输入进行建模的方法,通过处理和整合不同来源

不同模态的数据信息来进行结果的预测和推断

多模态学习依靠模态之间信息的互补和对齐,不仅提升了机器学习模型在以往单模态任务上的表现
(
例如,用音频辅助的图片分类任务
)
,还能解决一些只靠单模态无法完成的任务
(
例如,同时需要考虑视频画面和文字问题的视频问答任务
)。
[0003]然而,现有多模态学习中的各个模态编码器都无法达到它们在各自单模态学习中的优化程度

例如,对于音频辅助的图片分类多模态模型,尽管该模型的性能能够优于仅输入图片或仅输入音频的单模态模型,但这一性能提升完全来自于更多信息输入,而不是来自于被优化得更好的模型

...

【技术保护点】

【技术特征摘要】
1.
一种基于模态内和模态间的多模态课程学习方法,其特征在于,所述方法包括:利用包含多个模态编码器的多模态模块对多模态数据进行任务处理,得到任务预测结果和每个模态编码器的样本表征结果,所述多模态数据包括多种不同数据类型的单模态数据;根据所述任务预测结果,计算每个模态编码器的任务损失梯度向量,以及,根据所述样本表征结果,计算每个模态编码器的模态损失梯度向量;根据所述任务损失梯度向量和所述模态损失梯度向量,确定每个模态编码器的关系数值,所述关系数值表征模态编码器的学习方向;选择关系数值最大的模态编码器从任务中学习,选择除所述关系数值最大的模态编码器之外的其余模态编码器从模态中学习
。2.
根据权利要求1所述的方法,其特征在于,根据所述任务预测结果,计算每个模态编码器的任务损失梯度向量,包括:根据所述任务预测结果和真实结果,得到任务损失;计算所述任务损失在每个模态编码器中反向传播的梯度,作为每个模态编码器的任务损失梯度向量
。3.
根据权利要求1所述的方法,其特征在于,根据所述样本表征结果,计算每个模态编码器的模态损失梯度向量,包括:将单模态数据输入到对应模态的教师模型进行处理,得到所述单模态数据的知识蒸馏结果,所述教师模型是预先训练好的模态编码器;根据所述样本表征结果和所述知识蒸馏结果,确定蒸馏损失,所述蒸馏损失表征所述单模态数据的难度;基于自步学习方法,以最小化模态损失为优化目标,根据所述蒸馏损失和蒸馏损失权重,得到模态损失,所述蒸馏损失权重是根据蒸馏损失权重与蒸馏损失之间的映射关系确定的;计算所述模态损失在每个模态编码器中反向传播的梯度,作为每个模态编码器的模态损失梯度向量
。4.
根据权利要求3所述的方法,其特征在于,所述模态损失包括带权重的蒸馏损失

对第一正则项和第二正则项;其中,所述第一正则项以蒸馏损失的移动平均数为系数,所述第一正则项将小于平均数的蒸馏损失权重放大,将大于平均数的蒸馏损失权重减少;所述第二正则项的正则项系数是预定义的,所述第二正则项用于控制所述蒸馏损失权重趋向于
1。5.
根据权利要求1所述的方法,其特征在于,根据所述任务损失梯度向量和所述模态损失梯度向量,确定每个模态编码器的关系数值,包括:以所述任务损失梯度向量和所述模态损失...

【专利技术属性】
技术研发人员:朱文武王鑫周煜威
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1