一种多模态模型的蒸馏方法及装置制造方法及图纸

技术编号:41264792 阅读:26 留言:0更新日期:2024-05-11 09:21
本申请公开了一种多模态模型的蒸馏方法及装置,方法包括:确定多模态模型M个维度中重要度符合目标条件的N个维度,所述M和N为正整数,所述重要度表征维度输出信息所代表内容的重要性;基于所述多模态模型N个维度的重要度对学生模型进行调参,直至所述多模态模型与所述学生模型之间的蒸馏损失收敛至设定值,所述多模态模型和所述学生模型为语言处理模型,不同所述维度能够表征语言处理模型中文本输入信息对应的不同文本特征;其中,所述蒸馏损失至少基于所述多模态模型N个维度的重要度的第一相关关系以及所述学生模型N个维度的重要度的第二相关关系确定,相关关系表征不同维度的输出信息之间的关联关系。

【技术实现步骤摘要】

本申请涉及模型处理,更具体的说,是涉及一种多模态模型的蒸馏方法及装置


技术介绍

1、为了满足领域内对模型的处理能力和准确度越来越高的要求,一些处理模型也越来越大,如当前的多模态模型。多模态模型对处理资源的要求比较高,因此导致其应用也受到比较大限制。基于此,可以通过对多模态模型进行蒸馏得到功能与多模态模型相符的小模型,以扩展模型应用范围。


技术实现思路

1、有鉴于此,本申请提供如下技术方案:

2、一种多模态模型的蒸馏方法,包括:

3、确定多模态模型m个维度中重要度符合目标条件的n个维度,所述m和n为正整数,所述重要度表征维度输出信息所代表内容的重要性;

4、基于所述多模态模型n个维度的重要度对学生模型进行调参,直至所述多模态模型与所述学生模型之间的蒸馏损失收敛至设定值,所述多模态模型和所述学生模型为语言处理模型,不同所述维度能够表征语言处理模型中文本输入信息对应的不同文本特征;

5、其中,所述蒸馏损失至少基于所述多模态模型n个维度的重要度的第一相关关系以及所述学本文档来自技高网...

【技术保护点】

1.一种多模态模型的蒸馏方法,包括:

2.根据权利要求1所述的多模态模型的蒸馏方法,所述蒸馏损失还基于所述多模态模型N个维度的输出信息的各第一值以及所述学生模型N个维度的输出信息的各第二值确定,值表征输出信息的自身信息。

3.根据权利要求1所述的多模态模型的蒸馏方法,所述基于所述多模态模型N个维度的重要度对学生模型进行调参,直至所述多模态模型与所述学生模型之间的蒸馏损失收敛至设定值,包括:

4.根据权利要求3所述的多模态模型的蒸馏方法,所述M个维度中重要度符合目标条件的N个维度表示,所述N个维度表征的文本特征符合重要度条件;所述确定所述多模态模型N个维...

【技术特征摘要】

1.一种多模态模型的蒸馏方法,包括:

2.根据权利要求1所述的多模态模型的蒸馏方法,所述蒸馏损失还基于所述多模态模型n个维度的输出信息的各第一值以及所述学生模型n个维度的输出信息的各第二值确定,值表征输出信息的自身信息。

3.根据权利要求1所述的多模态模型的蒸馏方法,所述基于所述多模态模型n个维度的重要度对学生模型进行调参,直至所述多模态模型与所述学生模型之间的蒸馏损失收敛至设定值,包括:

4.根据权利要求3所述的多模态模型的蒸馏方法,所述m个维度中重要度符合目标条件的n个维度表示,所述n个维度表征的文本特征符合重要度条件;所述确定所述多模态模型n个维度的重要度之间的的第一相关关系,包括:

5.根据权利要求4所述的多模态模型的蒸馏方法,所述基于所述多模态模型的输出信息确定其n个维度中各个维度的协方差分量,包括:...

【专利技术属性】
技术研发人员:舒红乔王奇刚李远辉
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1