一种模型生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42503820 阅读:18 留言:0更新日期:2024-08-22 14:17
本公开实施例公开了一种模型生成方法、装置、电子设备及存储介质,其中该方法包括:从初始模型的各第一分支中确定出与多模态模型的第二分支相匹配的目标分支;其中,所述各第一分支和所述第二分支用于进行至少一种模态数据的特征处理;至少部分所述目标分支的参数量小于对应的第二分支的参数量;保留所述初始模型中的所述目标分支,得到中间模型;将样本数据输入所述中间模型以及所述多模态模型,根据所述中间模型的输出以及所述多模态模型的输出确定蒸馏损失;根据所述蒸馏损失对所述中间模型进行参数调整,得到目标模型。通过提供包含初始模型分支匹配、中间模型参数训练的多模态模型的蒸馏框架,能够适配不同任务的多模态模型的知识蒸馏。

【技术实现步骤摘要】

本公开实施例涉及机器学习,尤其涉及一种模型生成方法、装置、电子设备及存储介质


技术介绍

1、目前,大量关于多模态机器学习的研究已广泛开展,其致力于同时处理语音、文本、图像、视频等模态数据中至少两种模态数据。由于需同时处理多种模态数据,多模态模型的架构通常会较为复杂,其巨大的参数量及较慢的推理速度,不利于实际应用中的部署。

2、现有技术中,可采用知识蒸馏的方式,将复杂的大模型的性能迁移至轻量化的小模型中去,以便于实际应用中的模型部署。然而,现有知识蒸馏框架就单模态模型的蒸馏较为成熟,但涉及多模态模型的知识蒸馏的框架较少。


技术实现思路

1、本公开实施例提供了一种模型生成方法、装置、电子设备及存储介质,可提供多模态模型的蒸馏框架,以适配不同任务的多模态模型的知识蒸馏。

2、第一方面,本公开实施例提供了一种模型生成方法,包括:

3、从初始模型的各第一分支中确定出与多模态模型的第二分支相匹配的目标分支;其中,所述各第一分支和所述第二分支用于进行至少一种模态数据的特征处理;至少部分本文档来自技高网...

【技术保护点】

1.一种模型生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述中间模型的输出以及所述多模态模型的输出确定蒸馏损失,包括:

3.根据权利要求2所述的方法,其特征在于,所述第一隐层特征图包括第一注意力图,所述第二隐层特征图包括第二注意力图;

4.根据权利要求1所述的方法,其特征在于,在所述将样本数据输入所述中间模型以及所述多模态模型之后,还包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述中间模型的输出确定训练损失,包括下述至少一项:

6.根据权利要求1所述的方法,其特征在于,所述方法还...

【技术特征摘要】

1.一种模型生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述中间模型的输出以及所述多模态模型的输出确定蒸馏损失,包括:

3.根据权利要求2所述的方法,其特征在于,所述第一隐层特征图包括第一注意力图,所述第二隐层特征图包括第二注意力图;

4.根据权利要求1所述的方法,其特征在于,在所述将样本数据输入所述中间模型以及所述多模态模型之后,还包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述...

【专利技术属性】
技术研发人员:吴捷匡华峰李明肖学锋
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1