当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于多教师多模态模型的知识蒸馏方法及系统技术方案

技术编号:40610305 阅读:52 留言:0更新日期:2024-03-12 22:18
本发明专利技术公开了一种基于多教师多模态模型的知识蒸馏方法及系统,属于自然语言处理领域,本发明专利技术通过多个教师模型联合进行多模态知识蒸馏到学生模型,这些教师模型具有不同的架构、初始化、训练数据或任务,这种多样性有助于提取不同角度和类型的知识,从而提高了学生模型的鲁棒性以及对图像、文本和图文多模态的理解能力,提升图像识别的准确性、文本理解的准确性和多模态检索的召回率和准确性。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,具体是一种基于多教师多模态模型的知识蒸馏方法及系统


技术介绍

1、受益于transformer架构的成功,最近的视觉语言模型在很多多模态下游任务取得了优异的性能提升。视觉语言模型通常采取单塔和双塔结构,在单塔结构中,图像和文本信息共享一个神经网络塔。这意味着图像编码器和文本编码器的输出共享相同的模型参数,然后通过注意力机制或其他方式将它们融合在一起。在双塔结构中,图像和文本信息分别通过独立的神经网络塔进行编码。这意味着图像编码器和文本编码器具有不同的模型参数,它们在模型中是相对独立的,然后再通过一个目标函数对两种模态信息进行约束,以将两种不同模态的特征信息在一个共享空间表示对齐。

2、但这些优秀的性能多是以高昂的计算代价和较大的参数规模换取的,这同时也带来了高延迟和存储消耗,给现实应用中的部署带来挑战和阻碍。而且这些多模态模型在经过初始化后预训练的过程,在单模态的任务场景存在性能下降。

3、知识蒸馏(knowledge distillation)是一种机器学习技术,旨在将一个复杂的模型的知识转移到一本文档来自技高网...

【技术保护点】

1.一种基于多教师多模态模型的知识蒸馏方法,其特征在于,步骤包括:

2.如权利要求1所述的方法,其特征在于,图像编码器采用L层的Transformer模型,文本编码器和多模态融合器共同采用同一个L层Transformer模型,其中前L/2层作为文本编码器,后L/2层作为多模态融合器;视觉教师模型采用L层的Vision Transformer模型;文本教师模型采用L层的Transformer模型。

3.如权利要求1所述的方法,其特征在于,将觉语言多模态教师模型知识蒸馏到学生模型的多模态融合器时,最终的目标函数为四个目标函数即隐层状态表示对齐和注意力矩阵表示对齐分类输...

【技术特征摘要】

1.一种基于多教师多模态模型的知识蒸馏方法,其特征在于,步骤包括:

2.如权利要求1所述的方法,其特征在于,图像编码器采用l层的transformer模型,文本编码器和多模态融合器共同采用同一个l层transformer模型,其中前l/2层作为文本编码器,后l/2层作为多模态融合器;视觉教师模型采用l层的vision transformer模型;文本教师模型采用l层的transformer模型。

3.如权利要求1所述的方法,其特征在于,将觉语言多模态教师模型知识蒸馏到学生模型的多模态融合器时,最终的目标函数为四个目标函数即隐层状态表示对齐和注意力矩阵表示对齐分类输出logits输出对齐llogits以及图像-文本对比表示学习litc的总和,即

4.如权利...

【专利技术属性】
技术研发人员:赵东岩梁建新刘畅张诗玉
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1