【技术实现步骤摘要】
本专利技术属于自然语言处理领域,具体是一种基于多教师多模态模型的知识蒸馏方法及系统。
技术介绍
1、受益于transformer架构的成功,最近的视觉语言模型在很多多模态下游任务取得了优异的性能提升。视觉语言模型通常采取单塔和双塔结构,在单塔结构中,图像和文本信息共享一个神经网络塔。这意味着图像编码器和文本编码器的输出共享相同的模型参数,然后通过注意力机制或其他方式将它们融合在一起。在双塔结构中,图像和文本信息分别通过独立的神经网络塔进行编码。这意味着图像编码器和文本编码器具有不同的模型参数,它们在模型中是相对独立的,然后再通过一个目标函数对两种模态信息进行约束,以将两种不同模态的特征信息在一个共享空间表示对齐。
2、但这些优秀的性能多是以高昂的计算代价和较大的参数规模换取的,这同时也带来了高延迟和存储消耗,给现实应用中的部署带来挑战和阻碍。而且这些多模态模型在经过初始化后预训练的过程,在单模态的任务场景存在性能下降。
3、知识蒸馏(knowledge distillation)是一种机器学习技术,旨在将一个复杂
...【技术保护点】
1.一种基于多教师多模态模型的知识蒸馏方法,其特征在于,步骤包括:
2.如权利要求1所述的方法,其特征在于,图像编码器采用L层的Transformer模型,文本编码器和多模态融合器共同采用同一个L层Transformer模型,其中前L/2层作为文本编码器,后L/2层作为多模态融合器;视觉教师模型采用L层的Vision Transformer模型;文本教师模型采用L层的Transformer模型。
3.如权利要求1所述的方法,其特征在于,将觉语言多模态教师模型知识蒸馏到学生模型的多模态融合器时,最终的目标函数为四个目标函数即隐层状态表示对齐和注意
...【技术特征摘要】
1.一种基于多教师多模态模型的知识蒸馏方法,其特征在于,步骤包括:
2.如权利要求1所述的方法,其特征在于,图像编码器采用l层的transformer模型,文本编码器和多模态融合器共同采用同一个l层transformer模型,其中前l/2层作为文本编码器,后l/2层作为多模态融合器;视觉教师模型采用l层的vision transformer模型;文本教师模型采用l层的transformer模型。
3.如权利要求1所述的方法,其特征在于,将觉语言多模态教师模型知识蒸馏到学生模型的多模态融合器时,最终的目标函数为四个目标函数即隐层状态表示对齐和注意力矩阵表示对齐分类输出logits输出对齐llogits以及图像-文本对比表示学习litc的总和,即
4.如权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。