一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法技术

技术编号:42341903 阅读:43 留言:0更新日期:2024-08-14 16:19
本发明专利技术提供一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法,属于多模态理解与语言交互技术领域。本发明专利技术主要利用构建的多模态语言推理模型进行语言推理,此后,在多模态语言推理模型的模态扩展过程中,借助可灵活扩展的多模态适配器组合模块解决模态扩展中的数据依赖问题,并引入迁移学习中的适配器微调和持续学习中的冻结‑激活策略解决计算负担和知识遗忘问题,最终解决了预训练多模态语言推理模型的模态扩展难题。

【技术实现步骤摘要】

本专利技术涉及多模态理解与语言交互,具体而言,尤其涉及一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法


技术介绍

1、随着视觉语言模型的发展,通过对大规模图文数据对进行预训练对齐和指令调整,视觉-语言问答推理模型在下游应用(如基于文本的目标检测、图像标题生成和基于文本的图像生成等等)都表现出了良好的泛化能力。

2、基于大型语言模型的视觉语言推理框架和训练流程推动了视觉语言模型向其他模态的扩展,包括视频、音频和点云等模态。然而,这些方法受限于单模态输入的语言推理任务,即语言模型仅能理解单一模态输入数据例如图像、视频、音频或点云。这种将单模态数据注入大型语言模型的单模态语言推理难以应对像我们人类一样在实际生活中感知不同模态的挑战。

3、因此,为了解决这一问题,目前的方法x-llm(图像、视频、音频模态对齐的语言推理模型)、chatbridge(对话桥接多模态语言推理模型)、onellm(统一多模态语言推理模型)探索了多模态输入的语言推理任务,但这些方法大体上都需要特定于模态的预训练和联合多模态数据的统一指令微调,这一本文档来自技高网...

【技术保护点】

1.一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法,所述的可学习令牌是指随机初始化的可学习参数。

3.根据权利要求1所述的一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法,所述的前馈层1和前馈层2为全连接层。

【技术特征摘要】

1.一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种基于持续学习和迁移学习的预训练多模态语言推理模型的模态扩展...

【专利技术属性】
技术研发人员:张璐于佳左
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1